Ahora contamos con un flujo de trabajo multiagente que proporciona un desglose estructurado que reduce las «alucinaciones», mejora la coherencia y aumenta la transparencia de una forma que resulta intuitiva y auditable a la vez. Esta arquitectura refleja la forma en que los actuarios y los gestores de siniestros abordan de manera natural la evaluación de la enfermedad grave, es decir, desglosando una tarea de juicio compleja en componentes claros.
Ofrece varias ventajas:
- Reducción de las alucinaciones gracias a unos ámbitos de aplicación bien delimitados
- Mejora de la auditabilidad al hacer explícito cada paso
- Modularidad, lo que permite probar o mejorar cada agente de forma independiente
- Trazabilidad intuitiva que muestra exactamente cómo se llegó a la conclusión
- Cumplimiento de las expectativas actuariales y normativas en materia de explicabilidad
Este flujo de trabajo transforma la IA generativa de un «predictor de caja negra» en un socio que apoya la toma de decisiones de forma explicable, regulada y trazable.
Fiabilidad por diseño – evaluación y gobernanza de la IA generativa
La fiabilidad de la IA ha sido un tema central para los reguladores y los responsables políticos del sector financiero,2 prestándose especial atención a cómo puede implementarse de manera estable y fiable. Aspectos como el sesgo, la equidad, la explicabilidad, la transparencia y la interpretabilidad son fundamentales a la hora de implementar soluciones de IA generativa. Sin embargo, la fiabilidad no debe considerarse una característica exclusiva del modelo. Se trata más bien de una propiedad de todo el flujo de trabajo en el que opera el modelo. Por lo tanto, para que una solución de IA generativa sea sólida, no solo se necesitan agentes bien diseñados, sino también una evaluación rigurosa, una gobernanza adecuada y una supervisión continua de todo el flujo de trabajo.
Una medida de seguridad importante es establecer un marco de revisión con participación humana. Aunque los flujos de trabajo basados en agentes pueden reducir los errores y mejorar la coherencia, la supervisión humana sigue siendo esencial.
Para implementar un marco de supervisión humana eficiente, se pueden establecer métricas predefinidas adecuadas al caso de uso, de modo que los casos complicados se deriven para la revisión humana. Dado que no existe una norma universal que especifique qué proporción de los resultados de la IA generativa debe ser revisada por humanos, este marco puede ayudar a las organizaciones a establecer umbrales adecuados a su tolerancia al riesgo y a sus necesidades operativas.
Por ejemplo, durante la fase de pruebas, se pueden evaluar las puntuaciones de confianza en un conjunto de datos de validación para determinar el nivel por debajo del cual los resultados deben señalarse para su revisión humana. También se pueden introducir reglas de revisión adicionales para terminología poco común, novedosa o especialmente sensible a los errores y sesgos. En el contexto de la clasificación de siniestros de EG, esto puede incluir clasificaciones de baja confianza, terminología médica desconocida, características contradictorias o ambiguas extraídas, y siniestros que se salen de las distribuciones de datos conocidas.
También pueden incorporarse métricas más determinísticas. Por ejemplo, en un entorno de clasificación, se puede supervisar la similitud coseno (una medida del ángulo entre dos vectores que capta la dirección independientemente de la magnitud, de modo que dos textos de longitudes muy diferentes pueden seguir registrándose como similares si sus distribuciones de características apuntan en la misma dirección) entre las representaciones de las expresiones y remitir para su revisión los casos que se sitúen por debajo de un umbral especificado. Con una metodología cuidadosa, la IA generativa respalda el criterio profesional, en lugar de sustituirlo.
Un segundo componente de la fiabilidad es la creación de un proceso de validación riguroso, respaldado por un «conjunto de datos de referencia» y otras métricas conocidas que no dependen de la IA generativa. En este contexto, un conjunto de datos de referencia se refiere a un conjunto seleccionado de datos de alta calidad, a menudo etiquetados manualmente, que contiene la «verdad fundamental» con la que se espera evaluar el sistema de IA generativa. Este conjunto de datos debe ser lo suficientemente amplio y diverso como para reflejar la variedad de escenarios prácticos con los que puede encontrarse el flujo de trabajo y debe conservarse para realizar pruebas continuas a medida que evoluciona la solución.
Aunque su creación es muy laboriosa, un conjunto de datos de referencia es fundamental para un flujo de trabajo de evaluación en múltiples niveles de un sistema de IA generativa. En el caso de la clasificación de siniestros de EG, el flujo de trabajo de evaluación en múltiples niveles puede incluir pruebas retrospectivas con el conjunto de datos de referencia elaborado a partir de descripciones históricas de siniestros, la comparación con métodos de procesamiento del lenguaje natural basados en representaciones, como los modelos de incrustación o los modelos codificadores, como BERT (Bidirectional Encoder Representations from Transformers), comprobaciones de razonabilidad estadística y de valores atípicos y pruebas adversarias que utilicen casos extremos poco frecuentes o descripciones intencionadamente engañosas.
Este enfoque de validación por capas refuerza la fiabilidad y la gobernanza, al garantizar que el rendimiento se evalúe desde múltiples ángulos, en lugar de juzgarse únicamente en función de la precisión general.
Otro mecanismo útil es utilizar un modelo de IA más potente para evaluar los resultados de otro modelo de IA. Un agente de IA generativa independiente puede actuar como capa de evaluación de los resultados producidos por un modelo más pequeño o menos costoso que se utiliza en producción. Esto puede resultar eficaz para guiar a modelos más potentes, dotados de capacidad de razonamiento, mediante indicaciones bien diseñadas, y así evaluar si un resultado es plausible, completo y se ajusta a las expectativas, al tiempo que se asigna un nivel de confianza a la evaluación. De este modo, se crea una forma de garantía de calidad basada en modelos que puede mejorar la escalabilidad sin depender por completo de la revisión manual. No obstante, la revisión humana sigue siendo necesaria cuando el agente de evaluación identifique contradicciones, incertidumbre o discrepancias con el resultado original.
La documentación transparente de las decisiones es un cuarto elemento. Una documentación clara de las indicaciones, la configuración de los modelos, los materiales de referencia, los métodos de validación, los criterios de escalado y las decisiones sobre el flujo de trabajo favorece la auditabilidad, la reproducibilidad y el cumplimiento de los requisitos de gobernanza interna. Además, está en consonancia con la importancia que la profesión actuarial otorga a la transparencia, la rendición de cuentas y el juicio profesional. En aplicaciones de seguros de alto riesgo, la documentación sirve como control para que otros puedan comprender cómo y por qué se llegó a una conclusión. Además, dado que el campo de la IA generativa sigue evolucionando rápidamente, dicha documentación es esencial para garantizar la eficacia de la mejora y el mantenimiento cuando se produzcan cambios que puedan afectar a la disponibilidad o al rendimiento de los modelos implementados.
Por último, la fiabilidad no solo depende de cómo se construya un flujo de trabajo, sino también de cómo se mantenga a lo largo del tiempo. Un proceso de actualización sencillo y bien gestionado favorece la fiabilidad continua. A medida que evolucionan los modelos, las indicaciones, las definiciones de productos y los documentos de origen, el flujo de trabajo debe poder actualizarse, volverse a probar y volverse a implementar de forma controlada con facilidad. Una arquitectura modular es especialmente valiosa para este fin, ya que permite mejorar los agentes o componentes individuales de forma independiente sin alterar todo el sistema. Esto permite a las organizaciones perfeccionar continuamente el rendimiento, al tiempo que preservan los estándares de gobernanza y mantienen la confianza en el proceso.
En conjunto, estas prácticas hacen que la IA generativa pase de ser una herramienta experimental para convertirse en una capacidad fiable que apoya la toma de decisiones. Al combinar la supervisión humana, la validación mediante conjuntos de datos de referencia, la evaluación basada en modelos, la documentación transparente y las vías controladas de actualización, los actuarios pueden diseñar flujos de trabajo de IA generativa eficaces, explicables, auditables y alineados con las expectativas de gestión de riesgos de la empresa.
Resumen
A medida que el panorama de la IA sigue evolucionando, aumenta la gama de tareas que la tecnología puede respaldar para mejorar la productividad. Las limitaciones que antes hacían que las organizaciones fueran cautelosas a la hora de adoptar la IA se están superando a medida que la tecnología madura.
La IA generativa puede aportar más valor al sector de los seguros si se diseña para razonar como los actuarios. Este artículo ha expuesto dos argumentos relacionados. En primer lugar, dividir una tarea compleja que requiere criterio en una secuencia de agentes especializados refleja la forma en que los actuarios desglosan y evalúan un problema, lo que reduce las «alucinaciones» y mejora la posibilidad de auditar. En segundo lugar, la fiabilidad es una propiedad de todo el flujo de trabajo y no solo del modelo, y se consigue mediante supervisión humana, validación con conjuntos de datos de referencia, evaluación basada en modelos, documentación transparente y actualizaciones controladas. Aunque se han ilustrado con la clasificación de siniestros de EG, estos principios proporcionan a los actuarios un marco repetible para crear soluciones basadas en IA que sean robustas, explicables y escalables, y los posicionan no como meros usuarios de estas herramientas, sino como las personas que las diseñan y gestionan.
Póngase hoy mismo en contacto con su representante de Gen Re para descubrir cómo podemos ayudarle a implementar soluciones basadas en IA en toda la cadena de valor del sector asegurador.
Notas finales
- IBM, What are AI hallucinations?, https://www.ibm.com/think/topics/ai-hallucinations
- Monetary Authority of Singapore, Consultation Paper on Proposed Guidelines on Artificial Intelligence Risk Management for Financial Institutions, https://www.mas.gov.sg/publications/consultations/2025/consultation-paper-on-guidelines-on-artificial-intelligence-risk-management
See also: EU Artificial Intelligence Act, Regulation (EU) 2024/1689, OJ L 2024/1689, 12.7.2024, https://eur-lex.europa.eu/eli/reg/2024/1689/oj