Agora dispomos de um fluxo de trabalho multiagente que proporciona uma desagregação estruturada, reduzindo as «alucinações», melhorando a coerência e aumentando a transparência de forma intuitiva e auditável. Esta arquitetura reflete a forma natural como os atuários e os gestores de sinistros abordam a avaliação da DG: desagregando uma tarefa de julgamento complexa em componentes claros.
Oferece várias vantagens:
- Redução das «alucinações» graças a âmbitos de aplicação bem delimitados
- Melhoria da auditabilidade ao tornar explícita cada etapa
- Modularidade, o que permite testar ou melhorar cada agente de forma independente
- Rastreabilidade intuitiva que mostra exatamente como se chegou à conclusão
- Cumprimento das expectativas atuariais e regulamentares em matéria de explicabilidade
Este fluxo de trabalho transforma a IA generativa de um «preditor de caixa preta» num parceiro que apoia a tomada de decisões de forma explicável, regulamentada e rastreável.
Fiabilidade por conceção: avaliação e governação da IA generativa
A fiabilidade da IA tem sido um tema central para os reguladores e responsáveis políticos do setor financeiro,2 com especial atenção à forma como esta pode ser implementada de maneira estável e segura. Aspetos como o viés, a equidade, a explicabilidade, a transparência e a interpretabilidade são fundamentais para a aplicação de soluções de IA generativa. No entanto, a fiabilidade não deve ser considerada uma característica exclusiva do modelo. Trata‑se antes de uma característica de todo o fluxo de trabalho no qual o modelo opera. Por conseguinte, para que uma solução de IA generativa seja sólida, não só são necessários agentes bem concebidos, como também uma avaliação rigorosa, uma governação adequada e uma supervisão contínua de todo o fluxo de trabalho.
Uma importante medida de segurança consiste em estabelecer um processo de revisão com participação humana. Apesar de os fluxos de trabalho baseados em agentes reduzirem os erros e melhorarem a coerência, a supervisão humana continua a ser essencial.
Para implementar um sistema de supervisão humana eficiente, é possível definir métricas específicas para cada caso de utilização, de forma a encaminhar os casos extremos para revisão humana. Dado não existir uma norma universal que especifique a proporção de resultados da IA generativa a ser revistos por humanos, este quadro pode ajudar as organizações a definir limites adequados à sua tolerância ao risco e às suas necessidades operacionais.
Durante a fase de testes, por exemplo, é possível avaliar os índices de confiança num conjunto de dados de validação, a fim de determinar o nível abaixo do qual os resultados devem ser assinalados para revisão humana. É também possível introduzir regras de revisão adicionais para terminologia pouco comum, inovadora ou especialmente suscetível de erro ou enviesamento. No contexto da classificação de sinistros pela DG, isso pode incluir classificações de baixa confiança, terminologia médica desconhecida, características contraditórias ou ambíguas extraídas e sinistros que se afastem das distribuições de dados conhecidas.
Também é possível incorporar métricas mais determinísticas. Num ambiente de classificação, por exemplo, é possível monitorizar a similaridade cosseno (que é uma medida do ângulo entre dois vetores, captando a direção independentemente da magnitude; assim, dois textos com comprimentos muito diferentes podem continuar a ser registados como semelhantes, caso as suas distribuições de características apontem na mesma direção) entre as representações das expressões, sendo os casos que se situem abaixo de um limiar especificado encaminhados para revisão. Com uma metodologia cuidada, a IA generativa complementa o critério profissional, em vez de o substituir.
Um segundo elemento da fiabilidade consiste na criação de um processo de validação rigoroso, apoiado num «conjunto de dados de referência» e noutras métricas conhecidas, que não dependem da IA generativa. Neste contexto, um «conjunto de dados de referência» é um conjunto selecionado de dados de elevada qualidade, muitas vezes etiquetados manualmente, que contêm a «verdade fundamental» em que se pretende basear a avaliação do sistema de IA generativa. Este conjunto de dados deve ser suficientemente abrangente e diversificado para refletir a variedade de cenários práticos com que o fluxo de trabalho pode deparar‑se, devendo ser mantido para a realização de testes contínuos à medida que a solução evolui.
Embora a sua criação seja muito trabalhosa, um conjunto de dados de referência é fundamental para um fluxo de trabalho de avaliação em vários níveis de um sistema de IA generativa. No caso da classificação de sinistros da DG, este fluxo de trabalho pode incluir testes retrospetivos com um conjunto de dados de referência, elaborado a partir de descrições históricas de sinistros, comparações com métodos de processamento de linguagem natural, com base em representações como modelos de embedding ou modelos codificadores, por exemplo, o BERT (Bidirectional Encoder Representations from Transformers), verificações de razoabilidade estatística e de valores atípicos, testes adversários, com utilização de casos extremos pouco frequentes ou de descrições enganosas intencionais.
Esta abordagem de validação em camadas reforça a fiabilidade e a governação, garantindo que o desempenho seja avaliado sob múltiplos ângulos, em vez de ser julgado apenas com base na precisão geral.
Outro mecanismo útil é utilizar um modelo de IA mais potente para avaliar os resultados de outro modelo de IA. Um agente de IA generativa independente pode funcionar como uma camada de avaliação dos resultados produzidos por um modelo mais pequeno e menos dispendioso, utilizado em produção. Esta abordagem pode ser eficaz para orientar modelos mais potentes, com capacidade de raciocínio, através de indicações bem concebidas, permitindo avaliar se um resultado é plausível, completo e conforme às expectativas, ao mesmo tempo que se atribui um nível de confiança à avaliação. Desta forma, é criada uma forma de garantia da qualidade baseada em modelos, que pode melhorar a escalabilidade, sem depender totalmente da revisão manual. No entanto, a revisão humana continua necessária sempre que o agente de avaliação identificar contradições, incertezas ou discrepâncias relativamente ao resultado original.
A documentação transparente das decisões é um quarto elemento importante. A clareza na documentação das instruções, da configuração dos modelos, dos materiais de referência, dos métodos de validação, dos critérios de escalabilidade e das decisões relativas ao fluxo de trabalho promove a auditabilidade, a reprodutibilidade e o cumprimento dos requisitos de governação interna. Além disso, está em conformidade com a importância que a profissão atuarial atribui à transparência, à prestação de contas e ao julgamento profissional. Em aplicações de seguros de alto risco, a documentação permite que outros compreendam como e por que razão se chegou a uma conclusão específica. Dado que o domínio da IA generativa continua a evoluir rapidamente, a documentação é também essencial para garantir a eficácia da melhoria e da manutenção sempre que ocorram alterações que afetem a disponibilidade ou o desempenho dos modelos implementados.
Por último, a fiabilidade não depende apenas da forma como um fluxo de trabalho é concebido, mas também da forma como é gerido ao longo do tempo. Um processo de atualização simples e bem gerido promove a continuidade da fiabilidade. À medida que os modelos, especificações, definições de produtos e documentos de origem evoluem, o fluxo de trabalho deve poder ser atualizado, novamente testado e reimplementado de maneira controlada e fácil. Neste sentido, uma arquitetura modular é especialmente valiosa, na medida em que permite melhorar os agentes ou os componentes individuais de forma independente, sem afetar o sistema na sua totalidade. Tal possibilita às organizações aperfeiçoar continuamente o desempenho, preservando simultaneamente os padrões de governação e mantendo a confiança no processo.
Em conjunto, estas práticas permitem que a IA generativa passe do estatuto de ferramenta experimental para o de capacidade fiável de apoio à tomada de decisões. Ao combinarem supervisão humana, validação com base em conjuntos de dados de referência, avaliação com recurso a modelos, documentação transparente e canais controlados de atualização, os atuários conseguem criar fluxos de trabalho de IA generativa que são eficazes, explicáveis, passíveis de auditoria e alinhados com as expetativas da empresa no que se refere à gestão de riscos.
Resumo
À medida que o panorama da IA continua a evoluir, aumenta o leque de tarefas em que a tecnologia pode ajudar a melhorar a produtividade. À medida que a tecnologia amadurece, as limitações que antes levavam as organizações a adotarem a IA com cautela estão a ser superadas.
A IA generativa pode acrescentar valor ao setor dos seguros se for concebida para raciocinar como os atuários. Neste artigo, são apresentados dois argumentos relacionados. Em primeiro lugar, a divisão de uma tarefa complexa que exige discernimento em várias etapas especializadas reflete a forma como os atuários decompõem e avaliam um problema, reduzindo as «alucinações» e melhorando a auditabilidade. Em segundo lugar, a fiabilidade abrange todo o fluxo de trabalho, não se limitando ao modelo, e é alcançada por meio de supervisão humana, validação com conjuntos de dados de referência, avaliação baseada em modelos, documentação transparente e atualizações controladas. Apesar de terem sido ilustrados com a classificação de sinistros da DG, estes princípios oferecem aos atuários um processo repetível para criarem soluções de IA robustas, explicáveis e escaláveis. Desta forma, os atuários não são meros utilizadores destas ferramentas, mas sim as pessoas que as concebem e gerem.
Entre hoje mesmo em contacto com o seu representante da Gen Re e descubra como podemos ajudá‑lo a implementar soluções baseadas em IA em toda a cadeia de valor do setor dos seguros.
Notas finais
- IBM, What are AI hallucinations?, https://www.ibm.com/think/topics/ai-hallucinations
- Monetary Authority of Singapore, Consultation Paper on Proposed Guidelines on Artificial Intelligence Risk Management for Financial Institutions, https://www.mas.gov.sg/publications/consultations/2025/consultation-paper-on-guidelines-on-artificial-intelligence-risk-management
See also: EU Artificial Intelligence Act, Regulation (EU) 2024/1689, OJ L 2024/1689, 12.7.2024, https://eur-lex.europa.eu/eli/reg/2024/1689/oj