Um estudo recente realizado pelo Cohen Children’s Medical Center trouxe à tona uma preocupação significativa sobre a eficácia dos modelos de linguagem, como o ChatGPT da OpenAI, na área de diagnósticos pediátricos. Publicado na renomada revista JAMA Pediatrics, o estudo revela que o ChatGPT falhou em diagnosticar corretamente mais de 80% dos 100 casos pediátricos selecionados. Essa descoberta suscita dúvidas sobre a adequação de algumas ferramentas de inteligência artificial (IA) no auxílio a médicos na avaliação de condições complexas.
A principal questão reside no fato de que modelos de linguagem de grande escala, como o ChatGPT, são treinados com imensas quantidades de dados da internet, sem a capacidade de discernir entre informações confiáveis e não confiáveis. Além disso, esses modelos não possuem acesso em tempo real a informações médicas atualizadas, o que impede a sua sintonia com novas pesquisas e tendências de saúde.
Durante a pesquisa, observou-se que o chatbot diagnosticou incorretamente 72 dos 100 casos, e em outros 11 casos, os diagnósticos foram considerados amplos demais para serem classificados como corretos. O estudo destacou a incapacidade do ChatGPT em identificar relações específicas, como a existente entre o autismo e deficiências de vitaminas, ressaltando a importância contínua da experiência clínica dos médicos.
Curiosamente, mais da metade dos diagnósticos incorretos (56,7%) pertenciam ao mesmo sistema orgânico que o diagnóstico correto, indicando que um treinamento mais seletivo da IA é necessário para melhorar a precisão diagnóstica. Este estudo é considerado o primeiro a explorar a precisão de bots em cenários inteiramente pediátricos, que exigem a consideração da idade do paciente juntamente com os sintomas.
Um dos aprendizados é que os médicos podem precisar assumir um papel mais ativo na geração de conjuntos de dados para modelos de IA, com o objetivo de prepará-los intencionalmente para funções médicas — um processo conhecido como “afinação”.
Apesar dos modelos de IA terem sido aprovados em exames de licenciamento médico e demonstrado superar profissionais médicos em tarefas específicas, os médicos ainda estão avaliando o que constitui uma taxa de sucesso aceitável para diagnósticos apoiados por IA. O uso dessa tecnologia na tomada de decisão clínica continua controverso, com críticos questionando quanto a IA realmente tem feito a diferença na prática médica.
Os autores do estudo sugerem que o campo está maduro para mais pesquisas, enquanto observam que modelos de linguagem de grande escala e bots podem ser ferramentas administrativas úteis para tarefas como escrever artigos de pesquisa e gerar instruções para pacientes.
Fonte: ChatGPT had a high error rate for pediatric cases
Este artigo foi criado em colaboração entre Cláudio Cordovil e Chat GPT-4
Imagem gerada por Inteligência Artificial