O mais recente modelo de inteligência artificial da OpenAI, o “o1”, alcançou resultados impressionantes em exames altamente desafiadores. A IA acertou 82% das questões da prova qualificatória para a residência médica na Faculdade de Medicina da USP e obteve a pontuação máxima na complexa seção de matemática do vestibular do Instituto Tecnológico de Aeronáutica (ITA).
Na prova da Fuvest, que avalia candidatos para a residência médica, o modelo acertou 98 das 120 questões. Esse desempenho garantiria o acesso a todas as especializações de acesso direto, destinadas a graduados que buscam se especializar em áreas como clínica médica, cirurgia, pediatria, obstetrícia e ginecologia, além de medicina preventiva. O teste envolve casos clínicos complexos, exigindo um raciocínio encadeado e a interpretação de imagens, o que torna o feito ainda mais notável, considerando que o “o1” não possui capacidade de analisar figuras.
Desafios sem análise de imagens
Matheus Ferreira, especialista em educação na área da saúde, destacou que a prova é particularmente difícil por exigir uma abordagem prática, com o uso frequente de exames de imagem, o que compromete o resultado caso uma etapa do raciocínio seja feita incorretamente.
“São poucas as questões que envolvem apenas a memorização de conceitos”, explica Ferreira.
O teste foi realizado via API, em que a IA recebeu 20 perguntas por vez. Mesmo sem processar imagens —diferentemente do GPT-4o, que já possui essa habilidade— o “o1” impressionou pela capacidade de resolver problemas complexos apenas por meio da linguagem textual.
O desempenho do “o1” é mais significativo na comparação com o GPT-4o, que, ao considerar imagens, obteve 91 acertos. A expectativa dos especialistas, no entanto, é que, no futuro, a IA não substitua médicos, mas se torne uma ferramenta auxiliar no aprendizado de recém-graduados.
Desempenho exemplar na matemática do ITA
Outro teste foi conduzido por Vinícius Soares, fundador de uma empresa de software, que desafiou o modelo a resolver a temida prova de matemática do ITA, considerada uma das mais difíceis do país. A IA acertou todas as 10 questões, que envolviam temas complexos como conjuntos, funções, geometria, trigonometria e estatística. O feito é comparável ao desempenho de alunos que competem nas olimpíadas de matemática dos Estados Unidos e de candidatos a doutorado.
Entretanto, apesar de sua notável capacidade em resolver problemas matemáticos avançados, a IA ainda demonstra dificuldades em tarefas simples, como contar letras em palavras. Em um exemplo relatado por especialistas, o modelo se confundiu ao identificar quantos “r”s havia na palavra “strawberry”.
Tecnologia e futuro da IA
A OpenAI, embora tenha mantido em sigilo os detalhes técnicos por trás da evolução do “o1”, destacou que o modelo tem a habilidade de dividir tarefas complexas em várias etapas, seguindo um processo conhecido como “cadeia de pensamento”. Essa técnica foi mencionada em um estudo recente da OpenAI que apontou a utilização de uma IA assistente para avaliar a clareza das respostas do GPT-4, levando a melhorias progressivas nas respostas.
Além disso, especula-se que o desenvolvimento do “o1” foi inspirado em técnicas de verificação criadas por pesquisadores da Universidade de Toronto, que visam tornar o processo de decisão das redes neurais mais verificável. Durante os testes, o “o1” demonstrou ser capaz de avaliar suas próprias limitações, como ao admitir “não sei” quando necessário, mostrando um avanço na honestidade e confiabilidade das respostas.
Esse progresso, no entanto, vem acompanhado de um aumento na demanda por processamento computacional, o que levanta questões sobre o impacto ambiental e o uso de energia nos data centers que suportam essa nova tecnologia.