Quinta-feira, 11 de junho de 2026
Por Redação O Sul | 3 de dezembro de 2023
Ao longo do ano, o ChatGPT (aplicativo de inteligência artificial) demonstrou que consegue ser “aprovado” em diversos exames de admissão, como a primeira fase da OAB. Agora, um novo experimento provou que o GPT-4, cérebro que abastece o chatbot inteligente da OpenAI, também tem um alto aproveitamento no Exame Nacional do Ensino Médio (Enem).
O modelo de inteligência artificial (IA) acertou 90% das questões da edição 2023 da prova, em uma pesquisa da Maritaca AI, startup brasileira que desenvolve sistemas de IA adaptados para português.
Essa não é a primeira vez que o GPT é testado em relação ao Enem, mas essa é a primeira pesquisa realizada após o modelo de IA da OpenAI ganhar recursos de multimodalidade – desde setembro deste ano, ele não reconhece apenas texto, mas também imagens. Pesquisas realizadas anteriormente excluíam questões que envolvessem análise de imagens, o que não permitia um panorama completo do desempenho da IA.
No estudo, conduzido pelos pesquisadores Ramon Pires, Thales Sales, Hugo Abonizio e Rodrigo Nogueira, o GPT-4 respondeu às 179 questões válidas deste ano – uma questão de matemática foi anulada pelo Instituto Nacional de Estudos e Pesquisas Educacionais, organizador do Enem. A redação não foi testada pela startup, algo que seus pesquisadores miram para o futuro.
“Com a nova versão, o GPT-4 passou a enxergar imagens, tabelas, símbolos matemáticos e elementos químicos. Tudo isso não era possível antes”, afirma Pires. Para medir a eficiência do modelo, os pesquisadores fizeram três medições do aproveitamento do GPT-4: prova excluindo todas as imagens, prova com imagens e prova com legendas descritivas no lugar das imagens. Neste último caso, foi aplicada a prova do caderno 9 laranja, utilizada por pessoas com deficiência visual.
O melhor resultado da IA foi na versão com legendas da prova, com aproveitamento de 89,9% das questões. Na versão com imagens, ela teve 86% de aproveitamento, enquanto na versão sem imagens esse número foi de 80,5%. “Esse resultado mostra que ainda há espaço para o reconhecimento de imagens do GPT melhorar”, conta Pires. Nogueira levanta ainda outra hipótese: “Pode ser que a descrição de uma imagem tenha entregado alguma informação importante para que a máquina respondesse as perguntas”.
No geral, a máquina tem melhor desempenho nas questões de ciências humanas: com imagens ou com legendas, o aproveitamento foi de 100% – sem imagens, a eficiência foi de 95,6%. A área em que o GPT-4 tem o pior desempenho é matemática. Ao ler legendas, a performance é de 75%, enquanto por detecção de imagens o número é de 65,9%.
“Grandes modelos de linguagem (LLMs) ainda apresentam dificuldades em áreas de raciocínio e lógica, temas que aparecem nas questões de matemática”, afirma Nogueira. De fato, cientistas e empresas lutam há alguns anos contra as limitações desses sistemas em matemática. Por outro lado, o alto desempenho em ciências humanas também era esperado já que LLMs são focados em linguagem.
Ainda assim, Nogueira diz que a performance do GPT-4 traz informações importantes para o desenvolvimento de IA – a Maritaca adapta e potencializa grandes modelos para português. “Provas de admissão em universidades são usadas para testar a capacidade dos modelos. Com esse desempenho, teremos de procurar provas mais específicas e difíceis. Isso significa que o GPT já atingiu um ótimo desempenho e precisará de testes ainda mais difíceis para continuar avançando”, diz. As informações são do jornal O Estado de S. Paulo.
Os comentários estão desativados.