Professor Benjamin

LLMs e o Raciocínio Lógico: Um Estudo de Caso com Desafios de Lógica

Uma atualização deste estudo está em andamento. Se quiser conhecer e contribuir, consulte em Ampliação do estudo de LLMs e o Raciocínio e preencha o formulário com as questões em https://forms.gle/xVgGQYDzVjy5h4Kd9.

Eu escrevi um artigo que avalia o desempenho de 7 LLMs em 4 problemas que envolvem raciocínio lógico
para serem avaliados por cada uma das LLMs. A resposta esperada para cada uma das questões é apresenta na Seção 5. Os desafios lógicos são:

  1. Um elefante incomoda muita gente, dois elefantes incomodam incomodam muito mais. Três elefantes incomodam muita gente, quadro elefantes incomodam incomodam incomodam incomodam muito mais. Cada seria a continuação do texto para cinco e seis elefantes?
  2. Imagine uma codificação simples, de forma que a palavra “Artigo”seja codificada como “Bsujhp”. Como ficaria codificada a palavra “Paper”?
  3. Se janeiro é 17, fevereiro é 49, março é 95, então maio é?
  4. Indique qual alternativa representa a solução da operação 3 + 3 x 5: a) 16; b) 20; c) 30; d) 45.

O modelos foram os seguintes:

O artigo foi publicado no Computer on the Beach 2025 está disponível em [AINDA NÃO ESTÁ PUBLICO NOS ANAIS DO EVENTO – EM BREVE]

O comparativo da tabela a seguir mostrar o desempenho das LLMs em cada desafio proposto. O polegar para cima significa que a LLM acerto a questão, enquanto o polegar para baixo indica o erro em responder ao desafio.

Em resumo, nenhuma LLM resolveu o terceiro desafio, sendo que o Gemini não conseguiu responder nenhum dos desafios. O Claude Haiku conseguiu responder os desafios 2 e 4, enquanto os demais LLMs responderam os desafios 1, 2 e 4.

Abaixo seguem links com as respostas das LLMs para conferir como as respostas foram dadas por cada LLM:

Uma atualização deste estudo está em andamento. Se quiser conhecer e contribuir, consulte em Ampliação do estudo de LLMs e o Raciocínio e preencha o formulário com as questões em https://forms.gle/xVgGQYDzVjy5h4Kd9.

Sair da versão mobile