LLMs e o Raciocínio Lógico: Um Estudo de Caso com Desafios de Lógica

Uma atualização deste estudo está em andamento. Se quiser conhecer e contribuir, consulte em Ampliação do estudo de LLMs e o Raciocínio e preencha o formulário com as questões em https://forms.gle/xVgGQYDzVjy5h4Kd9.

Eu escrevi um artigo que avalia o desempenho de 7 LLMs em 4 problemas que envolvem raciocínio lógico
para serem avaliados por cada uma das LLMs. A resposta esperada para cada uma das questões é apresenta na Seção 5. Os desafios lógicos são:

Um elefante incomoda muita gente, dois elefantes incomodam incomodam muito mais. Três elefantes incomodam muita gente, quadro elefantes incomodam incomodam incomodam incomodam muito mais. Cada seria a continuação do texto para cinco e seis elefantes?
Imagine uma codificação simples, de forma que a palavra “Artigo”seja codificada como “Bsujhp”. Como ficaria codificada a palavra “Paper”?
Se janeiro é 17, fevereiro é 49, março é 95, então maio é?
Indique qual alternativa representa a solução da operação 3 + 3 x 5: a) 16; b) 20; c) 30; d) 45.

O modelos foram os seguintes:

GPT-4o: modelo da empresa OpenAI;
Claude 3.5 Sonnet: modelo da empresa Anthropic;
Claude 3.5 Haiku: versão mais rápida da Claude 3.5 Sonnet;
Gemini 1.5: modelo do Google;
Llama 3.1: modelo da Meta e de código aberto;
Grok: modelo da empresa xAI; e
Mistral 7B: modelo de código aberto.

O artigo foi publicado no Computer on the Beach 2025 está disponível em [AINDA NÃO ESTÁ PUBLICO NOS ANAIS DO EVENTO – EM BREVE]

O comparativo da tabela a seguir mostrar o desempenho das LLMs em cada desafio proposto. O polegar para cima significa que a LLM acerto a questão, enquanto o polegar para baixo indica o erro em responder ao desafio.

Em resumo, nenhuma LLM resolveu o terceiro desafio, sendo que o Gemini não conseguiu responder nenhum dos desafios. O Claude Haiku conseguiu responder os desafios 2 e 4, enquanto os demais LLMs responderam os desafios 1, 2 e 4.

Abaixo seguem links com as respostas das LLMs para conferir como as respostas foram dadas por cada LLM:

LLMs e o Raciocínio Lógico: Um Estudo de Caso com Desafios de Lógica

Deixe um comentário Cancelar resposta