Los modelos de IA pueden superar a los humanos en pruebas para identificar estados mentales

La teoría de la mente es un sello distintivo de la inteligencia emocional y social que nos permite inferir las intenciones de las personas y relacionarnos y empatizar unos con otros. La mayoría de los niños adquieren este tipo de habilidades entre los tres y cinco años de edad.

Los investigadores probaron dos familias de grandes modelos de lenguaje, GPT-3.5 y GPT-4 de OpenAI y tres versiones de Meta’s Llama, en tareas diseñadas para probar la teoría de la mente en humanos, incluida la identificación de creencias falsas, el reconocimiento de pasos en falso y la comprensión de lo que es. estar implícito en lugar de decirse directamente. También probaron a 1.907 participantes humanos para comparar los conjuntos de puntuaciones.

El equipo realizó cinco tipos de pruebas. La primera, la tarea de dar pistas, está diseñada para medir la capacidad de alguien para inferir las verdaderas intenciones de otra persona a través de comentarios indirectos. La segunda, la tarea de creencia falsa, evalúa si alguien puede inferir que se podría esperar razonablemente que otra persona crea algo que sabe que no es así. Otra prueba midió la capacidad de reconocer cuando alguien está cometiendo un paso en falso, mientras que una cuarta prueba consistió en contar historias extrañas, en las que un protagonista hace algo inusual, para evaluar si alguien puede explicar el contraste entre lo dicho y lo dicho. quiso decir. También incluyeron una prueba para determinar si las personas pueden comprender la ironía.

A los modelos de IA se les realizó cada prueba 15 veces en chats separados, para que trataran cada solicitud de forma independiente, y sus respuestas se calificaron de la misma manera que se united states of america para los humanos. Luego, los investigadores probaron a los voluntarios humanos y compararon los dos conjuntos de puntuaciones.

Ambas versiones de GPT se desempeñaron a la altura o, a veces, por encima de los promedios humanos en tareas que involucraban solicitudes indirectas, desvíos y creencias falsas, mientras que GPT-4 superó a los humanos en las pruebas de ironía, insinuaciones e historias extrañas. Los tres modelos de Llama 2 tuvieron un rendimiento inferior al promedio humano.

Sin embargo, Llama 2, el más grande de los tres metamodelos probados, superó a los humanos en lo que respecta a reconocer escenarios de pasos en falso, mientras que GPT proporcionó constantemente respuestas incorrectas. Los autores creen que esto se debe a la aversión standard de GPT a generar conclusiones sobre opiniones, porque los modelos respondieron en gran medida que no había suficiente información para responder de una forma u otra.

Los modelos de IA pueden superar a los humanos en pruebas para identificar estados mentales

Los modelos de IA pueden superar a los humanos en pruebas para identificar estados mentales

Anthony Harrison

Artículos Relacionados

La descarga: Prótesis controladas por la mente y el precio de los datos de entrenamiento de la IA

Las empresas de IA finalmente se ven obligadas a pagar por los datos de entrenamiento

Otra historia

Katie Maloney dice que no puede perdonar a Lala Kent después del drama de la reunión de VPR

El tráiler de Jackpot! trae a John Cena de regreso a su época de héroe de acción

Colorado es el hogar del rodeo gay más antiguo del mundo

Un análisis de sangre barato “puede predecir el riesgo de padecer una enfermedad aterradora que puede matarte mientras duermes”

Taylor Swift reacciona al vídeo de una fan emborrachándose en el ‘Eras Tour’

A las organizaciones benéficas se les permite hacer algún tipo de foyer, pero muchas no hacen nada en absoluto