Poco después de que OpenAI lanzara GPT-4o el lunes pasado, algunos hablantes de chino comenzaron a notar que algo parecía extraño en esta nueva versión del chatbot: los tokens que utiliza para analizar texto estaban llenos de spam y frases pornográficas.

Los humanos leen en palabras, pero los LLM leen en tokens, que son unidades distintas en una oración que tienen significados consistentes y significativos. Se supone que GPT-4o es mejor que sus predecesores en el manejo de tareas en varios idiomas, y muchos de los avances se lograron a través de una nueva herramienta de tokenización que hace un mejor trabajo al comprimir textos en idiomas distintos del inglés.

Pero, al menos en lo que respecta al idioma chino, el nuevo tokenizador utilizado por GPT-4o ha introducido una cantidad desproporcionada de frases sin sentido, y los expertos dicen que esto probablemente se debe a una limpieza y filtrado de datos insuficientes antes de entrenar el tokenizador. Si no se resuelve, podría provocar alucinaciones, bajo rendimiento y mal uso. Lea la historia completa.

—Zeyi Yang

Los astrónomos están recurriendo a la IA para prepararse para una lluvia de datos

En los desiertos de Australia y Sudáfrica, los astrónomos están plantando bosques de detectores metálicos que juntos explorarán el cosmos en busca de señales de radio. Cuando entre en funcionamiento dentro de unos cinco años, el Observatorio Square Kilometer Array buscará nueva información sobre las primeras estrellas del universo y las diferentes etapas de la evolución galáctica.

Pero después de sincronizar cientos de miles de platos y antenas, los astrónomos rápidamente enfrentarán un nuevo desafío: analizar unos 300 petabytes de datos cosmológicos al año, suficiente para llenar un millón de computadoras portátiles. Por eso, en preparación para la avalancha de información, los astrónomos están recurriendo a la IA en busca de ayuda. Lea la historia completa.