Pero esa complejidad es un problema cuando los modelos de IA necesitan funcionar en tiempo real en un par de auriculares con potencia informática y duración de batería limitadas. Para cumplir con tales limitaciones, las redes neuronales debían ser pequeñas y energéticamente eficientes. Entonces, el equipo utilizó una técnica de compresión de IA llamada destilación de conocimientos. Esto significó tomar un enorme modelo de IA que había sido entrenado con millones de voces (el “maestro”) y hacer que entrenara un modelo mucho más pequeño (el “estudiante”) para imitar su comportamiento y desempeño con el mismo estándar.

Luego se enseñó al estudiante a extraer los patrones vocales de voces específicas del ruido circundante capturado por micrófonos conectados a un par de auriculares con cancelación de ruido disponibles comercialmente.

El sistema Concentrate on Speech Listening to se activa cuando el usuario mantiene presionado un botón en sus auriculares durante varios segundos mientras mira a la persona en la que desea concentrarse mientras habla. Durante este proceso de “inscripción”, el sistema captura una muestra de audio de ambos auriculares y utiliza esta grabación para extraer las características vocales del hablante, incluso cuando hay otros hablantes y ruidos en las cercanías.

Estas características se introducen en una segunda crimson neuronal que se ejecuta en una computadora con microcontrolador conectada a los auriculares mediante un cable USB. Esta pink funciona de forma continua, manteniendo la voz elegida separada de la de otras personas y reproduciéndola para el oyente. Una vez que el sistema se ha fijado en un altavoz, sigue priorizando su voz, incluso si el usuario le da la espalda. Cuantos más datos de entrenamiento obtenga el sistema al centrarse en la voz de un hablante, mejor será su capacidad para aislarlo.

Por ahora, el sistema sólo puede inscribir con éxito a un hablante específico si la suya es la única voz fuerte presente, pero El equipo pretende que funcione incluso cuando la voz más fuerte en una dirección unique no sea la del hablante objetivo.

Identificar una sola voz en un ambiente ruidoso es muy difícil, dice Sefik Emre Eskimez, investigador senior de Microsoft que trabaja en el habla y la inteligencia synthetic, que no participó en la investigación. “Sé que las empresas quieren hacer esto”, dice. “Si pueden lograrlo, se abrirán muchas aplicaciones, particularmente en un escenario de reunión”.

Si bien la investigación sobre la separación del habla tiende a ser más teórica que práctica, este trabajo tiene claras aplicaciones en el mundo true, dice Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon, que no trabajó en la investigación. “Creo que es un paso en la dirección correcta”, dice Cornell. “Es un soplo de aire fresco”.