Oye, IA, hablemos… pero no en público

Brian X. Chen es el columnista principal de tecnología de consumo del Times y autor de Tech Fix, una columna sobre las implicaciones sociales de la tecnología que utilizamos.

Las gafas de Meta toman una foto cuando dices: “Oye, Meta, toma una foto”. Una computadora en miniatura que se sujeta a tu camisa, el Ai Pin, traduce idiomas extranjeros a tu lengua materna. Una pantalla de inteligencia artificial cuenta con un asistente virtual al que hablas a través de un micrófono.

El año pasado, OpenAI actualizó su chatbot ChatGPT para que respondiera con palabras habladas, y hace poco, Google presentó Gemini, un sustituto de su asistente de voz en los teléfonos Android.

Las empresas tecnológicas apuestan por un renacimiento de los asistentes de voz, muchos años después de que la mayoría de la gente decidiera que hablar con las computadoras no era tan genial.

¿Funcionará esta vez? Tal vez, pero podría tardar un tiempo.

Un buen número de personas aún no han utilizado ni una sola vez asistentes de voz como Alexa de Amazon, Siri de Apple y Assistant de Google, y la inmensa mayoría de los que sí lo hacen dicen que nunca querrían ser vistos hablando con ellos en público, según estudios realizados en la última década.

Yo tampoco suelo utilizar asistentes de voz, y en mi experimento reciente con las gafas de Meta, que incluyen una cámara y altavoces para proporcionar información sobre el entorno, llegué a la conclusión de que hablar con una computadora delante de padres y sus hijos en un zoológico seguía siendo increíblemente incómodo.

Me hizo preguntarme si eso alguna vez se sentiría normal hacerlo. No hace mucho, hablar por teléfono con audífonos Bluetooth hacía que la gente pareciera chiflada, pero ahora todo el mundo lo hace. ¿Veremos algún día a un montón de gente que camina y habla con sus computadoras como en las películas de ciencia ficción?

Planteé esta pregunta a expertos en diseño e investigadores, y el consenso fue claro: dado que los nuevos sistemas de inteligencia artificial mejoran la capacidad de los asistentes de voz para entender lo que decimos y ayudarnos realmente, es probable que en un futuro próximo hablemos con más frecuencia a los dispositivos, pero aún faltan muchos años para que lo hagamos en público.

Esto es lo que hay que saber.

Por qué los asistentes de voz se están volviendo más inteligentes

Los nuevos asistentes de voz funcionan con inteligencia artificial generativa, que utiliza estadísticas y algoritmos complejos para adivinar qué palabras van juntas, de manera similar a la función de autocompletar del teléfono. Esto los hace más capaces de utilizar el contexto para entender las peticiones y las preguntas de seguimiento. A diferencia de los asistentes virtuales como Siri y Alexa, que solo podían responder a una lista finita de preguntas.

Por ejemplo, si le dices a ChatGPT: “¿Qué vuelos hay de San Francisco a Nueva York la semana que viene?” —y sigues con “¿Qué tiempo hace allí?” y “¿Qué debería meter en la maleta?”— el chatbot puede responder esas preguntas porque establece conexiones entre las palabras para entender el contexto de la conversación. (El año pasado, The New York Times demandó a OpenAI y a su socio, Microsoft, por utilizar sin permiso artículos de noticias protegidos por derechos de autor para entrenar a los chatbots).

Un asistente de voz más antiguo como Siri, que reacciona a una base de datos de órdenes y preguntas que fue programado para entender, fallaría a menos que uses palabras específicas, como “¿Qué tiempo hace en Nueva York?” y “¿Qué debería meter en la maleta para un viaje a Nueva York?”.

La primera conversación suena más fluida, como la manera en que la gente habla entre sí.

Una de las principales razones por las que la gente renunció a los asistentes de voz como Siri y Alexa fue que las computadoras no entendían gran parte de lo que se les preguntaba, y resultaba difícil aprender qué preguntas funcionaban.

Dimitra Vergyri, directora de tecnología del habla en SRI, el laboratorio de investigación responsable de la versión inicial de Siri antes de que fuera adquirida por Apple, dijo que la inteligencia artificial generativa abordaba muchos de los problemas con los que los investigadores habían luchado durante años. La tecnología hace que los asistentes de voz sean capaces de entender el habla espontánea y responder con respuestas útiles, aseguró.

John Burkey, un exingeniero de Apple que trabajó en Siri en 2014 y ha criticado de manera resonante al asistente, dijo que creía que debido a que la inteligencia artificial generativa hizo más fácil para las personas obtener ayuda de las computadoras, era probable que más de nosotros hablemos con asistentes pronto, y que cuando suficientes de nosotros comencemos a hacerlo, eso podría convertirse en la norma.

“Siri tenía un tamaño limitado: solo conocía un número determinado de palabras”, señaló. “Ahora tenemos mejores herramientas”.

Sin embargo, podrían pasar años antes de que la nueva ola de asistentes de inteligencia artificial se adopte de manera generalizada porque introducen nuevos problemas. Chatbots como ChatGPT, Gemini de Google y Meta AI son propensos a las “alucinaciones”, que es cuando se inventan cosas porque no pueden averiguar las respuestas correctas. Se han equivocado en tareas básicas como contar y resumir información de la web.

Cuándo los asistentes de voz ayudan, y cuándo no

Según los expertos, aunque la tecnología del habla mejore, es poco probable que hablar sustituya o reemplace las interacciones tradicionales con un teclado.

En la actualidad, la gente tiene razones de peso para hablar con las computadoras en algunas situaciones cuando están solos, como por ejemplo para fijar el destino de un mapa mientras conducen un auto. Pero, en público, hablar con un asistente no solo puede parecer raro, sino que a menudo resulta poco práctico. Cuando llevaba puestas las gafas de Meta en un supermercado y les pedí que identificaran un producto, un comprador que me escuchó respondió atrevidamente: “Eso es un nabo”.

Tampoco te gustaría dictar un correo electrónico confidencial de trabajo alrededor de otras personas en un tren. Del mismo modo, sería desconsiderado pedirle a un asistente de voz que leyera mensajes de texto en voz alta en un bar.

Sin embargo, es fácil imaginar momentos en los que hablar con una computadora te ayude tanto que no te importe lo raro que les parezca a los demás, comentó Carolina Milanesi, analista de Creative Strategies, una empresa de investigación.

Mientras caminas hacia tu próxima reunión en la oficina, sería útil pedirle a un asistente de voz que te informe sobre las personas con las que vas a reunirte. Mientras recorres un sendero, preguntar a un asistente de voz dónde girar sería más rápido que pararse a consultar un mapa. Mientras visitas un museo, sería estupendo que un asistente de voz te diera una lección de historia sobre el cuadro que estás contemplando. Algunas de estas aplicaciones ya se están desarrollando con nueva tecnología de inteligencia artificial.

Estoy convencido de que llegará el día en que la gente hable de vez en cuando con las computadoras cuando esté fuera de casa, pero sucederá poco a poco.