How To

El modo de voz de ChatGPT es capaz de simular tu voz sin que se te pida.

August 12, 2024 3 minutos de lectura Updated: August 12, 2024

OpenAI lanzó recientemente la tarjeta del sistema para su modelo GPT-4o, poco después de que el modo de voz avanzado para ChatGPT-4o comenzara a implementarse en versión alfa para una pequeña cantidad de usuarios de ChatGPT Plus.

Antes de lanzar el modelo a principios de mayo (sin el modo de voz avanzado), OpenAI utilizó un equipo de investigadores externos para acceder a los riesgos de los modelos (como es la norma con los modelos de IA) y publicó los hallazgos en la Tarjeta del Sistema.

Uno de los riesgos identificados por OpenAI incluye la generación de voz no autorizada. Mientras hablaba con el miembro del equipo de lectura, GPT-4o clonó su voz y comenzó a hablar con un sonido similar a la voz del miembro del equipo rojo, sin que el usuario siquiera lo solicitara. En el clip de audio compartido por OpenAI, se puede escuchar a GPT-4o gritar ¡NO! y luego continuar la emisión con una voz similar a la del miembro del equipo rojo.

OpenAI ha implementado medidas de seguridad para evitar que esto suceda, ya que solo permite ciertas voces aprobadas previamente para GPT-4o. Toda la salida de voz producida por ChatGPT-4o se compara con la muestra de voz en el mensaje del sistema como voz base.

Y para minimizar aún más el riesgo, se le indica al modelo que interrumpa la conversación si se detecta una generación de voz no intencional. Su clasificador de salida de voz tiene una precisión de 0,96 en inglés y de 0,95 en otros idiomas (por eso ChatGPT-4o podría negarse en exceso a las solicitudes de voz en conversaciones en otros idiomas).

Pero los hallazgos de System Card muestran las complejidades que implica la creación de chatbots de IA que puedan simular la voz de alguien con solo una muestra breve y sin necesidad de un entrenamiento extenso con esa muestra. La clonación de voz se puede utilizar para hacerse pasar por alguien y perpetrar fraude. Sin embargo, OpenAI ha descubierto que el riesgo de generación de voz no autorizada es mínimo.

Incluso si dejamos de lado los riesgos de que se utilice para suplantar la identidad y hacer fraude debido a las medidas de seguridad implementadas, aún sería bastante desconcertante cuando estás hablando con una máquina y esta comienza a responderte con tu voz, de repente. Un cierto científico de datos en X lo llamó “la trama de la próxima temporada de Black Mirror” y ciertamente se siente así. Otro usuario afirma en X que le sucedió en ChatGPT-4o alpha, pero no se sabe si es verdad o no.

De todas formas, existe la posibilidad de que esto suceda la próxima vez que hables con ChatGPT-4o. Y este es un mensaje de servicio público: no te asustes si sucede, o no te asustes demasiado.

OpenAI también cuenta con medidas de seguridad para garantizar que GPT-4o se niegue a identificar personas y a generar contenido con derechos de autor, que eran otros riesgos que se descubrieron durante la evaluación.

Entre otros riesgos que la empresa encontró con el modelo, colocó la mayoría de ellos en la categoría baja. Entre ellos se encuentran la ciberseguridad, las amenazas biológicas y la autonomía del modelo. Sin embargo, en el caso de la persuasión, encontró que el riesgo era medio: significa que algunas muestras de escritura producidas por GPT-4o demostraron ser más persuasivas que el texto escrito por humanos a la hora de influir en las opiniones de las personas.