Whisper, la herramienta de transcripción de OpenAI impulsada por inteligencia artificial, ha sido destacada por su precisión y robustez casi a nivel humano. Sin embargo, esta tecnología presenta un problema significativo: según varios expertos, Whisper tiende a «alucinar» o inventar fragmentos de texto y frases completas. Estas alucinaciones pueden incluir desde comentarios inapropiados hasta información ficticia sobre tratamientos médicos, generando preocupación en sectores que dependen de esta herramienta.
La situación es especialmente preocupante en la industria médica, donde algunos centros han adoptado Whisper para transcribir consultas entre médicos y pacientes, a pesar de las advertencias de OpenAI de evitar su uso en ámbitos de alto riesgo. Los expertos temen que estos errores puedan llevar a malentendidos graves en sectores donde la precisión es crucial, como en la generación de subtítulos para videos y en la transcripción de entrevistas en medios de comunicación y tecnologías de consumo.
Investigadores han documentado una alta frecuencia de alucinaciones en sus pruebas de Whisper. Un estudio de la Universidad de Michigan sobre reuniones públicas encontró alucinaciones en 8 de cada 10 transcripciones, y un ingeniero de aprendizaje automático reportó fabricaciones en la mitad de las 100 horas de transcripciones que revisó. Estas experiencias indican que Whisper aún enfrenta desafíos importantes para alcanzar una precisión confiable en múltiples industrias.