Los deepfakes son quizás el uso más espectacular de la GenAI hasta el momento. Han captado la imaginación a través de usos extravagantes, pero también se los usa en situaciones más triviales y malévolas.
Al menos un grupo de actores de amenazas utiliza alguna tecnología para cambiar la voz en ataques de ingeniería social.
Creemos que esta técnica continuará, por lo que comenzamos a probarla por nuestra cuenta.
Usando herramientas de GenAI disponibles públicamente, dos consultores de Unit 42 crearon un audio deepfake de la Vicepresidenta Sénior Wendi Whitmore en el que se solicita un restablecimiento de credenciales. Solo se requirieron unos 30 minutos y USD 1 para crear un archivo de audio convincente basado en clips disponibles públicamente de ella en los que hablaba a la prensa y en eventos.
Consideramos que los actores de amenazas ya pueden realizar este tipo de trabajo usando las mismas herramientas que no son en tiempo real que usamos nosotros. Actualmente, el tiempo de procesamiento para crear archivos de voz convincentes es demasiado extenso para el uso en tiempo real. Por lo tanto, esperamos que los actores de amenazas hagan una grabación previa del contenido que podrían necesitar para la asistencia de la mesa de ayuda y la reproduzcan.
También creemos que, a medida que se desarrollen cambiadores de voz en tiempo real y estos estén disponibles en todas partes, los atacantes se moverán rápidamente para adoptar esas capacidades en un contexto y de una forma similares.
En nuestro trabajo de seguridad proactiva, ya hemos demostrado estas capacidades a los clientes. Un cliente que cotiza en bolsa nos pidió que creáramos un mensaje que sonara auténtico del CEO como parte de la educación sobre seguridad.
Con unos pocos clics, habíamos reunido las apariciones públicas del CEO de varias entrevistas televisadas. Luego, le pedimos a una aplicación de GenAI que escribiera un mensaje de concientización sobre seguridad usando el tono y la cadencia de los discursos públicos del CEO. Y, por último, generamos un mensaje de audio con la voz falsa de un texto falso.