Aug 11, 2023
Esta IA puede saber lo que estás escribiendo según el sonido
Este artículo es parte de nuestra serie exclusiva IEEE Journal Watch en asociación con IEEE Xplore. Los mensajes que escribes se pueden decodificar con el mero sonido de tus dedos tocando las teclas, según
Este artículo es parte de nuestra serie exclusiva IEEE Journal Watch en asociación con IEEE Xplore.
Los mensajes que usted escribe se pueden decodificar con el mero sonido de sus dedos al tocar las teclas, según un artículo reciente realizado por investigadores de las Universidades de Durham y Surrey y de la Universidad de Londres.
Los investigadores entrenaron dos modelos de aprendizaje automático para reconocer los clics distintivos de cada tecla en el teclado de una computadora portátil Apple. Los modelos fueron entrenados con audio recopilado de dos fuentes: un teléfono inteligente colocado cerca y una videollamada realizada a través de Zoom. Informan una precisión del 95 por ciento para el modelo de audio de teléfono inteligente y del 93 por ciento para el modelo de llamada Zoom.
Estos modelos podrían hacer posible lo que se conoce como ataque acústico de canal lateral. Si bien la técnica presentada en este artículo se basa en técnicas contemporáneas de aprendizaje automático, tales ataques se remontan al menos a la década de 1950, cuando los servicios de inteligencia británicos registraron subrepticiamente los dispositivos mecánicos de cifrado empleados por el gobierno egipcio.
Un ataque acústico de canal lateral de una computadora portátil estima qué teclas se presionaron y en qué orden, a partir de grabaciones de audio de una persona que lo usa. Estos ataques pueden revelar información confidencial del usuario, como PIN bancarios, contraseñas de cuentas o credenciales gubernamentales.
Los modelos del equipo se basan en redes neuronales convolucionales o CNN. Así como estas redes pueden reconocer rostros en una multitud, también pueden reconocer patrones en un espectrograma, el gráfico de una señal de audio. El programa aísla el audio de cada pulsación de tecla, transforma su forma de onda en un espectrograma, extrae de él los patrones de frecuencia de cada clic y calcula la probabilidad relativa de que se presionó una tecla determinada.
"Consideramos los datos acústicos como una imagen para la CNN", afirma Ehsan Toreini, coautor del informe. "Creo que esa es la razón principal por la que nuestro método funciona tan bien".
Un ataque acústico de canal lateral se basa en estimaciones de qué teclas se presionaron y en qué orden para reconstruir información confidencial.
El ataque presentado en el artículo tiene un alcance limitado. Los dos modelos de decodificación de audio se entrenaron y evaluaron a partir de datos recopilados del mismo usuario escribiendo en una sola computadora portátil. Además, el proceso de capacitación que utilizaron requiere que los sonidos clave se combinen con etiquetas clave. Queda por ver qué tan efectivo sería este ataque si se usara en otros modelos de portátiles en diferentes entornos de audio y con diferentes usuarios. Además, la necesidad de datos de entrenamiento etiquetados limita la amplitud con la que se puede implementar el modelo.
Aún así, existen escenarios plausibles en los que un atacante tendría acceso a datos de audio etiquetados de una persona que escribe. Aunque esos datos pueden ser difíciles de recopilar de forma encubierta, se podría obligar a una persona a proporcionarlos. En una entrevista reciente en el podcast Smashing Security, Toreini y la coautora Maryam Mehrnezhad describen un escenario hipotético en el que una empresa exige que los nuevos empleados proporcionen esos datos para poder monitorearlos más adelante. En una entrevista con IEEE Spectrum, Mehrnezhad dijo que “otro ejemplo sería la violencia de pareja. Una expareja o pareja actual podría ser un mal actor en ese escenario”.
El equipo de investigación presenta varias formas de mitigar los riesgos de este ataque. Por un lado, podría simplemente escribir rápido: la escritura táctil puede combinar pulsaciones de teclas individuales y complicar el aislamiento y la decodificación de las pulsaciones de teclas. Los cambios sistémicos también ayudarían. Los servicios de videollamadas como Zoom podrían introducir ruido de audio o perfiles de distorsión en las grabaciones que impedirían que los modelos de aprendizaje automático hagan coincidir fácilmente el audio con los caracteres escritos.
"La comunidad de ciberseguridad y privacidad debería idear soluciones más seguras y que preserven la privacidad que permitan a las personas utilizar tecnologías modernas sin riesgos ni miedo", dice Mehrnezhad. "Creemos que hay espacio para que la industria y los responsables políticos encuentren mejores soluciones para proteger al usuario en diferentes contextos y aplicaciones".
Los investigadores presentaron su artículo en el reciente Simposio europeo IEEE 2023 sobre talleres de seguridad y privacidad.