La autenticación de llamadas es un desafío creciente en el ámbito de la ciberseguridad. A medida que los delitos telefónicos y los fraudes evolucionan, se necesitan métodos robustos para validar la identidad de los participantes en una llamada. En el contexto actual, donde el fraude telefónico es cada vez más frecuente, los consumidores y las empresas enfrentan riesgos significativos. El Call Verify Secure Protocol (CVSP) surge como propuesta de solución que utiliza parámetros de voz en lugar de audio completo para autenticar al usuario en tiempo real. Al permitir la autenticación continua y la verificación visual a través de un candado en la pantalla del receptor, CVSP aborda la demanda de una mayor seguridad en las telecomunicaciones, apoyando tanto a empresas privadas como a instituciones gubernamentales.
Esta idea surge ante la creciente vulnerabilidad en la autenticación de identidad en llamadas, agravada por la posibilidad de clonar voces con inteligencia artificial. Tras un laboratorio experimental, se evidenció que al entrenar un sistema de inteligencia artificial tipo Private Branch Exchange (PBX) con voces de instituciones conocidas y datos filtrados de usuarios, era posible realizar ataques de vishing extremadamente efectivos. Estos ataques aprovechan la falta de mecanismos de validación para suplantar voces con alta precisión, engañando a los usuarios mediante un asistente virtual que aparenta legitimidad. CVSP nace, por tanto, como una propuesta para autenticar en tiempo real la identidad en llamadas, minimizando el riesgo de suplantación al verificar la autenticidad acústica de la voz en cada comunicación.
Funcionamiento del protocolo de autenticación
Call Verify Secure Protocol es el nombre propuesto para el protocolo de autenticación acústica. Este debe capturar parámetros de voz en tiempo real, generando un certificado que confirma la legitimidad o no del emisor, visible para el usuario con un candado abierto o cerrado según corresponda en la barra superior del dispositivo junto al nombre del proveedor del sistema de telefonía.
Entre sus casos de uso, CVSP permitirá detectar intentos de bots de replicar voces humanas en llamadas, asegurando la integridad de los procesos de verificación en centros de atención y canales de soporte. Al analizar parámetros acústicos específicos y compararlos con las muestras acústicas base, el protocolo puede identificar variaciones que sugieren manipulación o suplantación. Además, en situaciones de riesgo, este sistema facilita la trazabilidad de las llamadas, permitiendo que las agencias de seguridad identifiquen y bloqueen actividades automatizadas maliciosas, contribuyendo a la protección de usuarios y empresas.
Al implementar un marco robusto de autenticación en tiempo real, CVSP no solo mejora la seguridad de las comunicaciones, sino que también optimiza la experiencia del usuario, reduciendo falsos positivos y garantizando que solo se validen interacciones legítimas. En un entorno donde la ciberdelincuencia evoluciona constantemente, la capacidad de CVSP para adaptarse y responder a estas amenazas emergentes es fundamental para salvaguardar la confianza en los sistemas de comunicación digital.
La propuesta de protocolo CVSP prioriza la privacidad al evitar el almacenamiento de grabaciones de voz completa. En lugar de ello, extrae y transforma parámetros acústicos específicos en texto, que luego se envían al servidor de autenticación como certificados. Estos parámetros no contienen información de la voz en sí, sino características que, cuando se comparan con la muestra base registrada, verifican la autenticidad sin exponer datos sensibles del usuario.
Además, el proceso de aprendizaje adaptativo de CVSP permite actualizar la muestra base sin comprometer la privacidad del usuario ni almacenar datos identificables de forma directa. Este enfoque garantiza una alta seguridad y privacidad al cumplir con estándares de protección de datos, mitigando riesgos de exposición en el caso de intrusiones o intentos de acceso no autorizados al servidor.
Secuencia operativa y arquitectura de autenticación en tiempo real
Cada llamada pasaría por un análisis continuo de parámetros de voz, que son transformados en certificados enviados a ambos dispositivos participantes. A través de un sistema de notificaciones auditivas y visuales accesibles, CVSP garantizaría una comunicación confiable y privada, abordando tanto la seguridad como la inclusión del usuario en la experiencia.
- Inicio de la comunicación. Cuando el usuario A inicia la llamada a B, el dispositivo conecta con su celda, que transmite la solicitud a la red de telecomunicaciones (telco). Esta autenticación preliminar permite que la llamada avance hacia la celda receptora de B, estableciendo la conexión segura.
- Captura de muestras acústicas. Al comenzar la llamada, la telco extrae parámetros acústicos de ambos usuarios. Estos se convierten en texto y se comparan con muestras base de cada dispositivo, verificando autenticidad sin almacenar la voz completa.
- Generación del certificado. Al confirmarse la autenticidad, se emite un certificado de seguridad compartido con los dispositivos de A y B.
- Notificación inclusiva y visual. En los primeros 10 a 15 segundos, un tono personalizado (distinguible para no videntes) notifica la validación exitosa. Además, un candado abierto o cerrado según corresponda aparece junto al nombre de la empresa proveedora del servicio en la barra superior del dispositivo, indicando si la llamada es segura o no.
- Autenticación continua. Este proceso de verificación se realiza periódicamente en cada llamada, ofreciendo un monitoreo constante para ambas partes.
Muestra acústica base: modelo dinámico de autenticación adaptativo
La muestra acústica base en el CVSP es un modelo de referencia compuesto por parámetros específicos que representan las características de la voz del usuario, sin incluir grabaciones completas. Estos parámetros incluyen aspectos como frecuencia, tono, cadencia, timbre y fluctuaciones en el sonido de la voz que capturan los elementos individuales de cada locutor sin almacenar el audio en sí.
La creación de esta muestra base comienza con las primeras interacciones, estableciendo un perfil inicial. Con cada nueva llamada, el sistema utiliza aprendizaje automático para ajustar y enriquecer la muestra, refinando los parámetros en función de factores como el entorno acústico, la claridad de la señal y el tono de voz. Este proceso adaptativo permite que la muestra base evolucione, manteniendo su precisión y fiabilidad independientemente de los cambios en el entorno de cada llamada.
A medida que el usuario continúa comunicándose, el sistema reconoce patrones y reajusta la muestra acústica base, minimizando errores y mejorando la autenticación. Este modelo garantiza autenticidad en tiempo real al estudiar cada entorno acústico y adaptarse a las variaciones que ocurren naturalmente en la voz, aumentando así la eficacia del CVSP en la protección de las comunicaciones.
Registro acústico verificable: análisis de parámetros acústicos
El registro acústico verificable (RAV) es una toma de muestra de audio diseñada para su validación que contiene parámetros acústicos específicos que permiten comprobar su autenticidad. Este registro se compara con una muestra acústica base para determinar su veracidad.
El RAV se compone de varios parámetros que se extraen de un archivo de audio utilizando la solución de software desarrollada y otras técnicas de análisis de señales. Los parámetros incluyen:
- Energía. Mide la energía total del audio, lo que indica la intensidad de la señal.
- Duración promedio de silencio. Promedio del tiempo en que no hay actividad sonora
- Entropía espectral promedio. Indica la complejidad y variabilidad del espectro de la señal.
- Tono (pitch). Frecuencia fundamental de la señal, importante para identificar la voz.
- Formantes (F1, F2, F3, F4). Frecuencias resonantes que caracterizan el timbre de la voz.
- Intensidad. Mide la energía promedio de la señal RMS (Root Mean Square).
- Variabilidad de frecuencia. Mide la dispersión de las frecuencias en la señal.
- Prosodia. Captura la variabilidad de la frecuencia a lo largo del tiempo.
- Jitter y shimmer. Indicadores de la variabilidad en el periodo y amplitud, respectivamente.
- Voceo y soplo. Miden características específicas de la voz.
- Timbre. Refleja la calidad tonal de la señal.
- MFCC. Representan la envolvente del espectro de la señal y son útiles para caracterizar la calidad de la voz
Laboratorio
En pruebas técnicas de laboratorio, pudimos observar que esta estructura permite capturar la esencia de la voz del usuario en solo 1,1 KB, proporcionando una representación acústica suficiente para la autenticación sin almacenar la grabación completa de la voz.
La estructura de CVSP permite una transmisión de datos rápida y eficiente, ideal para sistemas que requieren autenticación en tiempo real. Comparado con un archivo de audio típico, que tenía un tamaño de 550,6 KB en formato .WAV con cinco segundos de grabación, la compresión de información se logró a 1,1 KB que para el RAV representa una optimización significativa, logrando una reducción de aproximadamente el 99,8 por ciento.
Esta ligereza en el peso facilita la integración del protocolo en dispositivos y redes con recursos limitados, mientras que la reducción de datos minimiza los riesgos de privacidad al evitar el almacenamiento de la voz completa. Además, el peso reducido garantiza la escalabilidad, permitiendo una implementación a gran escala sin sobrecargar las redes o comprometer la velocidad de respuesta en las verificaciones de identidad.
Los parámetros acústicos capturados, como energía, duración promedio de silencio, entropía espectral promedio, tono, formantes (F1, F2, F3, F4), intensidad, variabilidad de frecuencia, prosodia, jitter, shimmer, voceo, soplo, timbre y MFCC contribuyen a que, de alguna manera, podamos alcanzar una identificación precisa y confiable, mejorando la eficacia del sistema de autenticación sin sacrificar la seguridad o la calidad de la señal.
Eso sí, cabe destacar que las pruebas de laboratorio realizadas hasta septiembre 2024 están aún en su fase experimental y deben considerarse como referencias preliminares de viabilidad en la captura de parámetros. Se requieren más pruebas exhaustivas para establecer la validez y efectividad del protocolo en escenarios reales de autenticación.
Conclusión
Este white paper ha delineado los fundamentos del Call Verify Secure Protocol (CVSP), una nueva propuesta para la validación acústica en tiempo real que busca optimizar la autenticación en entornos de comunicación contemporáneos. A lo largo de mi investigación, estoy desarrollando modelos preliminares para demostrar la viabilidad técnica y la eficiencia del protocolo, evidenciando su capacidad de validación y para reducir significativamente el volumen de datos necesarios para la autenticación sin comprometer la integridad de la información.
La fase actual de investigación y desarrollo representa un momento crucial en la evolución del CVSP. Es imperativo contar con la colaboración de diversos sectores, incluyendo expertos académicos, profesionales de la industria y entidades gubernamentales, para enriquecer y validar mi enfoque. La integración de múltiples perspectivas y conocimientos especializados no solo fortalecerá la robustez del protocolo, sino que también permitirá su adaptación a las exigencias y desafíos específicos de cada contexto.
Al avanzar hacia las pruebas de concepto, el compromiso colectivo de estos actores es esencial para asegurar que el CVSP se convierta en un estándar de referencia en autenticación acústica. Mi objetivo es establecer un marco sólido que garantice la privacidad y seguridad de las comunicaciones, alineándose con las mejores prácticas en ciberseguridad.
La implementación efectiva del CVSP no solo promete elevar los niveles de confianza en las interacciones digitales, sino que también contribuirá a la evolución de las tecnologías de autenticación en un mundo cada vez más interconectado. Estoy entusiasmado por las posibilidades que este protocolo ofrece y esperamos colaborar con todos los interesados en su desarrollo y despliegue.
Referencias
La presente investigación se basa en una revisión exhaustiva de literatura científica y tecnológica en áreas clave como biometría, acústica forense, encriptación de datos y protocolos de autenticación para comunicaciones digitales. Este trabajo también incorpora aportes derivados de consultas en portales especializados, análisis de artículos académicos y conversaciones con expertos en diversas disciplinas.
- Vilches Lagos, N. (2002). Guía Práctica Utilización de Praat en la Evaluación Clínica de la Voz. Documento de trabajo n°48, CIES, Universidad San Sebastián. ISBN: 97156-3-X.
- Dirección Nacional Cuerpo Técnico de Investigación, Fiscalía General de la Nación. Acústica Forense. ISBN: 97156-3-X, 2002.
- López Troccoli, K. Presentación INACIF Instituto Nacional de Ciencias Forenses de Guatemala.
- Hernández Villorria, R. (2003). Análisis Acústico Computarizado de la Voz. Presentación.
- Dierks, T., & Rescorla, E. (2008). The Transport Layer Security (TLS) Protocol Version 1.2. RFC 5246, Internet Engineering Task Force (IETF).
- Rescorla, E. (2018). The Transport Layer Security (TLS) Protocol Version 1.3. RFC 8446, Internet Engineering Task Force (IETF).
- Boersma, P., & Weenink, D. Praat: Doing Phonetics by Computer (Version 6.1.40). Software de análisis de la voz y fonética.