Investigadores de Oxford han logrado un avance significativo en la comunicación segura al desarrollar un algoritmo que oculta información sensible con tanta eficacia que es imposible detectar nada oculto.
El equipo, dirigido por la Universidad de Oxford en estrecha colaboración con la Universidad Carnegie Mellon, prevé que este método pueda utilizarse pronto de forma generalizada en las comunicaciones humanas digitales, incluidas las redes sociales y la mensajería privada. En concreto, la posibilidad de enviar información perfectamente segura puede dar más poder a grupos vulnerables, como disidentes, periodistas de investigación y trabajadores de ayuda humanitaria.
Esteganografía frente a criptografía
El algoritmo se aplica a un entorno denominado esteganografía: la práctica de ocultar información sensible dentro de contenido inocuo. La esteganografía se diferencia de la criptografía en que la información sensible se oculta de tal manera que se oculta el hecho de que se ha ocultado algo. Un ejemplo podría ser ocultar un poema de Shakespeare dentro de una imagen de un gato generada por inteligencia artificial.
A pesar de que se llevan estudiando más de 25 años, los métodos de esteganografía existentes suelen tener una seguridad imperfecta, lo que significa que las personas que los utilizan corren el riesgo de ser detectadas. Esto se debe a que los anteriores algoritmos de esteganografía modificaban sutilmente la distribución de contenidos inocuos.
Para superar este problema, el equipo de investigadores utilizó avances recientes de la teoría de la información, en concreto el acoplamiento de entropía mínima, que permite unir dos distribuciones de datos de forma que se maximice su información mutua, pero se conserven las distribuciones individuales.
Como resultado, con el nuevo algoritmo no hay diferencia estadística entre la distribución de contenidos inocuos y la distribución de contenidos que codifican información sensible.
Pruebas con GPT-2
El algoritmo se probó con varios tipos de modelos que producen contenidos autogenerados, como GPT-2, un modelo de lenguaje de código abierto, y WAVE-RNN, un conversor de texto a voz. Además de ser perfectamente seguro, el nuevo algoritmo demostró una eficacia de codificación hasta un 40% mayor que los métodos esteganográficos anteriores en diversas aplicaciones, lo que permite ocultar más información en una cantidad determinada de datos. Esto puede hacer de la esteganografía un método atractivo incluso si no se requiere una seguridad perfecta, debido a las ventajas para la compresión y el almacenamiento de datos.
El equipo de investigadores ha solicitado la patente del algoritmo, pero tiene intención de conceder una licencia gratuita a terceros para un uso responsable no comercial. Esto incluye el uso académico y humanitario y las auditorías de seguridad de terceros de confianza. Los investigadores han publicado este trabajo como preprint en arXiv, así como una implementación ineficiente de su método en GitHub. También presentarán el nuevo algoritmo en la principal conferencia sobre IA, la 2023 International Conference on Learning Representations, que se celebrará en mayo.
Los contenidos generados por IA se utilizan cada vez más en las comunicaciones humanas ordinarias, impulsados por productos como ChatGPT, las pegatinas de IA de Snapchat y los filtros de vídeo de TikTok. Como resultado, la esteganografía puede generalizarse, ya que la mera presencia de contenido generado por IA dejará de despertar sospechas.