Avances en el procesamiento de datos repercute de manera positiva a la hora de identificar noticias falsas.
Las noticias falsas y la desinformación se han convertido en una amenaza global para la integridad de la información y están generando desconfianza hacia las personas, las comunidades y los gobiernos de todo el mundo. Nos abruma la desinformación a diario a través de informes de noticias, imágenes, videos y memes.
Torcer los hechos para promover una agenda no es un problema nuevo. Sin embargo, el crecimiento explosivo de las redes sociales, combinado con el poder emergente de la inteligencia artificial para generar contenido, ha agregado nuevas dimensiones al problema y lo ha magnificado enormemente, dando como resultado la actual epidemia de “noticias falsas” y la crisis de la información.
Está claro que los verificadores de datos que trabajan por sí mismos no pueden seguir el ritmo del gran volumen de información errónea que se comparte todos los días. Por lo tanto, muchos han recurrido a la inteligencia artificial avanzada en busca de soluciones efectivas para combatir el contenido problemático a escala, pero esto no está exento de desafíos.
Técnicas de procesamiento del lenguaje
Las señales lingüísticas como los patrones de palabras, las construcciones de sintaxis y las características de legibilidad deben modelarse para discriminar de manera confiable entre el contenido generado por humanos y por máquinas. Se requieren técnicas de procesamiento del lenguaje natural (PNL) de última generación para representar palabras y documentos para capturar de manera efectiva el significado contextual de las palabras.
Además, se requieren gráficos de conocimiento y algoritmos avanzados de PNL de gráficos para modelar mejor la interacción entre los diferentes aspectos de un contenido textual y también representar los temas subyacentes en el documento en abstracciones de nivel superior.
En el caso del contenido visual, los avances en las herramientas de edición de fotos y manipulación de videos han hecho que sea mucho más fácil crear imágenes y videos falsos. Sin embargo, la identificación automática de contenido visual manipulado a escala es desafiante y computacionalmente costosa. Requiere una infraestructura informática de vanguardia y la implementación de visión por computadora de última generación, reconocimiento de voz y análisis multimedia para modelar de manera integral los artefactos visuales en varios niveles para comprender numerosos aspectos, como inconsistencias a nivel de píxeles y regiones, plagio, empalme y análisis de espectrograma.
Además, la popularidad de las redes generativas de confrontación (GAN) y la alta accesibilidad de las herramientas que las implementan han acelerado los esfuerzos para generar de manera significativa multimedia engañosa que imita las acciones verbales y fisiológicas de los individuos.
Contrarrestar la generación y difusión engañosa de multimedia requiere modelos avanzados de IA que sean efectivos en la detección y generación de multimedia sintética. El lado del autoaprendizaje de este tipo de IA, a través de un reentrenamiento constante, requiere multimedia a gran escala y poder de cómputo de vanguardia para mejorar las soluciones automatizadas para la comprensión y verificación del contenido visual.
Sin embargo, se han logrado importantes avances recientes que pueden aliviar algunos de estos desafíos. Los avances en el procesamiento y muestreo de big data ofrecen formas inteligentes y confiables de extraer muestras de datos más pequeñas pero representativas que abarcan todos los patrones y señales críticos requeridos para que la IA extraiga información poderosa, pero con demandas computacionales muy reducidas.
Las estrategias de compresión de modelos y destilación de conocimientos han demostrado que la complejidad, el tamaño y los costos de inferencia del modelo de IA también se pueden reducir significativamente, manteniendo el mismo nivel de precisión que el modelo original.
Estos avances, junto con las técnicas de aprendizaje automático como el aprendizaje de pocas oportunidades, han reducido enormemente los costos del motor de cómputo en las infraestructuras en la nube, lo que hace que el análisis de big data basado en IA sea asequible para resolver problemas del mundo real como la desinformación.