Nuevas noticias relacionadas con el mundo de la tecnología son parte de nuestra propuesta informativa y una de ellas es que Apple usará los datos de los usuarios sin violar su privacidad para mejorar sus modelos IA.

Apple implementa una estrategia técnica para mejorar sus modelos de inteligencia artificial sin comprometer la privacidad de sus usuarios. Esta innovación se apoya en el uso de «embeddings», representaciones matemáticas que capturan propiedades esenciales de datos lingüísticos, y en la aplicación de privacidad diferencial, un enfoque el cual busca anonimizar los datos incluso antes de que salgan del dispositivo.
Los embeddings permiten a los sistemas de IA representar mensajes como vectores numéricos, facilitando el análisis semántico sin acceder al contenido original. Esta técnica se volvió clave en múltiples aplicaciones de procesamiento de lenguaje natural, pues posibilita tareas como búsqueda por contexto, clasificación de mensajes y generación de contenido relevante.
En su reciente estrategia, Apple genera mensajes artificiales sin contenido real de usuarios, a partir de los cuales crea embeddings. Estos vectores son enviados a una muestra limitada de dispositivos cuyos usuarios aceptaron participar en análisis del sistema. Cada dispositivo compara los embeddings con datos internos, permitiendo a Apple evaluar su precisión sin acceder al contenido personal almacenado.
Asimismo, el proceso se ejecuta mediante privacidad diferencial, esta técnica inserta variaciones estadísticas en los datos recopilados, dificultando la identificación de individuos concretos. Apple utiliza este enfoque a nivel local en los dispositivos, lo que significa que incluso antes de cualquier envío de información, los datos ya se han vuelto anónimos.
Un respaldo técnico significativo a este método proviene del estudio «SynthDST: Synthetic Data is All You Need for Few-Shot Dialog State Tracking», presentado en la 18° Conferencia de la Asociación Europea de Lingüística Computacional (EACL) en 2024. Desarrollado por investigadores de Apple y Carnegie Mellon, el estudio demostró cómo los modelos entrenados con datos sintéticos pueden alcanzar hasta el 98% del rendimiento de los modelos entrenados con datos reales en tareas complejas de diálogo. Además, se observaron mejoras de entre 4 y 5 puntos porcentuales en métricas clave como la precisión conjunta de objetivos, usando datos generados artificialmente en entornos con pocos ejemplos.
Igualmente, este resultado refuerza la viabilidad del uso de datos sintéticos en la mejora de modelos de IA, especialmente en contextos donde la privacidad de los usuarios resulta prioritaria. Gracias a estas representaciones, Apple busca perfeccionar productos como resúmenes de correos, herramientas de creación visual y sistemas de escritura automatizada, sin necesidad de almacenar o analizar datos sensibles.
Por Judith Moreno / Notipress