🥇 ▷ Cómo la integridad diferencial mantiene los datos útiles y confidenciales

Aunque a menudo utiliza algoritmos bastante complejos, el objetivo de la integridad diferencial es bastante simple: asegurarse de que las personas cuyos datos se recopilan tengan tanta integridad como si los datos nunca se hubieran registrado. Nunca debería poder identificar a nadie simplemente mirando un conjunto de información almacenada sobre ellos.

Cómo funciona el secreto diferencial

A medida que los datos sobre nosotros se recopilan a un ritmo sin precedentes y las personas se sienten incómodas con ellos, la idea de que su integridad puede probarse matemáticamente comienza a verse bastante bien. Empresas como Microsoft, Google, Apple, Facebook y Uber lo han implementado de alguna forma o están explorando sus alternativas, pero incluso antes de que la gran tecnología se interesara, se usaba para cosas como información de investigación confidencial, revistas e incluso partes del censo de EE. UU. .

Hace esto agregando ruido, ya sea a los datos almacenados o a los resultados que se repiten cuando alguien los solicita, destruyendo datos individuales pero conservando la forma general. El “ruido” es principalmente irregularidad, o variación inexplicable, en los datos, y el objetivo aquí es insertar ruido en puntos de datos individuales mientras se mantienen medidas generales como la media, la mediana, la posición y la desviación estándar cerca de lo que eran antes.

Privacidad diferencial simple

Imaginemos que ha sido seleccionado para participar en un estudio pionero de ciencias sociales. Pero aquí está el problema: algunas de las preguntas serán potencialmente vergonzosas, acusatorias o incómodas para usted. Digamos que prefieres que nadie vea tu nombre junto a una marca de verificación en la columna “Realmente me gustó la última temporada de Game of Thrones”.

Afortunadamente, los investigadores han anonimizado el estudio. En lugar de nombres, obtienes un número aleatorio, pero incluso entonces las personas pueden usar tus respuestas y limitarlas a ti.

Este es un problema que en realidad ha surgido bastante en el mundo real, quizás más conocido cuando los investigadores pudieron no solo identificar a los usuarios de Netflix, sino incluso descubrir algunas de sus preferencias políticas. Pero, ¿y si pudiéramos manipular esta información, como nuestra encuesta, para que nadie que lea los resultados pueda saber con certeza lo que dijo cada persona?

Agrega ruido con cerradura de moneda

Aquí hay una técnica que podemos usar tanto para mantener su integridad como para obtener resultados que, en general, parezcan que todos dijeron la verdad:

.u9d1e4d382496aa9a58db35ddc55a6906, .u9d1e4d382496aa9a58db35ddc55a6906. posición: relativa; } .u9d1e4d382496aa9a58db35ddc55a6906, .u9d1e4d382496aa9a58db35ddc55a6906: pasar el mouse, .u9d1e4d382496aa9a58db35ddc55a6906: visitado, .u9d6a6d; } .u9d1e4d382496aa9a58db35ddc55a6906 .clearfix: después de {contenido: “”; pantalla: mesa; Limpia los dos; } .u9d1e4d382496aa9a58db35ddc55a6906 {pantalla: bloque; transición: color de fondo 250ms; transición de webkit: color de fondo 250ms; ancho: 100%; opacidad: 0,95; transición: opacidad 250ms; webkit-transition: opacidad 250ms; color de fondo: # 9B59B6; sombra de caja: 0 1px 2px rgba (0, 0, 0, 0.17); -moz-box-shadow: 0 1px 2px rgba (0, 0, 0, 0.17); -o-caja-sombra: 0 1px 2px rgba (0, 0, 0, 0.17); -webkit-caja-sombra: 0 1px 2px rgba (0, 0, 0, 0.17); } .u9d1e4d382496aa9a58db35ddc55a6906: activo, .u9d1e4d382496aa9a58db35ddc55a6906: hover {opacidad: 1; transición: opacidad 250ms; webkit-transition: opacidad 250ms; color de fondo: # 8E44AD; } .u9d1e4d382496aa9a58db35ddc55a6906 .centered-text-area {ancho: 100%; posición: relativa; } .u9d1e4d382496aa9a58db35ddc55a6906 .ctaText {borde inferior: 0 sólido #fff; color: #FFFFFF; tamaño de fuente: 16px; fuente-peso: negrita; margen: 0; relleno: 0; decoración de texto: subrayado; } .u9d1e4d382496aa9a58db35ddc55a6906 .postTitle {color: #FFFFFF; tamaño de fuente: 16px; peso de fuente: 600; margen: 0; relleno: 0; ancho: 100%; } .u9d1e4d382496aa9a58db35ddc55a6906 .ctaButton {color de fondo: #8E44AD!importante; color: #FFFFFF; borde: ninguno; borde-radio: 3px; sombra de caja: ninguna; tamaño de fuente: 14px; fuente-peso: negrita; altura de línea: 26px; moz-border-radio: 3px; alineación de texto: centro; texto-decoración: ninguno; sombra de texto: ninguno; ancho: 80px; altura mínima: 80px; fondo: url (https://se.moyens.net/wp-content/plugins/intelly-related-posts/assets/images/simple-arrow.png) sin repetición; posición: absoluta; derecha: 0; superior: 0; } .u9d1e4d382496aa9a58db35ddc55a6906: hover .ctaButton {color de fondo: # 9B59B6! importante; } .u9d1e4d382496aa9a58db35ddc55a6906 .centered-text {pantalla: tabla; altura: 80px; relleno-izquierda: 18px; superior: 0; } .u9d1e4d382496aa9a58db35ddc55a6906 .u9d1e4d382496aa9a58db35ddc55a6906-content {display: table-cell; margen: 0; relleno: 0; relleno derecho: 108px; posición: relativa; alineación vertical: medio; ancho: 100%; } .u9d1e4d382496aa9a58db35ddc55a6906: después de {contenido: “”; bloqueo de pantalla; Limpia los dos; }

Diagrama de flujo de moneda de privacidad diferencial

Haremos una pregunta de sí/no (¿Te gustó la última temporada de Juego de Tronos?). Lanzas una moneda. Si la moneda es cara, voltea la moneda nuevamente. (No importa lo que obtenga la segunda vez). Responda la pregunta con sinceridad. (“Sí”). Si sale cruz, voltea la moneda nuevamente. Di “Sí” si es cara. Di “No” si es cruz.

No miraremos la moneda, por lo que no sabemos si le dijo que mintiera o no. Todo lo que sabemos es que tenías un 50 % de posibilidades de decir la verdad y un 50 % de posibilidades de decir “Sí” o “No”.

Lanzamiento de moneda de privacidad diferencial

Luego, su respuesta se registra junto a su nombre o número de identificación, pero ahora tiene una negligencia probable. Si alguien te acusa de disfrutar la última temporada de Game of Thrones, tienes una defensa respaldada por las leyes de la probabilidad: el lanzamiento de la moneda te hizo decirlo.

Los algoritmos reales que la mayoría de las empresas de tecnología utilizan para la integridad diferencial son mucho más complejos que esto (dos ejemplos a continuación), pero el principio es el mismo. Al dejar en claro si cada respuesta es realmente válida o incluso cambiar la respuesta al azar, estos algoritmos pueden garantizar que, sin importar cuántas preguntas envíe alguien a la base de datos, no podrá identificar ninguna concreta.

Sin embargo, no todas las bases de datos tratan esto de la misma manera. Algunos solo aplican los algoritmos cuando se solicitan datos, lo que significa que los datos en sí todavía se almacenan en su forma original en alguna parte. Obviamente, este no es el escenario de privacidad perfecto, pero tener la privacidad diferencial aplicada en cualquier momento es mejor que simplemente sacar los datos sin procesar al mundo.

¿Cómo se usa?

manzana

Integridad diferencial Apple Hademard Media Count Sketch

Apple utiliza la integridad diferencial para enmascarar los datos de los usuarios individuales antes de que se les envíen, con la lógica de que si muchas personas envían sus datos, el ruido no tendrá un impacto significativo en la información recopilada. Usan una tecnología llamada “Count Mean Sketch”, que esencialmente significa que la información está codificada, los bits aleatorios se cambian y luego la versión “incorrecta” se decodifica y se envía a Apple para su análisis. Informa cosas como sus sugerencias de escritura, consejos de búsqueda e incluso emojis que aparecen cuando escribe una palabra.

Google

Flujo de datos de rappor de privacidad diferencial

El primer gran ataque de Google a la integridad diferencial fue RAPPOR (Respuesta ordinal de preservación de la privacidad agregable aleatoriamente), que pasa los datos a través de un filtro y cambia aleatoriamente partes de ellos usando una versión del método de lanzamiento de moneda descrito anteriormente. Originalmente lo usaron para recopilar datos sobre problemas de seguridad en el navegador Chrome y, desde entonces, aplicaron la privacidad diferencial en otros lugares, como averiguar qué tan ocupada está una empresa en un momento dado sin revelar la actividad de los usuarios individuales. De hecho, han abierto este proyecto, por lo que es posible que aparezcan más aplicaciones basadas en su trabajo.

.ua4ed02572b5b0308554341150c31239b, .ua4ed02572b5b0308554341150c31239b .postImageUrl, .ua4ed02572b5b0308554341150c31239b .centered-text-area {min-height: 80px; posición: relativa; } .ua4ed02572b5b0308554341150c31239b, .ua4ed02572b5b0308554341150c31239b: hover, .ua4ed02572b5b0308554341150c31239b: visitado, .ua4ed02572b5b0308 } .ua4ed02572b5b0308554341150c31239b .clearfix: después de {contenido: “”; pantalla: mesa; Limpia los dos; } .ua4ed02572b5b0308554341150c31239b {pantalla: bloque; transición: color de fondo 250ms; transición de webkit: color de fondo 250ms; ancho: 100%; opacidad: 0,95; transición: opacidad 250ms; webkit-transition: opacidad 250ms; color de fondo: # 9B59B6; sombra de caja: 0 1px 2px rgba (0, 0, 0, 0.17); -moz-box-shadow: 0 1px 2px rgba (0, 0, 0, 0.17); -o-caja-sombra: 0 1px 2px rgba (0, 0, 0, 0.17); -webkit-caja-sombra: 0 1px 2px rgba (0, 0, 0, 0.17); } .ua4ed02572b5b0308554341150c31239b: activo, .ua4ed02572b5b0308554341150c31239b: hover {opacidad: 1; transición: opacidad 250ms; webkit-transition: opacidad 250ms; color de fondo: # 8E44AD; } .ua4ed02572b5b0308554341150c31239b .centered-text-area {ancho: 100%; posición: relativa; } .ua4ed02572b5b0308554341150c31239b .ctaText {borde inferior: 0 sólido #fff; color: #FFFFFF; tamaño de fuente: 16px; fuente-peso: negrita; margen: 0; relleno: 0; decoración de texto: subrayado; } .ua4ed02572b5b0308554341150c31239b .postTitle {color: #FFFFFF; tamaño de fuente: 16px; peso de fuente: 600; margen: 0; relleno: 0; ancho: 100%; } .ua4ed02572b5b0308554341150c31239b .ctaButton {color de fondo: #8E44AD!importante; color: #FFFFFF; borde: ninguno; borde-radio: 3px; sombra de caja: ninguna; tamaño de fuente: 14px; fuente-peso: negrita; altura de línea: 26px; moz-border-radio: 3px; alineación de texto: centro; texto-decoración: ninguno; sombra de texto: ninguno; ancho: 80px; altura mínima: 80px; fondo: url (https://se.moyens.net/wp-content/plugins/intelly-related-posts/assets/images/simple-arrow.png) sin repetición; posición: absoluta; derecha: 0; superior: 0; } .ua4ed02572b5b0308554341150c31239b: hover .ctaButton {color de fondo: # 9B59B6! importante; } .ua4ed02572b5b0308554341150c31239b .centered-text {pantalla: tabla; altura: 80px; relleno-izquierda: 18px; superior: 0; } .ua4ed02572b5b0308554341150c31239b .ua4ed02572b5b0308554341150c31239b-content {display: table-cell; margen: 0; relleno: 0; relleno derecho: 108px; posición: relativa; alineación vertical: medio; ancho: 100%; } .ua4ed02572b5b0308554341150c31239b: después de {contenido: “”; bloqueo de pantalla; Limpia los dos; }

¿Por qué no se procesan todos los datos de esta manera?

El secreto diferencial es actualmente un poco complejo de implementar y viene con una precisión que puede afectar negativamente a los datos críticos en determinadas circunstancias. Un algoritmo de aprendizaje automático que utiliza datos privatizados para investigaciones médicas sensibles puede cometer errores lo suficientemente grandes como para matar a personas, por ejemplo. Sin embargo, ya ve un uso real en el mundo de la tecnología, y dada la creciente conciencia pública sobre la privacidad de los datos, existe una buena posibilidad de que veamos la integridad matemáticamente demostrable como un punto de venta en el futuro.

Créditos de imagen: Flujo de datos RAPPOR, Algoritmo del lado del servidor para boceto de conteo medio de Hademard, Paquete R-MASS de encuesta de conjunto de datos, Árbol de probabilidad: lanzar una moneda

Tabla de Contenido