Medición de la "Burbuja de filtro": Cómo influye Google en lo que haces clic

Medición de la "Burbuja de filtro": Cómo influye Google en lo que haces clic

Investigación de privacidad el 4 dic 2018 - DuckDuckGo

A lo largo de los años, ha habido un debate considerable sobre el problema de la "burbuja de filtros" de Google. En pocas palabras, es la manipulación de los resultados de su búsqueda basada en sus datos personales. En la práctica, esto significa que los enlaces se mueven hacia arriba o hacia abajo o se añaden a los resultados de búsqueda de Google, por lo que es necesario filtrar todos los demás resultados de búsqueda. Estos resultados editorializados se basan en la información personal que Google tiene sobre ti (como tu historial de búsqueda, navegación y compras) y te colocan en una burbuja basada en lo que los algoritmos de Google creen que es más probable que hagas clic en ellos.

La burbuja del filtro es particularmente perniciosa cuando se buscan temas políticos. Esto se debe a que los votantes indecisos e inquisitivos recurren a los motores de búsqueda para realizar investigaciones básicas sobre candidatos y temas en el momento crítico en que se están formando sus opiniones sobre ellos. Si están obteniendo información que se hace a un lado debido a sus burbujas de filtro personales, entonces esto puede tener un efecto significativo en los resultados políticos en conjunto.

En 2012 realizamos un estudio que muestra que la burbuja de filtros de Google puede haber influido significativamente en las elecciones presidenciales de Estados Unidos de 2012 al insertar decenas de millones de enlaces más para Obama que para Romney en el período previo a esas elecciones. Nuestra investigación inspiró un estudio independiente del Wall Street Journal (paywall):

Un examen del Wall Street Journal encontró que el motor de búsqueda a menudo personaliza los resultados de las personas que han buscado recientemente a "Obama", pero no los que han buscado recientemente a "Romney".

Ahora, después de las elecciones presidenciales de 2016 en Estados Unidos y otras elecciones recientes, se justifica un nuevo interés en examinar las formas en que la gente puede ser influenciada políticamente en línea. En ese contexto, realizamos otro estudio para examinar el estado del problema de la burbuja de filtros de Google en 2018.

Resumen de las conclusiones

Google ha afirmado que ha tomado medidas para reducir su problema de burbuja de filtro, pero nuestra última investigación revela una historia muy diferente. Sobre la base de un estudio de individuos que introdujeron términos de búsqueda idénticos al mismo tiempo, se encontró que:

  1. La mayoría de los participantes vieron resultados únicos para ellos. Estas discrepancias no pueden explicarse por cambios en la ubicación, la hora, por haber iniciado sesión en Google o por cambios en el algoritmo de pruebas de Google en un pequeño subconjunto de usuarios.
  2. En la primera página de los resultados de búsqueda, Google incluyó enlaces para algunos participantes que no incluyó para otros, incluso al cerrar la sesión y en modo de navegación privada.
  3. Los resultados dentro de los cuadros de información de noticias y videos también variaron significativamente. Aunque la gente buscaba al mismo tiempo, a la gente se le mostraban diferentes fuentes, incluso después de tener en cuenta la ubicación.
  4. El modo de navegación privada y el cierre de sesión de Google ofrecían muy poca protección con burbujas de filtro. Estas tácticas simplemente no proporcionan el anonimato que la mayoría de la gente espera. De hecho, simplemente no es posible utilizar la búsqueda de Google y evitar su burbuja de filtro.

Para aquellos interesados en más detalles, hemos escrito todo a continuación, además de proporcionar los datos y el código subyacentes. Esperamos que este trabajo anime a seguir estudiando esta importante cuestión.

Metodología

Pedimos a los voluntarios en los EE.UU. que buscaran "control de armas", "inmigración" y "vacunas" (en ese orden) a las 9 p.m., hora del Este, el domingo 24 de junio de 2018. Los voluntarios realizaron las búsquedas primero en modo de navegación privada y salieron de Google, y luego de nuevo no en modo privado (es decir, en modo "normal"). Hemos compilado 87 conjuntos de resultados completos - 76 en el escritorio y 11 en el móvil. Nótese que el estudio se restringió a los EE.UU. debido a que los diferentes países tienen diferentes índices de búsqueda.

Durante el análisis de los resultados de la búsqueda, sólo miramos los dominios de primer nivel de los sitios web, por ejemplo, www.cdc.gov/features/vaccines-travel y www.cdc.gov/vaccines/adults se tratarán como cdc.gov.

Resultado #1: La mayoría de las personas vieron resultados únicos para ellos, incluso cuando cerraron la sesión y en modo de navegación privada.

Para contar las variantes de los resultados, observamos el orden de los elementos principales: los enlaces orgánicos (regulares), el infobox de noticias (Top Stories) y el infobox de videos. Ignoramos los anuncios, las secciones que contenían búsquedas relacionadas y otros cuadros de información. Había variaciones en estos también, pero no los consideramos.

Una nota rápida sobre el pedido de enlaces: Usted podría pensar que mientras se muestren los mismos enlaces a los usuarios, el orden de los mismos es relativamente poco importante, pero ese no es el caso. Un enlace dado sólo recibe la mitad de los clics que el enlace anterior y el doble de clics que el enlace posterior. En otras palabras, el pedido de enlaces es muy importante porque la gente hace clic en el primer enlace mucho más que en el segundo, y así sucesivamente.

La cantidad de variaciones que vimos para cada término de búsqueda se enumeran a continuación. Para esta parte del estudio, se excluyeron los resultados móviles porque el número de cuadros de información mostrados puede variar significativamente entre móviles y de escritorio. Por eso dice 76 participantes en lugar de un total de 87. También controlamos la ubicación (más sobre eso abajo).

Modo de navegación privada (y cierre de sesión):

  • "Control de armas": 62 variaciones con 52/76 participantes (68%) viendo resultados únicos.
  • "Inmigración": 57 variaciones con 43/76 participantes (57%) viendo resultados únicos.
  • "Vacunas": 73 variaciones con 70/76 participantes (92%) viendo resultados únicos.

Modo normal:

  •    "Control de armas": 58 variaciones con 45/76 participantes (59%) viendo resultados únicos.
  • "inmigración": 59 variaciones con 48/76 participantes (63%) viendo resultados únicos.
  • "Vacunas": 73 variaciones con 70/76 participantes (92%) viendo resultados únicos.

Sin una burbuja de filtro, uno esperaría ver muy poca variación de las páginas de resultados de búsqueda - casi todo el mundo vería el mismo conjunto de resultados. Eso no es lo que encontramos.

En cambio, la mayoría de la gente veía resultados únicos para ellos. También encontramos más o menos la misma variación en el modo de navegación privada y salimos de Google en comparación con el modo normal.

Ahora, se espera alguna variación en los resultados de búsqueda debido a dos factores que controlamos. En primer lugar, los resultados de la búsqueda pueden cambiar con el tiempo, como la inclusión de enlaces sensibles al tiempo. Controlamos este factor haciendo que todos buscaran al mismo tiempo.

En segundo lugar, los resultados de la búsqueda pueden cambiar por ubicación, como la inclusión de artículos de noticias locales. Hemos controlado este factor comprobando todos los enlaces a mano para esta posibilidad, comparándolos con la ciudad y el estado del voluntario. Vimos muy pocos enlaces locales para el control de armas (1 enlace orgánico, 1 enlace de información de noticias) e inmigración (0), aunque más para vacunas (15 enlaces orgánicos, 4 enlaces de información de noticias).

Para controlar estos enlaces locales, los reemplazamos todos con el mismo marcador de posición - localdomain.com para enlaces orgánicos y "Local Source" para infoboxes - en todos nuestros análisis. Este ajuste significa que dos usuarios cuyos resultados sólo difieren por un dominio local diferente en la misma franja horaria no contarán como diferentes. Curiosamente, este ajuste no afectó significativamente la variación general.

Otra razón por la que puede esperar alguna variación es la prueba del algoritmo de búsqueda, en el que se muestran resultados ligeramente diferentes para diferentes personas. En ese caso, es de esperar que la mayoría de la gente vea los mismos resultados, con unas pocas personas que ven pequeñas diferencias. Lo que vimos, por el contrario, fue que la mayoría de la gente veía resultados diferentes.

Hallazgo #2: Google incluyó enlaces para algunos participantes que no incluyó para otros.

Los resultados de búsqueda de Google suelen tener diez enlaces orgánicos. Mientras que el orden de esos enlaces realmente importa (es decir, el enlace #1 recibe ~40% de los clics, el enlace #2 ~20%, el enlace #3 ~10% y así sucesivamente), también queríamos saber cuántos dominios diferentes estaban siendo mostrados.

Sin una burbuja de filtro, uno esperaría ver que este total es de alrededor de diez. Vimos mucho más. En el modo de navegación privada, desconectado de Google y con los dominios locales sustituidos por localdomain.com, aquí están los totales:

  • "Control de armas": 19 dominios diferentes
  • "inmigración": 15 dominios diferentes
  • "Vacunas": 22 dominios diferentes

Como se puede ver claramente en la visualización anterior, a algunas personas se les mostró un conjunto muy inusual de resultados en relación con los otros participantes, se les ofreció algunos dominios vistos por nadie más. Si fueras una de estas personas, no tendrías forma de saber lo que te pierdes.

Hallazgo #3: Vimos una variación significativa dentro de los cuadros informativos de Noticias y Videos.

También queríamos ver la variación dentro de los cuadros de información de noticias (Top Stories) y videos. También vimos una variación significativa entre ellos, a pesar de que sólo hay tres franjas horarias disponibles. Una vez más, estos son para el modo de navegación privada, se desconectan de Google y los dominios locales se sustituyen por "Local Source".

Infobox de noticias:

  • "Control de armas": 3 variaciones de 5 fuentes, que aparecen para 75/76 personas. La variación más común fue vista por 69 personas (90%).
  • "inmigración": 6 variaciones de 7 fuentes, que aparecen para 76/76 personas. La variación más común fue observada por 35 personas (46%).
  • "Vacunas": 2 variaciones de 3 fuentes, que aparecen para 2/76 personas. Cada variación fue vista por una persona (1%).

Infobox de videos:

  • "Control de armas": 12 variaciones de 7 fuentes, que aparecen para 75/76 personas. La variación más común fue vista por 24 personas (32%).
  • "inmigración": 6 variaciones de 6 fuentes, que aparecen para 75/76 personas. La variación más común fue observada por 42 personas (55%).
  • "Vacunas": No se muestra en los resultados de la búsqueda.

A modo de ejemplo, el cuadro de información Videos para la consulta de "inmigración" mostraba las siguientes seis variaciones. Al igual que con los resultados de búsqueda orgánicos, el orden es importante aquí porque la segunda y tercera ranura recibe muchos menos clics.

  • Hoy, MSNBC, NBC News (mostrado a 42 participantes)
  • MSNBC, Today, NBC News (se muestra a 26 participantes)
  • Hoy, MSNBC, MSNBC (mostrado a 4 participantes)
  • MSNBC, Hoy, Hoy (mostrado a 1 participante)
  • New York Times, CNN, MSNBC (mostrado a 1 participante)
  • Hoy, MSNBC, RealClearPolitics (mostrado a 1 participante)

Recuerde, hicimos que la gente buscara al mismo tiempo, y cambiamos todos los enlaces locales para que fueran iguales, así que esta variación no se explica por la hora o la ubicación. Y de nuevo, algunas personas eran verdaderos valores atípicos; de hecho, algunas no vieron las cajas de información en absoluto.

Resultado n.º 4: El modo de navegación privada y el cierre de sesión de Google ofrecían una protección de burbuja de filtro casi nula.

Finalmente, vimos la variación en el modo de navegación privada (también conocido como modo de incógnito) y salimos de Google casi igual que en el modo normal. La mayoría de la gente espera que tanto el estar desconectado como el estar "de incógnito" le proporcione algo de anonimato. Desafortunadamente, este es un concepto erróneo común ya que los sitios web utilizan direcciones IP y huellas dactilares del navegador para identificar a las personas que están desconectadas o en modo de navegación privada.

Si los resultados de la búsqueda fueran más anónimos en estos estados, entonces esperaríamos que los resultados del modo de navegación privada de todos fueran similares. Eso no es lo que vimos.

Para probar esto más rigurosamente, tomamos los resultados orgánicos, excluyendo anuncios e infoboxes, y:

  1. Asignó a cada dominio una letra (por ejemplo, A para nytimes.com, B para wsj.com, etc.).
  2. Hizo una cadena de letras para los resultados de cada persona, por ejemplo, ABDFJKMSL.
  3. Comparé estas cuerdas para ver lo similares que eran entre sí.

Para hacer esta comparación contamos los cambios de dominio entre diferentes conjuntos de resultados de búsqueda, reduciendo las diferencias a un número. Por ejemplo, ABC -> ACB es un cambio. (Técnicamente, usamos una letra para representar cada dominio dentro de cada resultado de búsqueda y calculamos la distancia de edición Damerau-Levenshtein entre ellos.)

Vimos que cuando se comparaban aleatoriamente los modos privados de las personas entre sí, había más del doble de variación que cuando se comparaba el modo privado de alguien con su modo normal:

control de armas:

  • Media de la modalidad de navegación normal y privada (mismo usuario): 1,03
  • Media de la modalidad de navegación privada (usuario aleatorio): 2,89
  • Media de la modalidad de navegación privada (cinco usuarios más cercanos): 2,65

inmigración:

  • Media de la modalidad de navegación normal y privada (mismo usuario): 1,38
  • Media de la modalidad de navegación privada (usuario aleatorio): 3,28
  • Media de la modalidad de navegación privada (cinco usuarios más cercanos): 2,80

vacunaciones:

  • Media de la modalidad de navegación normal y privada (mismo usuario): 2,23
  • Media de la modalidad de navegación privada (usuario aleatorio): 4,97
  • Media de la modalidad de navegación privada (cinco usuarios más cercanos): 4,25

A menudo oímos hablar de la confusión de que el modo de navegación privada permite el anonimato en la web, pero este hallazgo demuestra que Google adapta los resultados de la búsqueda independientemente del modo de navegación. No hay que adormecer a la gente con una falsa sensación de seguridad de que el llamado modo "de incógnito" la hace anónima.

Datos del estudio y código

Los datos están disponibles para su descarga en dos partes: Datos básicos no identificables de los participantes y datos brutos de los resultados de la búsqueda.

El código que escribimos para analizar los datos es de código abierto y está disponible en nuestro repositorio GitHub.


Para más consejos sobre privacidad, síguenos en Twitter y recibe nuestro curso intensivo sobre privacidad.


Traducido con Deepl por @seguridadinformatic4

Report Page