Big data

Capítulo 7. La otra cara del big data

Página 13 de 16

CAPÍTULO 7

La otra cara del big data

Introducción

En los capítulos anteriores hemos introducido los conceptos fundamentales que facilitan el análisis de big data y descrito cómo sus aplicaciones en muy diversos campos están permitiendo avances hasta hace poco inimaginables. Sin embargo, no es menos cierto que esta transformación digital también conlleva aspectos menos deseables, incluso peligrosos. Muchas de estas cuestiones requerirían un amplio debate en nuestra sociedad que solo ahora está empezando a tomar forma. De hecho, durante los últimos años se nos ha privado de este debate, por una parte por la rapidez de implantación de las nuevas tecnologías muy superior a la capacidad de reflexión de la sociedad sobre sus consecuencias y, por otra, porque los motores de dicho cambio se han esforzado, en general, en que tal debate no tenga lugar. En este capítulo trataremos los aspectos menos edificantes de esta revolución tecnológica: la otra cara del big data.

¿Quién almacena nuestros datos? ¿Qué datos? ¿Con qué fin?

En sus inicios, navegar por internet era una actividad casi anónima. Es cierto que los proveedores de servicios estaban obligados a identificar la dirección IP de una máquina que se conectaba y vincularla con el titular del contrato, pero los navegadores eran programas relativamente sencillos destinados a desplegar el código html (texto, imágenes, etc.) que descargaban de la página a la que se estaba accediendo.

Para entender lo que ocurre hoy en día, invitamos al lector a visitar el sitio Webkay22 para obtener ejemplos de todo lo que un sitio web puede averiguar de manera automática sobre nosotros. Para empezar, el navegador revelará la dirección IP, a partir de la que se puede identificar de manera muy aproximada la ubicación por medio de una llamada a la API de geolocalización de Google. Además de la IP, se transmitirán la versión de nuestro navegador, el hardware de la máquina, el sistema operativo que estamos usando y la lista crece si tenemos sesión abierta en Google, Facebook o alguna otra red social. Aparentemente resulta información inocua, pero su verdadero valor y potencial es que nos identifica casi de manera única: en la región del Puerto de Santa María, desde donde se están escribiendo estas líneas, es muy probable que no haya otra persona con un ordenador con sistema operativo Linux Ubuntu 18.04, navegador Firefox 63.0 y un procesador con ocho núcleos. La configuración conjunta de todos estos elementos identifica de manera única nuestro ordenador, aunque volveremos más adelante sobre este tema al hablar de anonimización robusta. Cierto es que esta identificación única no está asociada aún a nuestro nombre, pero cualquier sitio web puede saber si nuestro ordenador es el mismo que visitó el sitio la semana pasada. Además, los navegadores no solo están capacitados para recopilar esta sencilla información, sino que pueden hacer un seguimiento mucho más detallado de nuestra actividad: cómo movemos el ratón, cuánto tiempo ha pasado desde cada suceso, dónde centramos nuestra atención al navegar, etc.23.

Todo lo mencionado hasta ahora es un mero comienzo: la información que revela el propio navegador sin intervención de los sitios visitados. Pero, además, muchos de estos sitios están muy interesados en recopilar información sobre sus visitantes, tarea que realizan a través de las conocidas cookies. Estas son pequeños programas que se instalan en el ordenador la primera vez que se visita una página y cuya tarea es intercambiar información con la misma, recordar preferencias o visitas pasadas. Gracias a ellas nuestra ciudad aparece automáticamente la siguiente vez que entramos en un sitio de predicción del tiempo o los productos que almacenamos en el carrito de compra siguen ahí días después de que los pusiéramos allí. Muy útil.

El problema es que muchas páginas web tienen acuerdos comerciales para instalar en nuestro ordenador cookies de terceros, es decir, programas que enviarán información a otros sitios que nada tienen que ver con el sitio visitado. El objetivo habitual será recopilar una información lo más detallada posible sobre nuestro perfil, nuestros gustos y actividades, de cara a personalizar las ofertas publicitarias que recibimos mediante la denominada “mercadotecnia de precisión”. De este modo recibiremos ofertas incansables de zapatillas de deporte tras visitar una web de productos deportivos, incluso tras haber comprado las zapatillas… Sin embargo, hay ocasiones en que las cookies de terceros pueden extraer sin nuestro consentimiento información altamente sensible, como las contraseñas almacenadas en nuestro navegador o el texto que se escribe en formularios web antes incluso de enviarlo. A diferencia de las cookies de análisis de tráfico en webs más o menos inofensivas, ya que solo tratan información agregada, estos programas están diseñados para extraer información personal y venderla a terceros. De hecho, un estudio reciente de la Universidad de Princeton (WebTAP, 2019) reveló que 500 de los sitios web más visitados estaban recopilando todo tipo de información personal sobre sus visitantes y vendiendo la información a terceros. Como ejemplo, Google accedió a pagar 22,5 millones de dólares en 2012 por desactivar la protección del navegador Safari contra cookies de terceros.

En este orden de cosas, conviene recordar que con la entrada en vigor del Reglamento General de Protección de Datos (RGPD) en la Unión Europea en 2018 queda regulado el uso de cookies: “Las personas físicas pueden ser asociadas a identificadores en línea […] como direcciones de los protocolos de internet, identificadores de sesión en forma de ‘cookies’ u otros identificadores […]. Esto puede dejar huellas que, en particular, al ser combinadas con identificadores únicos y otros datos recibidos por los servidores, pueden utilizarse para elaborar perfiles de las personas físicas e identificarlas”. En otras palabras: cuando las cookies puedan identificar a un individuo, se les considerará datos personales.

En el mundo de la ciencia de datos, capturar información es un producto de gran valor. Las empresas son muy conscientes de ello. Pero no tanto los usuarios. Así, las empresas suelen recurrir a trucos para recopilar tal información, ofreciendo servicios cuyo verdadero fin es pagar por nuestros datos. Las tarjetas de fidelización en supermercados que mencionamos en el capítulo 2 son los primeros ejemplos de esto: nos ofrecen pequeños descuentos a cambio de recopilar toda la información sobre nuestra lista de la compra (figura 8). El efecto es aún más acusado con las apps en los teléfonos móviles: para acceder a una hamburguesa gratis o al sorteo de algún regalo, nos pedirán que instalemos la aplicación y abramos una cuenta de usuario. Estas apps recopilarán todo tipo de información sobre nosotros (a veces incluso nuestra lista de contactos), la mayor parte de las veces sin que seamos conscientes. Como ejemplo, en 2017 la compañía fabricante de los robots aspiradores Roomba anunció que tenía intención de vender la información recopilada por sus robots a terceros (Google, Amazon, etc.), con gran entusiasmo por parte de sus accionistas pero creando un importante revuelo: tal información eran planos detallados de cada casa, con la ubicación de muebles y objetos. No sabíamos que al meter un robot para que quitara el polvo de casa ¡estábamos introduciendo un espía! Quizás uno de los ejemplos más conocidos en nuestro país de aplicaciones móviles que realizan tareas ocultas al usuario que las instala en su teléfono se desveló en el año 2018, poco después de la entrada en vigor del mencionado RGPD. En ese momento, se descubrió que la Liga Profesional de Fútbol estaba empleando la geolocalización y el micrófono de los móviles que habían instalado su app para detectar bares y establecimientos que estuvieran proyectando partidos sin haber pagado la correspondiente licencia.

Figura 8

Las tarjetas de fidelización de supermercados están comprando tus datos. XKCD: A webcomic of romance, sarcasm, math, and language.

Fuente: https://xkcd.com/2006/

Hemos visto pues algunas de las formas mediante las que las empresas acceden a nuestros datos de manera más o menos escondida y con fines distintos a los anunciados. Sin embargo, resulta casi paradójico que la mayor cantidad de datos de la que disponen grandes compañías como Google, Amazon o Facebook es información que les proporcionamos nosotros de manera voluntaria, aunque sigue siendo cierto que apenas somos conscientes de los diversos usos que se pueden hacer y hacen de ella.

El verdadero negocio de los gigantes de internet

En la era de internet nos hemos acostumbrado a que muchas cosas sean gratis: comprábamos periódicos en el kiosco hasta que empezamos a leer contenidos en sus versiones en línea (y el periódico dejó de ser una fuente de información para convertirse en un catálogo comercial); comprábamos navegadores GPS para el coche hasta que Google Maps empezó a ofrecer el mismo servicio de manera gratuita; en la universidad teníamos varios ordenadores y un equipo de informáticos encargados de gestionar el correo electrónico corporativo con buzones de capacidad muy limitada hasta que Google nos ofreció gestionar nuestro servicio con buzones ilimitados de manera gratuita. Nadie puede resistirse a la atracción de lo gratuito. Uno se pregunta, sin embargo, dónde está el producto detrás de tanta gratuidad, ¿cómo ganan dinero estas compañías? Y aquí viene a la memoria la frase del mítico jugador de póquer Amarillo Slim: “Mira a tu alrededor, si no sabes identificar al pardillo en la mesa, entonces el pardillo eres tú”. En internet, como no sabes cuál es el producto, entonces el producto eres tú. Para Google, Facebook y el resto de gigantes de internet no somos usuarios, sino productos: los destinatarios de sus campañas de publicidad.

Así pues, el modelo de negocio es un intercambio en el que nos ofrecen un gestor de correo electrónico, una plataforma para conversar con amigos, para encontrar a tus viejos compañeros de clase, un navegador GPS para no perdernos en la ciudad, una carpeta en la nube para almacenar nuestros ficheros…, todo ello a cambio de recopilar una cantidad de datos tan inmensa que probablemente hace que Google nos conozca mejor que nosotros mismos: qué coche te quieres comprar, dónde vas a ir de vacaciones, cuántos hijos tienes, qué camino tomas para ir a trabajar, a quién vas a votar, cómo te sientes hoy, esa pasión oculta que no has confesado a nadie… pero has buscado en internet, a qué hora te acuestas y con quién, etc.

Aunque los hemos mencionado en capítulos anteriores, conviene entender los fundamentos básicos del mercado publicitario digital. A diferencia de los anuncios tradicionales en televisión, que solo permitían segmentar el público objetivo por franja horaria o asociado a ciertos programas de televisión, la publicidad digital presume de su precisión al impactar a la persona escogida en el lugar idóneo y el momento adecuado. De este modo, se obtiene una eficiencia mayor de la inversión en publicidad. Cada vez que cargamos la página de nuestro diario favorito para leer las noticias del día, el correspondiente banner publicitario que veremos depende de una compleja subasta (RTB, Real Time Bidding) en la que distintos algoritmos pujan por mostrarnos su anuncio en función de cuanto piensen que nuestro perfil se adapta al producto que desean vender. Todo esto ocurre en la fracción de segundo que tarda el navegador en cargar la página; obviamente, estos algoritmos emplean toda la información que puedan adquirir sobre quien está al otro lado del ordenador para afinar los modelos: más información implica modelos más precisos y, típicamente, mayor rendimiento de la inversión en publicidad. Cuando introducimos una búsqueda en Google se pone en marcha otra subasta, en función de las palabras de búsqueda, en la que los anunciantes pujan para que su página web aparezca en lo más alto de los resultados de búsqueda (SEM, Search Engine Marketing), una vez más en función de nuestra ubicación y otras variables. El resultado depende de la puja, pero también de un factor de calidad que Google asigna a cada empresa en función de cuánto se adecúe su actividad a las palabras buscadas, según un algoritmo que solo él conoce. El elemento diferenciador que aupó a Google a su posición de liderazgo fue el algoritmo PageRank, que el público identificó de inmediato como mucho más útil de cara a buscar contenido en internet. Las páginas de anunciantes se mostraban en un principio de manera claramente diferenciada de los resultados de la búsqueda, pero hoy en día apenas se nota la diferencia. A su vez, se ha desarrollado toda la industria de posicionamiento en buscadores (SEO, Search Engine Optimization). Google ha probado muchos productos y líneas de negocio diversificando sus inversiones, pero, en realidad, la que mejor le ha funcionado es la de la publicidad: así, Google es la mayor agencia de publicidad del mundo. Facebook o Twitter también siguen el mismo modelo de negocio: nos ofrecen una plataforma para que voluntariamente les entreguemos una cantidad inimaginable de datos personales gracias a los cuales pueden afinar campañas de publicidad muy orientadas a su público objetivo.

Pero entonces, ¿cuánto deberían valer nuestros datos personales? La pregunta es muy relativa y probablemente tenga dos respuestas bien diferenciadas para el que cede los datos y para el que los adquiere. Para el ciudadano medio, a tenor del comportamiento observado durante los últimos años, el valor que concedemos a nuestros propios datos es más bien pequeño, pues prácticamente los hemos regalado a cambio de nada a las grandes compañías. Para los gigantes de internet podemos hacer un cálculo sencillo basado en dividir el beneficio del sector publicitario digital en Estados Unidos durante 2016 (83.000 millones de dólares) entre el número de usuarios en el país (280 millones) lo que arrojaría una cifra media de 296 dólares per cápita.

En la economía digital nadie da duros a cuatro pesetas24, o como nos recordaba Milton Friedman: “There ain’t no such thing as a free lunch”. Veamos pues brevemente los modelos de negocio de las plataformas digitales a través de tres ejemplos y de ese modo entenderemos mejor cómo monetizar nuestros datos (Li et al., 2018).

Una plataforma de comercio electrónico, como Amazon Marketplace, pone en contacto consumidores y vendedores a través de su web. Los vendedores pagan a Amazon el 30% del valor de sus ventas; a cambio, tienen la posibilidad de acceder al mercado global, pero también a la información que Amazon les proporciona sobre sus consumidores. Amazon recopila de los consumidores el historial de visitas, su localización, los datos de las transacciones, etc., lo que le permite construir perfiles muy ajustados de nuestros hábitos de consumo. Con esos perfiles ofrece a las empresas asesoría en estrategias de precios (dynamic pricing), logística (dónde instalar un nuevo almacén) y publicidad muy dirigida al público objetivo. Aproximadamente la mitad de las ventas de Amazon son de terceros y, solo en la comisión del 30% sobre estas ventas, su beneficio anual se estima en 3.000 millones de dólares (Amazon 10K report), solo en el sector de ventas al por menor. Sin embargo, su oferta de servicios en la nube (Amazon Web Services), aunque represente menor facturación, supera ya a las ventas al por menor en volumen de beneficios, siendo la tendencia ascendente.

Booking.com es un portal de viajes que ofrece 28,9 millones de alojamientos a través de su web en más de un millón de localidades en 230 países. Su modelo de negocio consiste en poner en contacto a propietarios de alojamientos y hoteles con clientes, cobrando a los primeros una comisión sobre ventas del 15%. Los consumidores se benefician de la rapidez en la reserva y de descuentos en alojamientos; los propietarios tienen acceso a un mercado muy rápido para dar salida a excedentes perecederos y cubrir plazas de manera ágil y dinámica. El portal recopila información del historial de búsquedas, transacciones, opiniones y localización de consumidores. Proporciona a los propietarios estrategias de precios, predicción de demanda y marketing de precisión, demostrando un estudio reciente que ayuda a incrementar su beneficio en un 7%. Solo en comisiones, el beneficio de Booking en 2017 fue de 12 millones de dólares, una cantidad nada desdeñable para una compañía que no posee un solo hotel. De hecho, en la sede central de Booking en Ámsterdam el 90% de los empleados son ingenieros informáticos.

Finalmente, Waze es una plataforma de crowdsourcing que proporciona vías de intercambio de información entre conductores, que instalan su app de manera gratuita. Ofrece información en tiempo real sobre accidentes, estado de la carretera, etc., generada y compartida por otros usuarios; calcula rutas óptimas y estima tiempos de recorrido. En el año 2013, Google compró Waze por 1.100 millones de dólares. Una vez más, el modelo de negocio se basa en proporcionar a terceros información sobre desplazamientos. Por ejemplo, usar datos de tráfico para que las compañías de medios decidan su estrategia de colocación de vallas publicitarias, enviar publicidad a los usuarios en función de su localización o para acceder a un restaurante cercano, entre muchas otras.

Las principales empresas hoteleras son Airbnb y Booking; no tienen un solo alojamiento en propiedad. La principal empresa de movilidad es Uber; no posee un solo vehículo. La principal empresa del sector de venta al por menor es Alibaba; no dispone de inventario. La principal empresa de contenidos digitales es Facebook; no genera su contenido. Son empresas de datos. Recopilan, limpian, analizan y desarrollan aplicaciones para poner en contacto productores de servicios con consumidores.

Prácticamente nadie en el entorno empresarial duda ya del inmenso valor que tiene la adquisición de datos, aunque la sociedad en su conjunto no sea aún muy consciente de ello. El desarrollo de tecnología requiere una inversión constante para que no se quede obsoleta. Sin embargo, el valor de los datos puede aumentar en el futuro gracias a procesos de fusión e hibridación, que permiten extraer nuevo valor de ellos al combinarse con otras fuentes de datos para realizar nuevas funciones.

Big brother is watching: ciencia de datos al servicio del poder político

Queda claro, pues, que las empresas emplean muchos de nuestros datos como lo que miramos en internet, por dónde nos desplazamos, qué restaurantes, productos o canales de televisión nos gustan o, incluso, llegan a escuchar lo que estamos diciendo. A muchas personas les parecerá una invasión inadmisible de su privacidad. A otras muchas seguramente les importe bien poco, pues al final el único objetivo es comercial: vender sus productos o evaluar sus inversiones en publicidad. Cuando una empresa conecta el micrófono de mi móvil no está realmente interesada en lo que digo, tan solo quiere saber qué canal de televisión estoy mirando. ¿Por qué? Porque una parte importante de la actual industria publicitaria se basa en pagar por los anuncios en función de la contribución que cada uno haya tenido en conseguir que adquieras el producto (en su jerga, en tu “conversión”). Se denominan “modelos de atribución” y en un mundo donde cada vez más nos esforzamos porque todo sea medible, conocer y predecir el efecto concreto de un anuncio de televisión o un banner en internet tiene un impacto considerable en la economía digital. Pero las cosas no acaban aquí. La capacidad que proporcionan las nuevas tecnologías para conocer y controlar masivamente una población entera no puede pasar (y no ha pasado) desapercibida a toda organización interesada en el poder político.

El espionaje y la represión de aquellos que no piensan como nosotros ha existido desde siempre. Sin embargo, lo que cambia con las nuevas tecnologías de procesamiento inteligente de información es la escala de vigilancia, que puede llegar de manera efectiva a cualquier individuo en cualquier momento a través de los dispositivos digitales (teléfonos, altavoces y televisiones inteligentes, wearables, etc.). George Orwell terminó de escribir 1984 en 1948; en ella dibujaba una distopía futurista en la que un estado opresor controlaba a la población a través de telepantallas. Curiosamente, en el mismo año Claude Shannon publicó su Teoría matemática de la comunicación y Norbert Wiener su Cibernética o el control y comunicación en animales y máquinas. Ambas teorías han tenido una influencia considerable en el desarrollo de la IA. En 1948, sin embargo, la computación estaba aún en pañales: Alan Turing se unía al proyecto Mark 1 de la Universidad de Manchester para construir uno de los primeros ordenadores capaces de ejecutar programas por medio de tarjetas perforables. El ordenador ocupaba una habitación entera y se empleó para cálculos relacionados con la hipótesis de Riemann, un problema matemático sobre la distribución de números primos. Se estaban sembrando las semillas que han dado lugar a las ciencias de la computación y la IA. Hoy en día, tras setenta años de vertiginoso desarrollo, la hipótesis de Riemann sigue sin haber sido demostrada, pero disponemos ya de la tecnología necesaria para implementar una sociedad orwelliana. Quizás estemos ya viviendo en ella y no seamos del todo conscientes…25.

Entre 1950 y 1989, la policía política de la antigua RDA, la infame Stasi, perfeccionó los métodos de vigilancia y control políticos llegando a ocupar unas 250.000 personas entre empleados e informantes, penetrando en prácticamente cualquier actividad de la vida pública de aquel país. Para una población de 17 millones suponía un espía por cada 70 habitantes. Con los métodos de supervisión existentes en la actualidad, empleando técnicas de IA, tratamiento de imágenes y procesamiento del lenguaje natural, se pueden vigilar miles de millones de ciudadanos con apenas varios miles de empleados26. Así, en tiempos de la Stasi espiar a una persona era un procedimiento más o menos laborioso: hacía falta acceder físicamente a su domicilio para intervenir su teléfono, personal para seguir sus desplazamientos y hacer fotos, etc. Hoy en día todo resulta mucho más fácil en el mundo digital. Y para facilitar aún más la tarea, nosotros mismos proporcionamos mucha información sobre nuestra actividad a través del correo electrónico y las redes sociales. Al abrir una cuenta en Facebook, Twitter o Gmail firmamos un acuerdo con las correspondientes condiciones de servicio. Sí, ese mensaje tan largo en letra muy pequeña que nadie lee… En dicho acuerdo se regula el uso que la empresa hará de nuestros datos, entre los que no se contempla la cesión a terceros. Sin embargo, en 2013 Edward Snowden, un empleado de la NSA, reveló en The Guardian y The Washington Post que la agencia poseía un programa clandestino, llamado PRISM, que recopilaba información de los usuarios de empresas como Microsoft, Google, Skype, Yahoo, Apple, Youtube o Dropbox, que recibían a cambio millones de dólares. Podríamos pensar que, al fin y al cabo, lo hacían a petición de su Gobierno y para cuestiones de seguridad nacional; además, si uno no tiene nada que esconder, no tiene por qué importarle. Sin embargo, el mal uso de algoritmos de IA y ciencia de datos en redes sociales puede tener efectos notables en elecciones y en la propagación de ideas en la sociedad, como mencionamos en el capítulo 4 y describimos en detalle más adelante.

Uno de los aspectos más controvertidos referidos a seguridad y TIC es la combinación entre cámaras de videovigilancia y los avances en IA para reconocimiento facial27 o análisis de imagen y vídeo. La ubicuidad de cámaras CCTV en las ciudades hace posible cubrir prácticamente cualquier ángulo; los algoritmos que poseemos permiten el procesamiento automatizado de imágenes y vídeos para detectar una determinada persona, ya sea por sus rasgos faciales o, incluso, por su modo de caminar (gait analysis). Esta tecnología, ya en uso en aeropuertos y centros de alta seguridad en Europa, está implantada en el acceso a residencias y zonas urbanas en China (donde se estima que existen 200 millones de cámaras de vigilancia). Incluso los agentes de policía patrullan ya con gafas inteligentes que les permiten identificar cualquier persona que tenga ficha en su base de datos (Mozur, 2018).

Experimentos sociales en la era digital: el caso de Cambridge Analytica

En el año 2012 un grupo de investigadores de Facebook y de Cornell University decidieron realizar un experimento psicológico de dimensiones hasta entonces nunca vistas, cuyo resultado publicaron en la prestigiosa revista PNAS (Kramer et al., 2014). Como lector de estas líneas hay una alta probabilidad de que tengas una cuenta en Facebook, pero quizás no te hayas parado a pensar que los mensajes que aparecen en tu página no son todos los que genera tu red de amigos, sino que se seleccionan con ayuda de un algoritmo que solo Facebook conoce.

El experimento social consistía en modificar dicho algoritmo sobre un total de 700.000 individuos, de modo que a una parte se les mostraban mensajes negativos generados por sus amigos, mientras que a los otros se les mostraban mensajes positivos28. Todos los mensajes eran reales, modificándose solo el filtro que los selecciona. El resultado quizás no es sorprendente: aquellos que recibían mensajes negativos tenían una mayor tendencia a enviar, a su vez, mensajes negativos, mientras que los que recibían mensajes positivos enviaban con mayor frecuencia mensajes positivos. Sin embargo, lo que resulta llamativo es que un ingeniero informático, modificando unas pocas líneas de código, era capaz de propagar estados de ánimo sobre una población entera. El experimento recibió muchas críticas porque los usuarios de Facebook no habían sido informados ni dieron su consentimiento para participar en él… aunque esto quizás no debería ya sorprendernos a estas alturas del capítulo.

Pero… un momento. Si podemos propagar estados de ánimo, también podríamos propagar ideas y filtrar unas respecto a otras. Era evidente que las redes sociales tenían la capacidad de influir en elecciones y procesos democráticos. Como comentamos en el capítulo 4, Cambridge Analytica era una empresa que ofrecía servicios de asesoría electoral usando minería y análisis de datos fundada por Steve Bannon, el gurú de la alt-right. Entre muchas otras, la empresa prestó sus servicios a la campaña presidencial de Donald Trump en 2016, así como a la plataforma Leave.eu a favor del Brexit en el referéndum del mismo año. La compañía usaba datos de usuarios de Facebook captados a través de una app que capturaba la información de las 270.000 personas que la instalaron y de todos sus contactos, llegando a recopilar los de 87 millones de usuarios. Con unos pocos likes, páginas visitadas y su comportamiento comercial se pueden elaborar modelos psicológicos de cada usuario que después se utilizan para elaborar propaganda electoral personalizada (behavioural micro-targetting, en palabras de la empresa). En realidad no es más que la mercadotecnia de precisión que hemos mencionado en la sección anterior, pero el producto en este caso sería un candidato electoral. El escándalo adquirió tintes tragicómicos cuando, en una grabación con cámara oculta para Channel 4, se mostraba al CEO de la empresa vendiendo sus servicios a un supuesto candidato de Sri Lanka. El ejecutivo asesoraba a los potenciales clientes sobre trampas, sobornos y campañas de descrédito de oponentes políticos, para lo cual proporcionaría bellas muchachas ucranianas (Bridge, 2018). Cuando el escándalo Cambridge Analytica saltó en marzo de 2018, tras las declaraciones de un exempleado, Facebook perdió en un mes 37.000 millones de dólares en capitalización bursátil y la proporción de usuarios que confiaban en la compañía bajó al 41% al conocerse sus prácticas de monetización de datos personales. Un compungido Mark Zuckerberg comparecía poco después ante el Senado de los Estados Unidos para explicar el papel de Facebook en el uso ilegal de datos para perfilado con fines electorales. Una vez más, en la nueva economía digital se volvía a demostrar que vale más pedir perdón que pedir permiso29.

Círculos viciosos y sesgos en el sistema

En 2016 Cathy O’Neil, científica de datos y ex quant en la banca de inversión, publicó un libro con impacto considerable en la comunidad de especialistas en ciencia de datos. Su Weapons of Math Destruction alerta sobre las cuestiones éticas asociadas al uso que los algoritmos de IA están teniendo en la sociedad, donde un número cada vez mayor de decisiones se toman a partir de los resultados de un modelo de aprendizaje automático.

Hasta hace poco, en la industria bancaria una persona que iba a pedir un préstamo al banco se entrevistaba con el director de la sucursal, que evaluaba, teniendo en cuenta el historial financiero y su conocimiento de la persona, la posibilidad de que dicho crédito no fuera devuelto, decidiendo en consecuencia. Quizás era un proceso sujeto a fallos de apreciación, pero era más humano que los sistemas actuales en los que algunos modelos predictivos entrenados sobre datos pasados toman decisiones de manera automática sin conocer a la persona más que a través de un puñado de datos. El problema es que, por ejemplo, una de esas variables predictivas podría ser el código postal: el algoritmo aprende que los habitantes de cierto distrito tienen mayor probabilidad de créditos fallidos y, en consecuencia, el modelo decide que han de pagar una prima mayor por existir mayor riesgo de impago o, directamente, se les deniega el crédito. El resultado es que se aumenta la brecha de desigualdad social, dando lugar a un círculo vicioso que retroalimenta y confirma el modelo predictivo. Sucede algo parecido con las primas de seguros médicos: aceptamos pagar una prima mayor en función de la edad porque entendemos que el gasto médico crece a una edad más avanzada. Sin embargo, ¿resulta ético vincular la prima del seguro médico al lugar donde vivimos? Como se acostumbra a decir, en la determinación de nuestra esperanza de vida, mucho más que nuestro código genético, influye nuestro código postal.

En Minority Report, el film futurista dirigido por Spielberg en 2002, Tom Cruise encarna al jefe de una policía precrimen. Algunas facetas de la película que por entonces eran ciencia ficción hoy son realidades, como por ejemplo las predicciones de crimen basadas en big data que ya se están utilizando en ciudades como Los Ángeles. PredPol es un software comercial para que cualquier fuerza policial en cualquier lugar del mundo pueda usar esta tecnología, entre los que ya se encuentran Suzhou (China), Kent (Reino Unido) y los Países Bajos, además de varios estados en los Estados Unidos. Es sin duda interesante el mensaje de que gracias a este sistema se puede enviar policía al lugar adecuado en el momento justo, antes de que se cometa un crimen. Sin embargo, el sistema ha recibido también fuertes críticas por promover estereotipos raciales o por entrenar el modelo sobre datos sesgados. Una vez más, vemos la profecía que se autocumple: los datos de entrenamiento para el modelo, es decir, los crímenes pasados, vienen ya sesgados porque la policía se ha concentrado en determinadas zonas donde muchos de estos crímenes están vinculados a la marginalidad, mientras que los crímenes financieros en zonas acomodadas no se detectan con la misma facilidad. Como resultado del modelo, se enviará mayor fuerza policial a determinadas zonas y se detectarán más crímenes en ellas, confirmando y reforzando la predicción del modelo.

Entrenar sobre datos sesgados es uno de los problemas de la aplicación de modelos de aprendizaje estadístico en la vida real. Desde un punto de vista científico, el problema no es de los modelos, que aprenden correctamente a reproducir los datos a los que se han enfrentado, sino del uso que hacemos de ellos, que puede ampliar las desigualdades y sesgos ya existentes en su aplicación sistemática. En el procesamiento del lenguaje natural, desde hace pocos años se usa el aprendizaje profundo para la codificación eficiente de palabras (word embedding). A través de una red neuronal que aprende sobre cientos de miles de textos escritos se asigna a cada palabra un vector en un espacio lineal de dimensión en torno a 300, de forma que solo por la mera codificación el sistema aprende propiedades semánticas como sinónimos y analogías del estilo “París es a Francia lo que Berlín es a Alemania”. Unos investigadores descubrieron recientemente (Bolukbasi et al., 2016) que los algoritmos de word embedding más populares, Word2vec y Glove, aprendían analogías como “hombre es a ingeniero informático como mujer es a ama de casa”, así como muchas otras analogías con sesgo de género que no deberían existir: cirujano-enfermera, fútbol-voleibol o brillante-cariñosa. De nuevo, la culpa no es de los algoritmos, sino de los siglos de textos escritos con evidente desigualdad de género que se emplean para aprender la codificación de las palabras. Sin embargo, el riesgo de utilizar algoritmos automáticos para procesar textos escritos que piensen de esta manera es algo que evidentemente no podemos permitir. Por suerte, son problemas que se pueden corregir con un par de trucos matemáticos de álgebra lineal (gender debiasing), pero para ello se necesitan conocimientos técnicos avanzados y acceso al código fuente de los algoritmos.

En resumen, en la mayor parte de las aplicaciones de los algoritmos de aprendizaje automático en numerosos ámbitos de la sociedad hay un desconocimiento de su funcionamiento y entrenamiento, por lo que el riesgo de funcionamiento inadecuado es alto si simplemente nos limitamos a seguir sus recomendaciones. Además, muchos de estos algoritmos que se emplean en la toma de decisiones en el ámbito público no son accesibles para verificar la ausencia de fallos en el código o la presencia de hipótesis incorrectas como las que se han descrito en esta sección.

Mirando al futuro (positivamente)

Querríamos concluir este capítulo un tanto sombrío con una mirada positiva hacia el futuro, mencionando algunos de los principales actores en los aspectos éticos del big data y la IA, así como algunas consideraciones generales.

En primer lugar, la principal herramienta para entender las implicaciones sociales de la tecnología es la educación. Los especialistas han de salir de su nicho tecnológico y poner medios para que la sociedad comprenda cómo funcionan los algoritmos en torno a la ciencia de datos. Pero también los ciudadanos debemos hacer un esfuerzo por entender el mundo digital —ciertamente complejo—, por lo menos en medida suficiente como para protegernos frente a abusos, hacer un uso seguro de él e, idealmente, intentar entender las consecuencias políticas y económicas globales de estas tecnologías. En Europa, la regulación del RGPD que ha entrado en vigor en 2018 es un importante paso adelante para acotar las prácticas salvajes de venta de datos personales, pero su impacto se verá muy reducido si no viene acompañada de una campaña de educación. Pues al final, en la práctica, todo será igual que antes con un clic más, el de nuestro consentimiento para almacenar cookies antes de entrar en un sitio web por primera vez.

No hemos abordado en este capítulo otro aspecto controvertido: los efectos en el mercado laboral de la automatización que trae consigo la IA. Es difícil cuantificar sus efectos concretos, pero parece evidente que muchos trabajos desaparecerán, especialmente aquellos más mecánicos y fácilmente automatizables, y otros nuevos serán creados. Es por tanto una amenaza pero también una oportunidad. Siendo pragmáticos, en lugar de discutir sobre su conveniencia, sería más conveniente empezar a prepararnos para ello. Hoy en día son escasos los que reivindican el trabajo manual en agricultura, y la revolución industrial que trajo consigo la mecanización de las labores agrícolas no se discute como algo positivo o negativo, sino como algo que simplemente ocurrió.

Debemos, además, seguir con atención el papel que las nuevas TIC desempeñen en el terreno político. En países con regímenes totalitarios, los efectos positivos que tiene la comunicación en redes sociales para la conquista de libertades civiles se ven contrarrestados con las posibilidades de control y vigilancia que dichas tecnologías ofrecen a los gobiernos. La comunidad hacker tiene un rol importante en el poder tecnológico como contrapeso de los gobiernos y hemos de recordar que solo gracias a denuncias y filtraciones individuales han trascendido a la opinión pública programas abusivos e ilegales, haciendo posible el debate sobre los mismos. La sociedad está cambiando muy rápidamente y debemos estar alerta para que no se erosionen con dichos cambios los derechos y libertades civiles que tantos siglos hemos tardado en construir.

Para saber más

Hemos hecho un recorrido sobre los aspectos más controvertidos de la revolución digital. Para aprender más sobre cada una de estas cuestiones recomendamos a los lectores visitar los sitios web de las siguientes organizaciones.

El Center for Information Technology Policy30 de Princeton es un centro interdisciplinar que se ocupa de estudiar el impacto de las TIC en ciencias sociales y políticas públicas. Su blog Freedom to Tinker31 es un buen recurso para permanecer informado sobre estas cuestiones.

La Electronic Frontier Foundation32 es una importante organización sin ánimo de lucro cuyo objetivo es promover la privacidad, la seguridad en las comunicaciones y la libertad de expresión en el mundo digital. En su página web se proponen acciones de movilización para influir sobre la regulación y las normativas que afectan al mundo digital, en contra de la vigilancia masiva. Además, hay tutoriales y consejos para comunicaciones seguras y algún software para evitar el cookie tracking33 en el navegador. El blog Deeplinks es un buen lugar para mantenerse informado sobre tecnología y derechos civiles.

Mathbabe.org es el blog personal de Cathy O’Neil, cuyo primer post reza nada menos que “me gustaría tener algún día una respuesta a la pregunta: ¿Qué puede hacer un matemático para que este mundo sea un lugar mejor?”. ORCAA (O’Neil Risk Consulting and Algorithmic Auditing) es su proyecto de auditoría tecnológica que ha creado su propio sello para certificar que los algoritmos utilizados por empresas y administraciones están libres de sesgos.

AI Now34 es un instituto de investigación multidisciplinar de la Universidad de Nueva York que tiene por objeto estudiar las implicaciones sociales de la IA, centrando su actividad en cuatro líneas: derechos y libertades, aspectos laborales de la automatización, sesgos e inclusión y seguridad en infraestructuras críticas. Sus informes anuales proporcionan un buen resumen de la actualidad sobre estas cuestiones35.

Ir a la siguiente página