Breve descripción del Big Data: ¿Inteligencia artificial o estupidez natural?

Información de Ciper Chile

El gobierno ha sido duramente criticado por asegurar que, usando tecnología de Big Data, detectó influencia extranjera en el 18/O. Este interesante texto del doctor en Ciencias de la Computación, Claudio Gutiérrez, profesor de la Universidad de Chile e investigador del IMFD, nos introduce al mundo del Big Data. Tras aclarar sus alucinantes posibilidades, riesgos y límites, el autor concluye citando a uno de los expertos mundiales en Inteligencia Artificial: “No se puede hacer ‘inteligencia’ con datos no estructurados de redes públicas y quien diga que puede hacerlo, vende humo”.

El título y la motivación de este artículo proviene de un destacado investigador de inteligencia artificial (IA), Drew McDermott, quien escribía preocupado por la charlatanería que rodeaba el área: “Nuestra tolerancia para el pensamiento chapucero nos ha llevado a repetir errores una y otra vez. Si queremos mantener alguna credibilidad, esto debe detenerse”.

El reciente escándalo en torno al informe Big Data es un caso más de ese diagnóstico. Se enmarca en un olímpico desprecio por la rigurosidad científica de parte de quienes gobiernan hoy. Casi no hay área de la ciencia que no haya sido víctima de una chapucería de su parte: la física de materiales y perdigones de goma que contienen plomo; la química y el agua “pura” que produce quemaduras; ahora la computación y la Big Data que responsabiliza al K-Pop del levantamiento del 18 de octubre.

¿Dónde terminaremos? Uno habría esperado que el ministro de ciencia (ahora que existe) prestamente hubiera salido a aclarar estos sucesivos disparates anticientíficos de sus colegas. Pero bueno, parece que es pedir mucho. Ojalá que alguien por ahí, que entienda de pensamiento científico, pueda detener esta vergüenza para el país.

Me gustaría hacer notar, antes de entrar en materia, lo que subyace a este desastre: un desprecio absoluto por el ciudadano de a pie (ni qué hablar de las ciudadanas). Parecieran creer que con decir “información extraordinariamente sofisticada a partir de análisis con tecnología de Big Data”, la gente quedaría tranquila y lo aceptaría como una verdad revelada.

En lo que sigue, mi única intención es aclarar al ciudadano de a pie qué subyace al término Big Data, explicar en simple la revolución digital. Así lxs lectorxs podrán sacar conclusiones por sí mismxs. Les pido tolerancia y paciencia si a ratos aparece mi sesgo de profesor.

1- La revolución digital que vivimos está basada en los computadores. Es importante entender sus alcances y límites. El computador es una máquina absolutamente estúpida: obedece (sin discutir) las instrucciones del programa que la hace funcionar. Por eso, quien elabora el programa es fundamental (pues codifica sus ideas y sus errores). Un programa (también llamado algoritmo) es como una receta de cocina: instrucciones generales sobre cómo utilizar y mezclar los ingredientes, que en el caso del computador, son los datos. El computador finalmente implementa la idea del programador.

Moraleja 1: Los computadores no piensan ni tienen valores; los humanos que los programan y usan son los responsables de lo que hacen.

“Las redes sociales son la principal fuente de datos sobre nosotros los humanos. La mayoría pertenece a empresas cuyo fin es recolectar nuestros datos para luego sacarles provecho comercial y, hoy, político”.

2- Los computadores hoy han alcanzado niveles impresionantes de potencia de cálculo, capacidad de implementar programas y de almacenar datos. Así, hoy son capaces de realizar programas que simulan redes neuronales (como las humanas) que “aprenden”. Esto hace que puedan realizar funciones que parecen hechas por una “inteligencia” más allá de la humana. Sí, hoy la tecnología puede realizar actividades que parecen totalmente autónomas, como manejar un automóvil, reconocer un rostro, interpretar música, descifrar un mensaje.

Moraleja 2: Quien hoy tiene poder computacional, tiene poder.

3- Sin datos (sin ingredientes) un computador no hace (casi) nada. Por eso, los datos han pasado a ser “el nuevo petróleo”. Esto es, la nueva fuente de riqueza. Los datos son la materia prima, los átomos, del mundo digital. Cuando se habla de grandes (big) cantidades de datos (data), los angloparlantes hablan de “Big Data”. Hoy conforman un mundo casi paralelo al material. Por eso, quienes ignoran sus fundamentos, le dan un aura de fenómeno casi mágico. Aprovecho de decir que los datos interesantes son aquellos sobre los humanos y su hacer. Y hoy el negocio de las grandes empresas (Google, Facebook, Amazon, Instagram, Twitter, etc.) es recolectar datos humanos (gustos, viajes, opiniones, sentimientos, amigxs, relaciones, etc.).  Y nosotros se los regalamos cuando usamos el correo, enviamos un mensaje en la red social, subimos una foto o un video, ponemos un like, o simplemente caminamos con el GPS encendido.

Moraleja 3: ¡Cuiden sus datos! Sepan dónde están y a quién se los entregan. ¡Ellos son vuestra sangre virtual!

4- Una de las principales fuentes de datos sobre las personas son las redes sociales digitales (Facebook, Twitter, Instagram, WhatsApp, etc.) y la telefonía. Estas son empresas que ofrecen ciertas aplicaciones a los usuarios (tener una página, subir una foto, comunicarse con un amigo, enviar un mensaje, etc.) a cambio de quedarse con sus datos: quién se comunica con quién, qué mensaje envió, qué foto subió, qué texto reenvió, a quiénes, cuándo, dónde, etc. Esta información, que permite saber muchas cosas de quienes están en la red, se ha transformado en el principal negocio de estas compañías. Algunos de estos datos son públicos (información “abierta”); muchos de ellos se pueden comprar; y otros tantos pueden ser obtenidos por los gobiernos bajo presión legal, comercial o militar.

Moraleja 4: Las redes sociales son la principal fuente de datos sobre nosotros los humanos. La mayoría pertenece a empresas cuyo fin es recolectar nuestros datos para luego sacarles provecho comercial y, hoy, político.

5- Las redes digitales nos permiten comunicarnos y socializar sin pasar por centros de autoridad (el editor de un periódico, el periodista, el jefe en la empresa, el profesor, etc.). Fueron cruciales en el levantamiento del 18 de octubre y lo que siguió. Gracias a ellas hemos estado informados de todo lo que no dice o desinforma la prensa escrita y la televisión. Gracias a ellas hemos sabido de los abusos, de la corrupción, de las violaciones a los derechos humanos, y gracias a ellas también nos convocamos a la gigantesca marcha del 25 de octubre. Las redes sociales digitales han cambiado para siempre la manera de socializar entre nosotros. Pero cuidado: por su formato actual, dificultan la deliberación y la reflexión. Usualmente sobrecargan de información a los usuarios, dejándolos muchas veces en un estado de “anomia” intelectual y organizacional. Muchos incluso comienzan a confundir la vida real (material) con la vida virtual.

Moraleja 5: Usar una red social no es neutral. Necesitamos aprender y entender las potencialidades y peligros de las redes sociales digitales para la actividad y la organización social.

“Las empresas de redes sociales digitales no son neutras. Son muy útiles para socializar y comunicarnos; pero también sirven a sus dueños (y quien tiene dinero y poder para contratarlas) para manipularnos”.

6- Los datos que intercambiamos a través de las redes sociales quedan en manos de grandes compañías. Y ellos ya han sido aprovechados en campañas políticas (por ejemplo, para identificar electores dubitativos y dirigirles la propaganda: Cambridge Analytica en el mundo; en Chile, Instagis); para seguimiento de personas (desde delincuentes o terroristas, hasta simples enemigos políticos); para conocer o seguir opiniones de la gente (e.g. BrandMetric), etc. Para ello usan información abierta, comercial y de “inteligencia”. Las primeras son las que se pueden obtener desde aplicaciones públicas (e.g. Twitter); las segundas, se compran (hay varias empresas que se dedican a recolectar datos para venderlos, crudos o semi-procesados); y de “inteligencia” (las que consiguen los gobiernos y las policías, en algunos pocos casos para proteger investigaciones en curso y en su mayoría con abierta violación a la privacidad, e.g. cámaras en espacios públicos, escuchas ilegales, ingreso por software a los computadores personales, etc.).

Moraleja 6: Las empresas de redes sociales digitales no son neutras. Son muy útiles para socializar y comunicarnos; pero también sirven a sus dueños (y quien tiene dinero y poder para contratarlas) para manipularnos.

7- Hoy existen programas (algoritmos) sutiles que sacan provecho de los datos. La mayoría está basada en el modelo de redes neuronales que aprenden. Para “entrenar” esas redes neuronales, se requieren grandes cantidades de datos, “Big Data”. El computador buscará patrones en esos datos y podrá “descubrir” ciertas cosas que a los humanos nos costaría mucho, por el gran volumen de datos usados (“descubrir una aguja en un pajar” hoy es posible). Aunque los niveles de sutileza a que han llegado son impresionantes, no debemos olvidar que alguien los programa y usa los datos que les entregamos nosotros. Pero es importante recalcar: no hay nada mágico en ellos (aunque hagan cosas que lo parecen).

Moraleja 7: Necesitamos controlar y auditar lo que hacen estos algoritmos. No se manejan solos. Tienen los sesgos de quienes los diseñan y de los datos que usan.

“Ninguna red social en Chile es una muestra representativa de la población. Entre otras cosas, debido a las diferentes brechas digitales (…). En el deseo de personeros de gobierno de reducir (…) lo que ocurrió en las calles a las redes sociales, se esconde probablemente el antiguo prejuicio de considerar que los sectores de bajos ingresos no son ‘sujetos’ por sí mismos, y que ‘otros’ los manipularían”.

8- Llegamos: El “Big Data” de que habla el ministro Gonzalo Blumel es un programa que tiene un objetivo y usa determinados datos. Por lo tanto es perfectamente razonable preguntar cómo es ese programa y cuáles son esos datos. Decir que es un “análisis con tecnología de Big Data”, es no decir nada. Es como si a un escolar la profesora le preguntara cómo dedujo su tarea de matemáticas y él le respondiera: “Un análisis con tecnología de muchos números”. Obvio. Lo que se quiere saber es qué programa se implementó y qué datos se usaron. Eso para nosotros, los legos. Y los expertos preguntarán más: características estadísticas de datos (significancia del espacio muestral, proveniencia, confiabilidad, calidad, etc.); quién hizo el programa; con qué parámetros se usó el algoritmo correspondiente; cuán reproducible es el método, etc. Todas cosas que mis estudiantes de primer año de programación saben. Uno (y ellxs) esperaría este piso mínimo de seriedad de un informe de gobierno.

Moraleja 8: No creer afirmaciones generales: pedir la evidencia. Nunca asustarse por el lenguaje oscuro: usualmente esconde ignorancia o intento de manipulación.

“La revolución digital está transformando nuestras vidas. Es importante que todxs entendamos en qué consiste, para ser capaces, como con toda obra humana, de dirigirla al bienestar de todxs y evitar que quienes tienen dinero, poder e influencia, la monopolicen, especulen y nos manipulen con ella”.

VENDER HUMO

El lector se estará preguntando por lo que motivó este texto: ¿Es posible, como se ha afirmado, que a partir de las redes sociales se pueda determinar si hubo influencia extranjera en el levantamiento del 18 de Octubre? Veamos.

Según la prensa, el famoso informe secreto analizó el comportamiento de casi cinco millones de usuarios y 60 millones de comentarios de redes sociales entre el viernes 18 de octubre, el día en que comenzaron las manifestaciones sociales contra el Gobierno, y el 21 de noviembre de 2019. Para dar una idea de ese tipo de análisis, dejamos a lxs lectorxs dos análisis (¡públicos, no secretos!), basados en la red social twitter (que entrega datos públicos):

Ver a Través de la Tormenta de Información

Estallido Social en Chile, una mirada desde Twitter

¿Es posible deducir de ellos que el levantamiento tuvo influencia extranjera? Una simple observación a los gráficos indica que no hay evidencia. Y estupideces como las indicadas en el informe que se entregó a la ANI (parcialmente publicado por La Tercera), que señala que el K-Pop, Mon Laferte o Gary Medel, estarían detrás del movimiento social, bastan para entender su banalidad.

Desde el punto de vista más académico, nuestro colega Ricardo Baeza-Yates (experto mundial en el tema, hoy en Estados Unidos) apunta a los problemas muestrales que conllevan las redes sociales. Por ejemplo Twitter es una muestra muy poco representativa (no más del 20%) de la población chilena y tiene sesgos de edad, de clase y de género, entre otras. De hecho, ninguna red social digital en Chile es una muestra representativa de la población. Entre otras cosas, debido a las diferentes brechas digitales.

En el deseo de personeros de gobierno de reducir la sociedad y lo que ocurrió en las calles a las redes sociales digitales, se esconde probablemente el antiguo prejuicio de considerar que los sectores de bajos ingresos no son “sujetos” por sí mismos, y que “otros” los manipularían a su antojo.

Hay otras posibles críticas técnicas a ese tipo de análisis: se basan usualmente (por razones prácticas) en una muestra de los nodos (usuarios) más influyentes; hay complejos problemas de geolocalización; usan algoritmos (e.g. pagerank) sin ponderar sus sesgos, etc. Bárbara Poblete, profesora del DCC e investigadora del IMFD, experta en redes sociales, lo resume así: “Las conclusiones no se trasladan al mundo real directamente, ya que son datos altamente manipulables”. Lo que está diciendo es que las redes sociales son un mundo virtual, diferente del mundo material de las personas.

Terminaré con las palabras del profesor de la Universidad de Chile, Jorge Pérez, uno de los grandes expertos en Inteligencia Artificial del lenguaje: no se puede hacer “inteligencia” con datos no estructurados de redes públicas y quien diga que puede hacerlo, vende humo.

Moraleja final: La revolución digital está transformando nuestras vidas. Es importante que todxs entendamos en qué consiste, para ser capaces, como con toda obra humana, de dirigirla al bienestar de todxs y evitar que quienes tienen dinero, poder e influencia, la monopolicen, especulen y nos manipulen con ella.

(Para quienes quieran profundizar más sobre estos temas, la Universidad Abierta de Recoleta dictará un curso digital: “Revolución Digital: ¿Temerle o adorarle?”  http://www.uardigital.cl:81/).