La revolución de la ciencia de datos y su impacto social

28.02.2023

CeCo Chile

10 minutos.

Maikol Cerda Z. Economista, Universidad de Chile. Doctor en Economía Aplicada de New York University y M. Phil. en Economía Aplicada de la misma universidad. Investigador de Posdoctorado afiliado al MacMillan Center for International and Area Studies de Yale University, desde el 2019. Trabajó en la Fiscalía Nacional Económica entre el 2011 y 2013.

Definición y Contexto

La ciencia de datos es una disciplina que ha recibido cada vez mayor atención por parte de la conciencia pública durante los últimos años. Esta atención se manifiesta desde un mayor número de estudiantes de pregrado interesados en estudiar carreras relacionadas con la ciencia de la computación, hasta la masificación de su uso por parte de empresas públicas y privadas para obtener mayores ingresos, o bien, llegar a ser más eficientes durante el proceso productivo.

Como concepto general, la ciencia de datos puede ser definida como un campo estadístico interdisciplinario que extrae información, conocimiento e ideas desde diferentes bases de datos (sean éstas estructuradas o no) e implementa técnicas relacionadas con el método científico, data mining, algoritmos de machine-learning, y el uso del big-data.

Ahora bien, considerando la rápida difusión y masificación del data science, siempre es bueno volver a repensar aspectos fundamentales, tales como el rol que juegan los datos en el área específica en la cual están siendo estudiados o considerados. En muchas de sus aplicaciones, la ciencia de datos se convierte en una ciencia social. Por ejemplo, cuando ésta es usada para mejorar la eficacia del mercado de pensiones, la educación o la innovación social, entre otros.

En este sentido, la ciencia de datos, considerada como herramienta técnica, no es inherentemente buena o mala: ésta puede ser usada para mejorar la salud de millones de personas o, por el contrario, puede reforzar el racismo o amplificar la desigualdad en el acceso a la misma. Aquí, cabe destacar que la mayoría de las potenciales aplicaciones dañinas de esta ciencia ocurren en el contexto industrial/privado y no en el académico. En el contexto industrial, los datos están generalmente al servicio de las ganancias económicas, mientras que, en el contexto académico, los datos están al servicio del conocimiento y avance de la tecnología y ciencia.

Ciencia de datos y modelos estadísticos

Hoy en día, la ciencia de datos industrial es practicada por medio del uso de una cantidad inmensa de datos y modelos estadísticos para crear patrones de tomas de decisión automatizadas eficientes. Los modelos, nuevamente, no son en sí malos, pues han demostrado ser una herramienta poderosa para un sinfín de cosas, tales como construir experiencias de productos personalizados útiles u optimizar el proceso interno de una organización. Gracias a la aplicación industrial, hoy en día tenemos aplicaciones para la entrega de comida, motores de búsqueda en internet, y recomendaciones automatizadas en diferentes ámbitos cotidianos, todos elementos que han mejorado, en cierto grado, nuestra calidad de vida.

Ahora bien, muchos científicos de datos mencionan que los modelos estadísticos son construidos para predecir el futuro. Sin embargo, creo que dicha interpretación es algo simplista y peligrosa. En vez de predecir, un modelo proyecta el pasado en el futuro. En cada una de las decisiones automatizadas, las reglas, decisiones y resultados del pasado son reproducidos en un momento determinado durante el procesamiento de la data que, a su vez, define el futuro. Dicho resultado produce nueva información que comunicará y retroalimentará el modelo, ahora actualizado, para predecir el día de mañana. En otras palabras, los datos que usamos para construir y ajustar los parámetros del modelo son a su vez moldeados por la subsecuente construcción de modelos retroalimentados durante el ciclo. El proceso previo al “correr el modelo” pasa, entonces, a ser fundamental y, por lo tanto, no debiese ser tomado a la ligera. Dicho proceso previo incluye, entre otras etapas, escoger las bases de datos que serán utilizados para entrenar el mismo.

Frecuentemente, el objetivo es generar un modelo con la exactitud predictiva (accuracy) más alta. Para crear un modelo exacto, un científico de datos necesita encontrar la data que mejor se correlacione con las necesidades a abordar del modelo que se intenta entrenar. Un clásico ejemplo de esto es la tarea de construir un modelo financiero que tenga como objetivo predecir las clasificaciones de riesgos (credit scores) de los actuales y potenciales clientes de un banco. Si la data usada para entrenar el modelo incluye la variable género u otra variable correlacionada con la misma, el modelo ajustado para predecir los puntajes de créditos probablemente detectará algún patrón relacionado con el hecho de que las mujeres, en promedio, obtienen menores ingresos laborales en comparación con sus contrapartes varones. Adicionalmente, las mismas mujeres ya tienen asignados, ex ante, menores puntaje de créditos. Si el investigador no tiene en consideración estas diferencias, el nuevo modelo predecirá un menor ingreso (y, por lo tanto, una clasificación de riesgo más alta) para una mujer en comparación a un hombre, manteniendo todo el resto de los factores constantes. Un resultado no pensado, pero dañino. El modelo reproducirá predicciones sexistas que afectarán la vida de personas, no sólo hoy, sino que también en el futuro.

Mientras dicha clasificación incrementará el grado de predicción del modelo, dada la “realidad” de la diferencia de ingresos por género, el modelo en sí mismo no tiene forma de reconocer que está siendo parcial (la literatura económica ha documentado que las mujeres son mejores pagadoras que los hombres en el sistema financiero). Adicionalmente, el modelo producirá nuevos datos “del mundo real” influenciados por los sesgos que el mismo modelo de clasificación de riesgos ya ha generado como predicciones en el pasado. Todas las bases de datos e información que tenemos hoy en día, son del pasado y están basadas en una foto imperfecta de la realidad. Ambos factores perdurarán en el tiempo e influenciarán el futuro. Es aquí, entonces, donde la responsabilidad recae en el científico de datos respecto a la elección y manejo de los datos y la implementación de un modelo que no genere sesgos injustos en el futuro.

Este ejemplo de las clasificaciones de riesgo en materia crediticia se puede extrapolar a casos en donde se intenta predecir la calidad de los profesores o la probabilidad de reincidencia de los presos. Todos estos ejemplos recalcan que los científicos de datos que sólo toman en consideración los procesos mecánicos de su trabajo, y no el contexto económico social, no utilizan toda la información necesaria para realizar su trabajo de forma efectiva, perpetuando los sesgos de los datos y desigualdades injustas cuando sólo se sigue corriendo los modelos.

Alguien se preguntará, todo bien, pero ¿cuál es la relación con el antitrust? Todos los principios y mecanismos descritos anteriormente pueden ser trasladados a casos en donde la ciencia de datos es utilizada para competir de “mejor forma” en los mercados y, de esta manera, obtener participaciones de mercado y beneficios económicos más altos. El ejemplo más claro es la utilización de algoritmos de precios que tienen como objetivo maximizar las utilidades de las empresas. Si dichos modelos son entrenados con data histórica en un mercado que ha estado coludido, éste aprenderá de dichos patrones y, potencialmente, sugerirá precios colusivos en el futuro (ver columna previa “¿Pueden los algoritmos de precios facilitar la colusión?”). Si el científico de datos no está interiorizado con las políticas de competencia, no habrá forma de evitar los sesgos anticompetitivos en la predicción del modelo en un futuro cercano.

«Queda claro que los científicos de datos debiesen ser educados, entrenados y responsabilizados no solo respecto al diseño de los algoritmos y modelos, sino que también respecto al impacto social y de cómo detectar los potenciales daños no deseados y sesgos que se pueden generan en los mismos»

Adicionalmente, los científicos de datos trabajando en la industria debiesen también verificar continua y dinámicamente el comportamiento de sus algoritmos y modelos. En un reciente paper académico[1], Xianghua Wu, Chen, Diana Wu y Hua (2022) demuestran, usando una red neuronal profunda (deep neural network) que utiliza además la inteligencia artificial, que es posible alcanzar resultados cooperativos en el juego de confianza (juego estratégico simple de una economía de intercambio con dos jugadores que ha sido extensivamente estudiado en la literatura económica experimental para verificar la existencia y cuantificar la confianza y el grado de fidelidad de los agentes económicos). Los autores crean jugadores artificiales que no tienen ningún conocimiento previo, supuesto o datos respecto a la conducta de los humanos y solo los entrenan al hacerlos jugar el juego repetidamente. La investigación académica ofrece evidencia que los agentes creados con inteligencia artificial pueden desarrollar confianza y conductas cooperativas solamente a partir del proceso de aprendizaje con interacciones de trial-and-error. Dicho resultado puede ser benéfico si la herramienta es utilizada con fines positivos para la sociedad, sin embargo, el resultado puede, al mismo tiempo, ser un indicio de que los algoritmos de precios se pueden coludir naturalmente sin tener idea de los daños que dicho escenario produce.

Conclusión

La ciencia de datos no es solamente un campo estadístico y cuantitativo cuando nos referimos a aplicaciones económicas o que tienen directa relación y/o impacto sobre los seres humanos. Con los ejemplos anteriormente descritos, queda claro que los científicos de datos debiesen ser educados, entrenados y responsabilizados no solo respecto al diseño de los algoritmos y modelos, sino que también respecto al impacto social y de cómo detectar los potenciales daños no deseados y sesgos que se pueden generan en los mismos.

Si los científicos de datos usan como inputs base de datos que reflejan sesgos sistemáticos o la falta de un nivel suficiente de diversidad (no representativos de la sociedad en su conjunto), los resultados predictivos del modelo replicarán la existencia de los mismos, perpetuando los sesgos y resultados injustos desde el punto de vista de la representación y desigualdades sociales.

[1] Building Socially Intelligent AI Systems: Evidence from the Trust Game using Artificial Agents with Deep Learning by Jason Xianghua Wu, Kay-Yut Chen, Yan Diana Wu, Lei Hua :: SSRN