Newsletter
Suscríbete a nuestro Newsletter y entérate de las últimas novedades.
Varian comienza su artículo describiendo de qué es capaz el Aprendizaje Automático o Machine Learning (ML). El ML es una forma de inteligencia artificial (IA) que proporciona a las computadoras la capacidad de aprender, sin ser programadas explícitamente, a través de la exposición a datos (ComputerWeekly.es, 2017). Con esta aproximación, el autor muestra que el ML tiene una gama amplia de aplicaciones, varias de las cuales se pueden visualizar en los concursos de la plataforma Kaggle (ver notas de CeCo: La revolución de la ciencia de datos y su impacto social, e Inteligencia Artificial en Competencia: ¿Herramienta o Riesgo?).
Luego, también describe los insumos productivos que se requieren para desplegar un sistema de ML. En suma, dice el autor, se necesitan datos, hardware, software, expertise (capital humano).
En los sistemas de ML de “aprendizaje supervisado”, los datos recolectados que se utilicen para la fase de entrenamiento del modelo deben ser ‘etiquetados’. Es decir, a ciertos datos se los debe identificar por la vía de asignarles valores específicos, “para ayudar a los algoritmos de aprendizaje automático a comprender y clasificar la información que procesan”.
Para conseguir estos datos, se puede utilizar una variedad de formas, tales como la recolección de datos de la misma operación interna de una empresa, el web-scrapping, la recopilación de datos generados por usuarios de un servicio, la contratación de humanos para etiquetar datos, la compra a un proveedor, la obtención de fuentes públicas o la generación artificial de los datos por computadora.
Además, Varian señala que los mercados de venta de datos “en bruto” no están muy bien desarrollados, probablemente porque estos suelen depender mucho del contexto y no son muy útiles hasta que se convierten en información (entendiendo por “información” un dato o conjunto de datos organizados a los cuales se les puede atribuir algún significado en un contexto determinado). En otras palabras, los datos requieren ser refinados para ser útiles -y para ello se requiere el expertise necesario-.
Adicionalmente, el autor en comento da cuenta que, a diferencia de los bienes privados -que también requieren ser transformados para ser útiles-, los datos tienen la cualidad de ser no-rivales, esto es, que el uso de los datos por una persona no reduce ni disminuye su uso por parte de otra.
Por ello, Varian argumenta que, en lugar de enfocarse en quién tiene la propiedad de los datos, se debe pensar acerca de quién debe tener acceso a los datos. Así, el autor alega que exigir la exclusividad de los datos (entendida por la característica de la propiedad privada, “donde los bienes [en este caso los datos] solo pueden tener, por regla general, un único titular”) sin una buena razón, limitaría innecesariamente lo que puede hacerse con los datos (ver nota de CeCo: Portabilidad e interoperabilidad de datos en las Big Tech: ¿remedio eficaz?).
El autor también indica que uno de los primeros requerimientos para el desarrollo de sistemas de ML es la construcción de una ‘Tubería de Datos’ (i.e. un componente esencial de una infraestructura de datos) que recoja y organice los datos de interés.
Luego, se requiere almacenar los datos de una forma organizada, típicamente en ‘almacenes de datos’ o en ‘lagos de datos’. Tradicionalmente, las empresas gestionaban sus propios almacenes de datos, lo que no sólo requería la adquisición de costosos ordenadores o centros de datos (data centers), sino también la presencia de administradores humanos de sistemas para mantener todo funcionando correctamente. Hoy en día es cada vez más común almacenar y analizar los datos en una plataforma de computación en la nube, como Amazon Web Services, Google Cloud Platform o Microsoft Azure (ver nota CeCo: Mercado del cloud computing).
Una vez que los datos han sido almacenados y organizados se debe desarrollar un algoritmo o modelo de ML. Estos pueden ser ‘entrenados’ desde cero o ser proporcionados por plataformas de servicios en nube. En este último caso, los datos ya vienen “pre-entrenados” por el proveedor, y pueden ser puestos a disposición de los usuarios inmediatamente.
En todas estas etapas se requiere personal especializado que tenga el expertise para extraer, tratar, almacenar, analizar y modelar los datos, así como para construir y mantener los elementos de hardware y software involucrados.
En esta sección, Varian revisa el acceso a software de ML y datos, la facilidad para alcanzar la escala mínima eficiente con ML, la factibilidad de discriminar precios usando ML, economías de escala generadas con ML y colusión algorítmica.
De esta sección resalta que el autor da a entender que cada vez es más fácil para las empresas acceder a datos, software y hardware para aplicar IA, a través de los servicios que ofrecen los proveedores de servicios en la nube.
El resultado es que los proveedores de servicios en la nube compiten arduamente. Según Varian, servicios de ML como el reconocimiento de imágenes altamente detalladas y específicas se ofrecen a un precio de una décima de céntimo de dólar por imagen o menos, con descuentos por volumen además de ese precio.
Asimismo, las empresas de servicios en la nube también compiten en diferenciar sus servicios a través de diversas formas. Así, por ejemplo, estas empresas ofrecen acceso a bases de datos públicas y privadas, proveen servicios de etiquetado de datos, consultoría, manipulación de datos y análisis de datos. La manipulación de datos y el aprendizaje automático son áreas donde los proveedores de nube compiten en cuanto a velocidad y rendimiento de los productos.
Varian también indica que los servicios en nube han reducido la escala mínima eficiente de las empresas que requieren usar ML, al reducir sus costos fijos. Esto podría implicar que, en la actualidad, generar economías de escala con ML sea más accesible para todo tamaño de empresas. A su vez, esto facilitaría el ingreso al mercado y la innovación de startups, las cuales ahora pueden estandarizar procesos, centrarse en su giro de negocio y adquirir servicios en nube a medida que crecen.
De manera más específica, Varian reconoce tres tipos de economías de escala relevantes para ML: (1) Rendimientos de escala clásicos por el lado de la oferta (coste medio decreciente); (2) Rendimientos de escala por el lado de la demanda (efectos de red); y (3) Aprendizaje práctico (mejora de la calidad o disminución de los costes gracias a la experiencia).
Además, el autor indica que hay estrategias simples que se pueden usar para facilitar la colusión a través de algoritmos y las enmarca en tres categorías teóricas: equilibrio de respuesta rápida, el dilema del prisionero repetido y cotizaciones del precio de NASDAQ (ver nota de CeCo: ¿Pueden los algoritmos de precios facilitar la colusión? y El Impacto de los Algoritmos en la Competencia y el Derecho de Competencia (A. Capobianco)).
Esta sección del artículo de Varian trata sobre la sustitución entre proveedores de ML y los precios de los servicios ML. Comenta que contenedores de desarrollo informático han sido desarrollados específicamente para facilitar el traslado de aplicaciones de un proveedor de nube a otro. Con esto, los desarrolladores de aplicaciones pequeñas o medianas no dependerán de una nube en particular, aunque aplicaciones grandes y complejas que requieran un trabajo personalizado podrían tener dificultades de migrar a otra nube.
Por último, Varian también indica que la existencia de la nube ha permitido a empresas que necesitan mucha capacidad de procesamiento de datos replicar su infraestructura existente y vender la capacidad adicional a otras entidades, normalmente más pequeñas. Según el autor, esto no es común en industrias regulares.
ComputerWeekly.es. 2017. Aprendizaje automático o automatizado (machine learning). https://www.computerweekly.com/es/definicion/Aprendizaje-automatico-machine-learning
Varian, H. 2018. Artificial Intelligence, Economics, And Industrial Organization. https://www.nber.org/system/files/working_papers/w24839/w24839.pdf