¿Por qué el 90% de los modelos de aprendizaje automático nunca llegan al mercado?

La mayoría de las organizaciones carecen de apoyo de liderazgo, comunicación efectiva entre equipos y datos accesibles.

Las empresas atraviesan tiempos difíciles. Y no me refiero a la pandemia ni a la volatilidad del mercado de valores.

Los tiempos son inciertos y tener que hacer que la experiencia del cliente sea más fluida e inmersiva no quita la presión a las empresas. Con eso en mente, es comprensible que estén invirtiendo miles de millones de dólares en el desarrollo de modelos de aprendizaje automático para mejorar sus productos.

Pero hay un problema. Las organizaciones no pueden simplemente arrojar dinero a los científicos de datos y a los ingenieros de aprendizaje automático y esperar a que suceda la magia.

Los datos hablan por sí mismos. Como informó VentureBeat el año pasado, alrededor del 90 por ciento de los modelos de aprendizaje automático nunca se producen. En otras palabras, solo cada décimo día hábil de un científico de datos termina produciendo algo útil para la empresa.

Si bien 9 de cada 10 gerentes de tecnología creen que la inteligencia artificial estará en el corazón de la próxima revolución tecnológica, su adopción e implementación deja espacio para el crecimiento. Y los científicos de datos no tienen la culpa.

Las empresas no están preparadas para el aprendizaje automático

El apoyo al liderazgo significa más que dinero

El mercado laboral para los científicos de datos es bastante bueno. Las empresas están contratando y están dispuestas a pagar un buen salario también.

Por supuesto, los gerentes y ejecutivos de las empresas esperan que estos científicos de datos generen un gran valor agregado a cambio. Por el momento, sin embargo, no se lo están poniendo fácil.

“A veces la gente piensa que solo tengo que invertir dinero en un problema o usar una tecnología, y el éxito viene al revés”, dijo Chris Chapo, vicepresidente senior de datos y análisis de GAP.

Para ayudar a los científicos de datos a brillar en sus funciones, los líderes no solo necesitan orientar los recursos en la dirección correcta, sino que también deben comprender de qué se tratan los modelos de aprendizaje automático. Una posible solución es que los gerentes reciban ellos mismos una formación introductoria a la ciencia de datos para que puedan utilizar este conocimiento en sus empresas.

Falta de acceso a los datos

Las empresas no son malas para recopilar datos. Sin embargo, muchas empresas están muy aisladas, lo que significa que cada departamento tiene sus propios métodos de recopilación de datos, formatos preferidos, ubicaciones de almacenamiento y configuraciones de seguridad y privacidad.

Por su parte, los científicos de datos a menudo necesitan datos de varios departamentos. El aislamiento dificulta la limpieza y el procesamiento de estos datos. Además, muchos científicos de datos se quejan de que ni siquiera pueden obtener los datos que necesitan. Pero, ¿cómo puede comenzar a entrenar un modelo si no tiene los datos que necesita?

En el pasado, las estructuras comerciales aisladas y los datos inaccesibles pueden haber sido manejables. Pero en un momento en que la tecnología está cambiando a un ritmo rápido, las empresas deben tomar medidas y establecer estructuras de datos uniformes en todas partes.

La brecha entre TI, ciencia de datos e ingeniería

Si las empresas quieren romper los silos, eso también significa que los departamentos deben comunicarse más entre sí y coordinar sus objetivos.

En muchas empresas existe una brecha fundamental entre los departamentos de TI y ciencia de datos. TI tiende a priorizar las cosas para mantener las cosas funcionando y estables. A los científicos de datos, por otro lado, les gusta experimentar y romper cosas. Esto no conduce a una comunicación eficaz.

Además, la ingeniería no siempre se considera esencial para los científicos de datos. Esto es un problema porque los ingenieros no siempre comprenden todos los detalles de lo que imagina un científico de datos, o implementan las cosas de manera diferente debido a la falta de comunicación. Por lo tanto, los científicos de datos que pueden implementar sus modelos tienen una ventaja competitiva sobre aquellos que no pueden, como señala StackOverflow.

Los modelos de aprendizaje automático tienen sus propios desafíos

La mejora es más difícil de lo que cree

Si un modelo funciona bien en un entorno pequeño, no significa que funcionará en todas partes.

Por un lado, es posible que no tenga el hardware o el espacio de almacenamiento en la nube para procesar conjuntos de datos más grandes. Además, la modularidad de los modelos de aprendizaje automático no siempre funciona igual a gran escala que a pequeña escala.

Después de todo, puede que no sea fácil, o incluso posible, obtener datos. Como ya se mencionó, esto puede deberse a las estructuras de silos de la empresa u otros problemas para obtener más datos.

Esta es otra razón para estandarizar las estructuras de datos en las organizaciones y promover la comunicación entre diferentes departamentos.

El esfuerzo se duplica

En el largo camino hacia la introducción de modelos de aprendizaje automático, más de una cuarta parte de las empresas se enfrentan a la duplicación de trabajo.

Por ejemplo, un ingeniero de software puede intentar implementar lo que un científico de datos le ha dicho que haga. Este último también podría hacer parte del trabajo él mismo.

Esto no es solo una pérdida de tiempo y recursos. También puede agregar confusión adicional si los involucrados no saben qué versión del código usar y a quién acudir si encuentran errores.

Aunque los científicos de datos tienen la ventaja de poder implementar sus modelos, necesitan comunicar claramente a los ingenieros lo que cada uno debería estar haciendo. De esta forma, ahorran tiempo y recursos para la empresa.

Los gerentes no siempre están de acuerdo

Los ejecutivos de las empresas de tecnología creen firmemente en el poder de la IA en su conjunto, pero eso no significa que estén convencidos de todas las ideas que existen. Como informa Algorithmia, un tercio de los líderes empresariales atribuyen las estadísticas de implementación deficientes a la falta de aceptación por parte de la gerencia.

Parece que los científicos de datos todavía son vistos como un poco nerd y sin visión para los negocios. Es aún más importante que los científicos de datos amplíen sus habilidades comerciales y, si es posible, busquen el diálogo con los ejecutivos.

Por supuesto, eso no significa que todos los científicos de datos de repente necesiten un MBA para hacer su trabajo. Sin embargo, algunas lecciones clave aprendidas de la enseñanza o la experiencia empresarial pueden ser de gran ayuda.

Falta de soporte de marcos y lenguajes cruzados

Dado que los modelos de aprendizaje automático aún se encuentran en su infancia, todavía existen brechas significativas en lo que respecta a diferentes lenguajes y marcos.

Algunas canalizaciones comienzan en Python, continúan en R y terminan en Julia. Otros toman el camino opuesto o usan lenguajes completamente diferentes. Debido a que cada idioma tiene bibliotecas y dependencias únicas, los proyectos se vuelven rápidamente difíciles de seguir.

Además, algunas canalizaciones pueden usar la contenedorización con Docker y Kubernetes, mientras que otras no. Algunas canalizaciones muestran ciertas API y otras no. Y la lista continúa.

Están apareciendo herramientas como TFX, Mlflow y Kubeflow para llenar este vacío. Pero estas herramientas están todavía en su infancia y la experiencia con ellas es actualmente limitada.

Los científicos de datos saben que necesitan estar atentos a los últimos desarrollos en su campo. Esto también debería aplicarse a la implementación de modelos.

El control de versiones y la reproducibilidad siguen siendo un desafío

En relación con el problema anterior, actualmente no hay forma de versionar los modelos de aprendizaje automático. Obviamente, los científicos de datos deben realizar un seguimiento de los cambios que están realizando, pero hoy en día es bastante difícil hacerlo.

Además, los registros pueden cambiar con el tiempo. Esto es natural a medida que evolucionan las empresas y los proyectos, pero dificulta la reproducción de resultados anteriores.

Por eso es tan importante que se establezca un punto de referencia desde el inicio de un proyecto con el que se ejecutará el modelo ahora y en el futuro. Combinado con un cuidadoso control de versiones, los científicos de datos pueden hacer que sus modelos sean reproducibles.

Así que deja de intentarlo y comienza a implementar

Si el 90% de los esfuerzos de un científico de datos no van a ninguna parte, eso no es una buena señal. Esto no se debe a los científicos de datos, como se muestra arriba, sino a obstáculos inherentes y organizativos.

El cambio no ocurre de la noche a la mañana. Por lo tanto, para las empresas que recién comienzan con modelos de aprendizaje automático, es recomendable comenzar con un proyecto realmente pequeño y simple.

Una vez que los gerentes han delineado un proyecto claro y simple, el segundo paso es seleccionar el equipo adecuado. Debe ser multifuncional y abarcar a científicos de datos, ingenieros, DevOps y cualquier otro rol que parezca importante para su éxito.

En tercer lugar, los gerentes deben considerar el uso de terceros para ayudarlos a comenzar. IBM es una de las empresas que ofrece este servicio, pero existen otras en el mercado.

Una última advertencia es no confiar en la sofisticación a toda costa. Si un modelo simple y barato cubre el 80 por ciento de las necesidades del cliente y puede entregarse en unos meses, es un gran logro. Además, las lecciones aprendidas de la construcción del modelo simple impulsarán la implementación de un modelo más complejo con el que se espera que los clientes estén 100% satisfechos.

Las revoluciones toman tiempo

La próxima década será revolucionaria, como la anterior. La adopción generalizada de la inteligencia artificial es solo una de las muchas tendencias en crecimiento. El auge del Internet de las cosas, la robótica avanzada y la tecnología blockchain también se suman a esta lista.

Sin embargo, hablo conscientemente de décadas y no de años. Por ejemplo, recuerda que el 90% de las empresas están en la nube, tantas que es difícil pensar en cómo sería nuestra vida sin ellas. Por otro lado, las nubes tardaron varias décadas en generalizarse.

No hay razón para creer que la revolución de la IA deba ser diferente. Llevará algún tiempo implementarlo, ya que el statu quo contiene una multitud de obstáculos que deben abordarse.

Sin embargo, dado que el aprendizaje automático ofrece tantas oportunidades para mejorar la experiencia del cliente y la eficiencia empresarial, está claro que los ganadores serán aquellos que implementen los modelos de manera rápida y oportuna.

Relacionados:

Smartket
Logo