Si tu madre viaja al pasado y tiene una startup de machine learning, ¿qué tres errores debería evitar?

K Fund
K Fund
Published in
3 min readMar 6, 2018

K Fund es un fondo de venture capital que vive por y para los emprendedores. Queremos impulsar la evolución del ecosistema de startups español invirtiendo en empresas digitales y tecnológicas.

Si tienes un proyecto interesante que encaja con nuestros criterios de inversión y quieres que le echemos un vistazo, por favor rellena este formulario.

Este es un post escrito por Ignacio Larrú:

De vez en cuando buceando por Netflix encuentro joyas perdidas como el documental Back in Time, sobre el encanto y resonancia entre nosotros de la película Regreso al Futuro. No es la primera ni la única vez que los viajes temporales dominan la narrativa de nuestras películas favoritas (Superman I, X-Men Days of the Future past…) y es que hay algo mágico en la posibilidad de volver hacia atrás y aprender de los errores del pasado.

Ese aprendizaje basado en el pasado es la fuente de valor de los algoritmos y productos basados en machine learning que inundan el dealflow de los inversores. Los post-mortem hacen algo parecido para el ecosistema, pues ayudan a mejorar aprendiendo de los errores pasados.

Por todos estos motivos me parece muy curioso hacer un ejercicio de “entrenamiento” basado en los errores más comunes que vengo observando en mis conversaciones con emprendedores de startups de machine learning que no han conseguido sobrevivir durante 2017:

  • Conseguir el dataset para entrenar el modelo post MVP es mucho más difícil de lo esperado

Por definición de startup, muchas veces el primer modelo se entrena con datos de prueba o con un volumen de datos inferior al óptimo, pues no existen datos suficientes sobre el sector/proceso. Aviso a navegantes, que el modelo funcione con los datos de Kaggle no garantiza que luego la transición a la realidad sea posible, incluye esto en tus proyecciones y funding.

  • El proceso de etiquetado de los datos es más caro/difícil de lo esperado

En 2018 …¿esto debería ser un problema resuelto, no? Con plataformas como Mechanical Turk y multitud de herramientas para facilitar el proceso, no debería superar los céntimos por observación. Cuidado con la rotación y calidad si pagas poco (la gente no trabaja gratis… y si los datos no están correctamente etiquetados tu modelo impresionante vale para un artículo académico pero no para que una empresa pague por él ) y si sobrepagas, tus modelos de caja pueden tensionarse demasiado. Ten esto en cuenta cuando decidas el dinero de la ronda.

  • ¿Soy una tecnología o un producto?

Recuerda que tus clientes quieren usar tu modelo para solucionar un problema que tienen, y no les importa demasiado que tu AuC sea0,99998 si no les ayuda a mejorar. Si tu producto puede utilizarse para todo, muy probablemente no haga nada 10x mejor que lo que tienen ya, por lo que ojo con los productos que son como una navaja suiza (gran regalo de cumpleaños o comunión que luego nunca usábamos porque tenía de todo pero nada bueno…). Mi recomendación aquí es que cuando describas tu producto no lo hagas con métricas de ML, intenta describir tu producto con métricas de negocio. A mí me gustan mucho los decks de compañías que hablan como sus clientes y huyen de la endogamia del recall o la precisión. ¿Qué proceso de tu cliente vas a mejorar? ¿cuánto?

Un producto acabado es mucho más que un gran modelo, incluye UX, posibilidad para tu cliente de mejorar las recomendaciones dentro del flujo normal del producto (sin tener que mandarte un mail a soporte…). Para las compañías que ahora estáis en la fase de “verticalización” de vuestro modelo/tecnología os recomiendo este libro.

¿Tenéis algún otro error o aprendizaje que compartir con el resto de startups de ML? Contárnoslo y haremos un podcast monográfico sobre el tema.

--

--