Pipeline Python

Jonathan Quiza
Ciencia y Datos
Published in
3 min readAug 21, 2019

Este artículo hablare un poco sobre el concepto del uso del pipeline en el modelo de datos y por que nos ayuda al momento de subirlo a producción nuestro código.

Fuente (http://bit.ly/2ZfQDTC)

Pipeline

El Pipeline es el código común que generará un modelo para cualquier problema de clasificación o regresión

También generan códigos para entrenamiento y prueba , transforma datos.

La salida de todo el proceso es un objeto modelo, que es persistente, se puede guardar y cargar para su análisis.

Obtener productividad y performance

Cuando deseamos tener modelos siempre debemos de medir productividad y performance dependiendo a que área esta orientado nuestro proceso.

Algunos Componente de Pipeline

scikit-learn : aprendizaje automático en Python

spark-sklearn : paquete de integración scikit-learn para Spark

skflow : contenedor scikit-learn para Google TensorFlow

SciPy : biblioteca de computación científica para Python

MLFlow : Paquete de integración proyectos ML

Entender un Pipeline

Es un proceso comprendido en varias fases secuenciales, siendo cada salida la entrada del anterior, sin perder datos y conocimiento.
-Transformador (agregación)
-Estimador(aprende y aplica el estado).

Pipeline Model

  • Muestreo de datos
  • Ingeniería de características
  • Transformaciones de funciones
  • procesamiento de funciones
  • Codificadores
  • Selección de características
  • Submuestreo
  • Subconjunto de Datos
  • Evaluación
  • Métrica
  • Calibración
  • Visualización
pipeline
Pipeline Modeling
Score , Hiperparametros y resultado del modeling

Tomar en consideración

  • Los datos reales no se comportaron bien de acuerdo al algoritmo.
  • Las características deben ser diseñado de acuerdo al negocio.
  • Las transformaciones deben ser aplicado.
  • Los hiperparámetros deben ser sintonizado de acuerdo a la data y debe ser re-entrenado.

CONCLUSIÓN

Espero les haya gustado este artículo para que es bueno usar pipeline.

Esto ayuda cuando deseamos probar múltiples modelos y ver obtener resultados , también es colaborativo ya que cada uno del grupo puede tener un pipeline de acuerdo a sus parámetros y al final realizar integraciones y sustentar resultados.

REFERENCIAS

  1. https://community.cloud.pipeline.ai/

linkedin:

Gracias

--

--

Jonathan Quiza
Ciencia y Datos

Lead ML Engineer / Data science / Machine Learning / MLops