PySpark funciones

En este artículo mostraré algunas funciones de PySpark recomendadas que debes saber antes de mi siguiente articulo sobre análisis para clientes.

Jonathan Quiza
Ciencia y Datos
4 min readMay 5, 2018

--

¿Qué es Pyspark?

Spark se ha incorporado herramientas de la mayoría de los científicos de datos. Es un framework open source para la computación en paralelo utilizando clusters. Se utiliza especialmente para acelerar la computación iterativa de grandes cantidades de datos o de modelos muy complejos.

  • Python -> PySpark

Acontinuación mostrare los métodos tal vez mas usado por la implicancia de los datos o tal vez menos usado por unos o posiblemente no lo hayas tomado en cuenta =)

METODOS

Lit

Coalesce

Collect_set y Collect_list

Concat

Bin

Explode

Window

Udf

¿Porque aprender Metodos?

Aprender un poco de los métodos, aveces necesitamos traducir queries enormes para trabajar para crear modelos de Machine Learning y como serán funciones que se ejecuten en tiempo real o según el uso, debes tener algo armado para no estar repitiendo siempre lo mismo.

Ejemplo simple traducción de un queries complejo y eso que aveces tenemos queries de esta magnitud para consultar para fuentes de información, nosotros como científicos de datos tenemos que entender para poder dar soluciones y que el modelo responda a las preguntas del negocio.

Usando sparkSql

traducción en código una parte en este caso “colita de chancho salvo el código” algunas veces las funciones nos salvan ~ (ISIN)

continua…..

Espero le hayas gustado esta publicación compartiendo experiencia en los que vienen hablaremos un poco de análisis de Cohort , CLV, Survived, RFM , Métodos supervisados o no supervisado en pyspark para su segmentación o analítica de clientes para observar su comportamiento de uso.

linkedin:

Gracias!!!!

--

--

Jonathan Quiza
Ciencia y Datos

Lead ML Engineer / Data science / Machine Learning / MLops