“PySpark: What, why and how”

Spark es una de las mejores plataformas para el procesamiento de grandes volúmenes de datos que por lo mismo, ha estado ganando popularidad. Esta plática es una introducción al “framework” específico para Python: PySpark. ¿Qué es?, ¿para qué sirve?, ¿por qué es bueno? y ¿cómo empezar? Todo esto será respondido por Tania Mendoza en esta interesante charla.

Perfil del ponente: Tania Mendoza Smith es una matemática/científica de datos/ingeniera de software con más de 5 años de experiencia profesional. Tania ama hacer modelos para datos, el procesamiento de lenguaje y la arquitectura de software. Trabajó con Spark para Scala por más de 2 años como científica de datos, hasta que se encontró con PySpark el cual ha usado por los últimos dos años. A Tania le encanta tocar música, bailar y los perros.

Descripción de la charla: La plática estará enfocada en un nivel introductorio para guiarte en la dirección correcta en caso de que creas que PySpark es el ideal para tus necesidades. La charla cubrirá los siguientes aspectos:

¿Qué?

Spark es un motor general para el procesamiento a grande escala. Está disponible como “framework” para Scala, Python y R. ¿Has escuchado acerca de Hadoop MapReduce? Pues Spark es lo más nuevo.

¿Para qué sirve?

Se presentarán algunos casos. Desde limpieza de datos, hasta sistemas de recomendación

¿Por qué es bueno?

Discutiremos los beneficios de usar Spark y así como comparaciones con tecnologías alternativas.

¡Empecemos!

Se presentará un ejemplo sencillo de procesamiento de datos el cual puede ser agilizado con Spark. Para ver a Spark en su máxima gloria, también se presentará un problema de aprendizaje automático usando MLLib.

Pythonista Level: Para entender los aspectos generales de la plática no se necesitan habilidades técnicas. Para la implementación de código con PySpark se necesita nivel Intermedio.

Notas: La charla será impartida en ESPAÑOL de forma PRESENCIAL, sin embargo el material estará en INGLÉS.