Cinco preguntas que los Datos de Ciencias contesta

Priscilla Nuñez
9 min readJun 20, 2017

--

photo de @brohrer

Tan asombroso como es, hay solamente cinco preguntas que el aprendizaje de máquina puede contestar.

¿Es A o B?

¿Es extraño?

¿Qué es la cantidad?

¿Cómo está organizado?

¿Qué debería hacer después?

¿Qué debería hacer después?

El aprendizaje automático (ML) es el motor que impulsa la ciencia de los datos. Cada método ML (también llamado algoritmo) toma los datos, los convierte y proporciona un resultado. Algoritmos ML hace la parte de la ciencia de los datos que es el más difícil de explicar y la más divertida de trabajar. Ahí es donde ocurre la magia matemática.

ML algoritmos pueden agruparse en familias basadas en el tipo de pregunta que responden.

Estos pueden ayudar a guiar su pensamiento mientras está formulando sus

Preguntas.

¿Es A o B?

Esta familia es formalmente conocida como clasificación de dos clases. Es útil para cualquier pregunta que tenga sólo dos respuestas posibles: sí o no, encendido o apagado, fumar o no fumar, comprado o no. Muchas preguntas de ciencia de datos suenan como esto, o pueden ser reformuladas para que se ajusten a esta forma. Es la pregunta de ciencia de datos más simple y más comúnmente solicitada. Aquí hay algunos ejemplos típicos.

¿Este cliente renovará su suscripción?

¿Es esta una imagen de un gato o un perro?

¿Este cliente hará clic en el enlace superior?

¿Caerá esto llanta en las próximas mil millas?

¿El cupón de $ 5 o el descuento del cupón de 25% resultan en más clientes que regresen?

¿Es A o B o C o D?

Esta familia se llama algoritmo de clasificación con varias categorías.Como su nombre implica, responde a una pregunta que tiene varias (o incluso muchas) respuestas posibles: qué sabor, qué persona, qué parte, qué empresa, qué candidato. La mayoría de los algoritmos de clasificación multi-clase son sólo extensiones de algoritmos de clasificación de dos clases.

Estos son algunos ejemplos típicos;

¿Qué animal está en esta imagen?

¿Qué aeronave está causando esta gestión de la firma de radárica?

¿Cuál es el tema de este artículo de noticias?

¿Cuál es el humor de este tweet?

¿Quién es el orador en esta grabación?

¿Es Extraño?

Esta familia de algoritmos realiza detección de anomalías. Identifican puntos de datos que no son normales. Si está prestando mucha atención, se da cuenta de que esto se parece a una pregunta de clasificación binaria. Se puede responder sí o no. La diferencia es que la clasificación binaria supone que usted tiene una colección de ejemplos de sí y no. La detección de anomalías no. Esto es particularmente útil cuando estás buscando con poca frecuencia que no has tenido la oportunidad de recoger muchos ejemplos, como fallas de equipo. También es muy útil cuando hay mucha variedad en lo que constituye “no es normal”, ya que hay en la detección de fraudes de tarjetas de crédito. Aquí hay algunas preguntas típicas de detección de anomalías;

¿Esta presión es inusual?

¿Es típico este mensaje de Internet?

¿Es esta combinación de compras muy diferente de lo que este cliente ha hecho en el pasado?

¿Son estos voltajes normales para esta temporada y hora del día?

¿Qué es la cantidad?

Cuando está buscando un número en lugar de una clase o categoría, la familia de algoritmos a utilizar es la regresión.

¿Cuál será la temperatura el próximo martes?

¿Cuáles serán las ventas de mi cuarto trimestre en Portugal?

¿Cuántos kilovatios serán demandados desde mi molino de viento en 30 minutos?

¿Cuántos nuevos seguidores recibiré la próxima semana?

De mil unidades, ¿cuántos de este modelo de rodamientos sobrevivirán 10.000 horas de uso?

Por lo general, los algoritmos de regresión dan una respuesta con merito; Las respuestas pueden tener un montón de lugares decimales o ser negativos. Para algunas preguntas, especialmente las preguntas que empiezan “¿Cuántas …”, las respuestas negativas pueden tener que volver a interpretarse como cero y los valores fraccionarios re-interpretados como el número entero.

Clasificación multi-clase • Regresión

Cuando buscas un número en lugar de una clase o categoría, la familia de algoritmos a utilizar es la regresión.

¿Cuál será la temperatura el próximo martes?

¿Cuáles serán las ventas de mi cuarto trimestre en Portugal?

¿Cuántos kilovatios serán demandados desde mi parque eólico en 30 minutos?

¿Cuántos nuevos seguidores recibiré la próxima semana?

De mil unidades, ¿cuántos de este modelo de rodamientos sobrevivirán 10.000 horas de uso?

Por lo general, los algoritmos de regresión dan una respuesta real; Las respuestas pueden tener un montón de lugares decimales o incluso ser negativos. Para algunas preguntas, especialmente las preguntas que empiezan “¿Cuántas …”, las respuestas negativas pueden tener que ser reinterpretadas como cero y los valores fraccionarios re-interpretados como el número entero más cercano.

Clasificación multi-clase como regresión

A veces las preguntas que parecen preguntas de clasificación de valores múltiples son en realidad más adecuadas para la regresión. Por ejemplo, “¿Cuál noticia es la más interesante para este lector?” Parece pedir una categoría, un solo artículo de la lista de noticias. Sin embargo, se puede reformular a “¿Qué interesante es cada historia en esta lista para este lector?” Y dar a cada artículo una puntuación numérica. Entonces es una cosa simple para identificar el artículo de mayor puntuación. Las preguntas de este tipo ocurren a menudo como clasificaciones o comparaciones.

“¿Qué camioneta en mi flota necesita el servicio más?”

Se puede reformular como “¿Cuánto necesita cada furgoneta en mi flota de servicio?”
“¿Qué 5% de mis clientes dejarán mi negocio para un competidor en el próximo año?”

Se puede reformular como “¿Qué tan probable es que cada uno de mis clientes deje mi negocio para un competidor en el próximo año?”

Clasificación de dos clases como regresión

No puede sorprender que los problemas de clasificación binaria también puedan reformularse como regresión. (De hecho, bajo la campana algunos algoritmos reformulan cada clasificación binaria como regresión).

Esto es especialmente útil cuando un ejemplo puede pertenecer a la parte A y la parte B, o tiene la posibilidad de ir de cualquier manera. Cuando una respuesta puede ser en parte sí y no, probablemente en pero posiblemente apagado, entonces la regresión puede reflejar eso.

Las preguntas de este tipo suelen comenzar “¿Qué probabilidades …” o “Qué fracción …”

¿Qué tan probable es que este usuario haga clic en mi anuncio?

¿Qué fracción de tirones en esta máquina tragamonedas da como resultado el pago?

¿Qué tan probable es que este empleado sea una amenaza de la seguridad de un miembro?

¿Qué fracción de los vuelos de hoy saldrá a tiempo?

Como usted pudo haber recogido, las familias de la clasificación de dos clases, la clasificación de la multi-clase, la detección de la anomalía, y la regresión están todas estrechamente relacionadas. Todos ellos pertenecen a la misma familia extensa, el aprendizaje supervisado.

Tienen mucho en común, ya menudo las preguntas pueden ser modificadas y planteadas en más de una de ellas. Lo que todos comparten es que se construyen usando un conjunto de ejemplos etiquetados (un proceso llamado entrenamiento), después de lo cual pueden asignar un valor o categoría a ejemplos no marcados (un proceso llamado puntuación).

Conjuntos enteramente diferentes de preguntas de ciencia de datos pertenecen a las familias de algoritmo extendido de aprendizaje sin supervisión y refuerzo.

¿Cómo se organizan estos datos?

Las preguntas sobre cómo se organizan los datos pertenecen al aprendizaje sin supervisión. Hay una gran variedad de técnicas que intentan descubrir la estructura de los datos. Una familia de estos realiza el clustering, a.k.a. chunking, agrupación, agrupación o segmentación.

Ellos tratan de separar un conjunto de datos en trozos intuitivos. Lo que hace que el clustering sea diferente del aprendizaje supervisado es que no hay número o nombre que le diga a qué grupo pertenece cada punto, qué representan los grupos o cuántos grupos debe haber. Si el aprendizaje supervisado es escoger planetas de entre las estrellas en el cielo nocturno, entonces el agrupamiento está inventando constelaciones. El agrupamiento intenta separar los datos en “grumos” naturales, para que un analista humano pueda interpretarlo más fácilmente y explicarlo a otros. El agrupamiento siempre se basa en una definición de cercanía o similitud, llamada métrica de distancia. La métrica de distancia puede ser cualquier cantidad medible, tal como diferencia en IQ, número de pares de bases genéticas compartidas, o millas-como-el-cuervo-moscas.

Todas las preguntas de agrupación tratan de dividir los datos en grupos casi uniformes.

¿Qué compradores tienen gustos similares en la producción?

¿A qué espectadores les gusta el mismo tipo de películas?

¿Qué modelos de impresora fallan de la misma manera?

¿Durante qué días de la semana esta subestación eléctrica tiene demandas eléctricas similares?

¿Qué es una manera natural de dividir estos documentos en cinco grupos temáticos?

Otra familia de algoritmos de aprendizaje no supervisados se denominan técnicas de reducción de la dimensionalidad.

La reducción de la dimensionalidad es otra forma de simplificar los datos, de hacerlo más fácil de comunicar, más rápido de calcular y fácil de almacenar.

En su núcleo, la reducción de la dimensionalidad se trata de crear una abreviatura para describir puntos de datos.

La fuerza académica de un estudiante universitario se mide en docenas de clases por cientos de exámenes y miles de tareas. Cada asignación dice algo acerca de lo bien que el estudiante entiende el material del curso, pero una lista completa de ellos sería demasiado para cualquier reclutador para digerir. Por suerte, puede crear una taquigrafía simplemente haciendo un promedio de todas las puntuaciones juntas. Usted puede salir con esta simplificación masiva porque los estudiantes que hacen muy bien en una asignación o en una clase suelen hacer bien en otros. Mediante el uso de GPA en lugar de la cartera completa, se pierde la riqueza.

Por ejemplo, no lo sabrías si el estudiante es más fuerte en matemáticas que en inglés, o si obtuvo mejores calificaciones en asignaciones de programación que en pruebas en clase. Pero lo que obtienes es la simplicidad, lo que hace que sea mucho más fácil hablar y comparar la fuerza de los estudiantes. Las preguntas relacionadas con la reducción de la dimensión generalmente se refieren a factores que tienden a variar en conjunto.

¿Qué grupos de sensores en este motor de reacción tienden a variar con (y contra) el uno al otro?

¿Qué prácticas de liderazgo tienen los CEO exitosos en común?

¿Cuáles son los patrones más comunes en los cambios en los precios de la gasolina en los Estados Unidos?

¿Qué grupos de palabras tienden a ocurrir juntos en este conjunto de documentos? (¿Cuáles son los temas que cubren?)

Si su objetivo es resumir, simplificar, condensar o destilar una colección de datos, la reducción de la dimensionalidad y el agrupamiento son sus herramientas de elección.

¿Qué debería hacer ahora?

Una tercera familia extendida de algoritmos ML se centra en tomar acciones. Estos son llamados algoritmos de aprendizaje de refuerzo (RL). Son poco diferentes de los algoritmos de aprendizaje supervisados y no supervisados. Un algoritmo de regresión podría predecir que la temperatura alta será de 98 grados mañana, pero no decide qué hacer al respecto. Un algoritmo RL pasa al siguiente paso y elige una acción, como la pre-refrigeración de los pisos superiores del edificio de oficinas, mientras que el día sigue siendo fresco. RL algoritmos fueron inspirados originalmente por la forma en que los cerebros de las ratas y los seres humanos responden a los castigos y las recompensas. Eligen las acciones, tratando muy duro de elegir la acción que ganará la mayor recompensa.

Tienes que proporcionarles un conjunto de acciones posibles, y necesitan obtener retroalimentación después de cada acción sobre si fue bueno, neutral o un gran error.

Normalmente los algoritmos RL son un buen ajuste para sistemas automatizados que tienen que tomar muchas pequeñas decisiones sin la guía de un humano.

Elevadores, calefacción, refrigeración y sistemas de iluminación son excelentes candidatos.

RL fue desarrollado originalmente para controlar robots, por lo que cualquier cosa que se mueva por sí solo, desde drones de inspección a aspiradoras, es juego limpio. Las preguntas que RL responde son siempre sobre qué acción debe tomarse, aunque la acción se toma generalmente por la máquina.

¿Dónde debo colocar este anuncio en la página web para que el espectador tenga más probabilidades de hacer clic en él?

¿Debo ajustar la temperatura más alta, más baja o dejarla donde está?

¿Cuántas acciones de este stock debería comprar ahora mismo?

¿Debo seguir conduciendo a la misma velocidad, frenar o acelerar en respuesta a esa luz amarilla?

RL por lo general requiere más esfuerzo para trabajar que otros tipos de algoritmos porque está tan estrechamente integrado con el resto del sistema. La ventaja es que la mayoría de los algoritmos RL pueden empezar a funcionar sin ningún dato. Recogen datos a medida que van, aprendiendo de ensayo y error. El primer post en esta serie cubrió los ingredientes básicos para hacer la ciencia de datos buena.

La siguiente publicación dará muchos ejemplos específicos de preguntas de ciencia de datos bien definido y la familia de algoritmos más adecuados para cada uno.

Data Scientist — Brandon Rohrer’s Associate Editor

[Español] (Editor Asociado) • Priscilla Nuñez

Twitter:@_brohrer_ & Twitter:@solutions

--

--