“Don’t be afraid to get down and dirty with your data”

Совет от Ли Бейкер, главы софтверно-аналитической компании (Lee Baker, Chi-Squared Innovations).

Несколько дней назад кто-то спросил меня: “Если бы вам нужно было дать один совет по работе с данными, что бы это было?”

Без раздумий — мой главный совет для работы с данными звучит так: Не бойтесь погрузиться с головой и “испачкаться” вашими данными (don’t be afraid to get down and dirty with your data).

Легко рассекать по поверхности волн данных, делать поверхностную статистику или прогнозное моделирование. Конечно, это самая “сексуальная” часть работы аналитика данных.

И мало кто хочет делать такие скучные вещи, как подсчитывать сколько и какие данные нахдятся в столбцах, расчитывать минимальные и максимальные значения, медианы и стандартные отклонения.

А ведь это, пожалуй, самая важная часть работы аналитика. Именно здесь вы получите реальное ‘знание’ ваших данных. И есть ли вообще смысл делать анализ по ним?

Например, сколько людей вы знаете, кто прожил 300 лет? А в вашем наборе данных может присутствовать подобные “выбросы” или ошибки, и если вы сами лично не проверите максимальные/минимальные значения, то вы никогда не будете знать свои данные “в лицо”, — и тогда вы будете постоянно иметь не только неправильные данные, но и неверные результаты.

Так что не бойтесь испачкать руки. Погружайтесь в данные и управляйте ими сами. Я обещаю вам, что это спасет много времени на повторную переделку работы.