Различия между Data Mining и Predictive Analytics

Что такое Data Mining?
Data Mining можно описать, как практическое приложение к хранилищу данных, представляющее собой систематический процесс поиска взаимосвязей в больших объемах данных. При помощи статистических методов или же генетических алгоритмов, данные анализируются на предмет статистических аномалий, шаблонов или правил.
 
Wikipedia определяет Data Mining следующим образом: “Data Mining — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности”.
 
Data mining — это новый подход к работе с данными:
Data Mining — это не обыкновенное применение известных статистических формул.
Data Mining — это одна из частей важнейшего процесса сбора и прикладного использования данных.
Data Mining — это не таблицы в Excel с незамысловатыми формулами.
Data Mining — это выявлечение новых данных из данных при помощи компьютерных и статистических методов.
 
В чём практическая польза Data Mining?

  • Автоматизированное предсказание трендов
  • Автоматизированное опознание новых моделей

Data Mining называют одним из 8 методов анализа данных, которые должен понимать каждый менеджер:
- Корреляционный анализ
- Регрессионный анализ
- Визуализация данных
- Сценарный анализ
- Data mining
- Метод Монте-Карло
- Нейронные сети
- А/В Тестирование

Каковы параметры data mining?
Связь
 — поиск случаев, когда одно событие связанно с другим;
Закономерность или анализ пути — поиск случаев, когда одно событие есть причина другого, более позднего;

Классификация — поиск новых закономерностей (что в конце концов приводит к изменениям в структуре хранения данных);
 
Кластеризация — нахождение и документация ранее неизвестных групп фактов;
 
Предсказание — нахождение закономерностей в данных, которые могут привести к важным/полезным выводам о будущем.
 
 
Что такое Предсказательная Аналитика (Predictive Analytics)?
Согласно Wikipedia, — “класс методов анализа данных, концентрирующийся на прогнозировании будущего поведения объектов и субъектов с целью принятия оптимальных решений”.
 
В чём суть предсказательной аналитики?
Основным требованием для предсказательной аналитики есть сбор большого объёма частично неструктурированных данных из разных источников. Особо важно совмещение несколько источников данных, как, например, погодные и геоданные с данными, собранными из социальных медиа.
 
В предсказательной аналитике эти данные обрабатываются при помощи различных статистических методов, таких, как экстраполяция, регрессия, нейронные сети или машинное обучение для нахождения закономерностей и выведения алгоритмов. Эти алгоритмы проверяются и совершенствуются на основе тестовых данных. Также следует заметить, что чем больше данных доступно для анализа, тем боле точной будет работа полученного алгоритма. Когда процесс оптимизации завершён, то алгоритм и общую модель можно уже применять к данным, чья классификация неизвестна.
 
Data Mining и Предсказательная Аналитика — одно и то же?
 
”Очень часто Data Mining и предсказательную аналитику используют, как взаимозаменяемые компоненты. На самом деле, методы и средства Data Mining очень важны для работы предсказательной аналитики, но сама предсказательная аналитика — нечто большее, чем просто Data Mining. В ней также используются средства интеллектуального анализа текстов для работы с неструктурированным контентом, как, например, блоги, твиты, записи в Facebook.”

Источник