Быстрые, малые, умные. Какие еще бывают большие данные?

Термин Big Data или «большие данные» получил широкое распространение в середине 2000-х и приходится на развитие эпохи «свободного интернета» или технологии Web 2.0. В Web 2.0 ключевыми акторами являются сами пользователи и их личный опыт: смешная картинка, которой они решили поделиться; отзыв на недавно приобретенную покупку, совершенную онлайн; семейная фотография с поездки на море. К признакам «раннего» Web 2.0 можно отнести многочисленные веб-форумы, имиджборды, массовые онлайн чаты. Сегодня на смену веб-форумам пришли социальные сети и тематические блоги.

За развитием концепции Web 2.0 последовала другая — концепция Big data. Изначально этот термин использовался в контексте проблем обработки многочисленных неструктурированных данных. Сегодня же под «большими данными» все чаще подразумевают совокупность подходов к обработке постоянно накапливающейся информации и поиску в ней различных закономерностей.

Для более четкого определения обратимся к энциклопедии журнала PC Magazine:

Большие данные — это наборы массивов данных, постоянно пополняемые с течением времени. Такие массивы трудно анализировать и обрабатывать с помощью обычных инструментов управления базами данных <…>.

Основатель Facebook Марк Цукерберг в Конгрессе США дает показания по скандалу Cambridge Analytica

Большие — это сколько?

Слово «большие» не отражает размерность данных. Сказать, что 100 Гб текста, это «большие данные» — некорректно. Кроме того, классифицировать набор данных из 10 пользователей как «маленький» — также некорректно. Если необходимо подчеркнуть количество информации в одном наборе, то используют термин Lot of Data или «много данных».

Подход «большие данные» применяется там, где стандартные методы обработки информации являются неэффективными.

В качестве классического примера можно привести социальные сети: Instagram, Twitter, YouTube и др. Ежедневно миллионы пользователей, заходя в сеть, оставляют огромное количество цифровых следов: просмотры записей, переходы по ссылкам, лайки, репосты. При этом каждая операция содержит отметку о времени. В результате имеется постоянно обновляемый набор данных о пользовательских действиях, анализируя который, можно более эффективно настроить рекламу или, например, формировать персональную (другими словами — умную) ленту для пользователя.

Если есть большие, значит есть и маленькие?

Есть — маленькие, малые или, более привычно — Small Data. Единого определения для термина нет. Но в обиходе можно встретить несколько от части связанных между собой концепций. Вот некоторые из них:

  • Малые данные — это любые данные, сформированные до 2008 года, до рассвета Web 2.0 (Rob Kitchin, Gavin McArdle);
  • Малые данные — это качественная противоположность большим данным, которая не может быть оцифрована (Martin Lindstrom);
  • Малые данные — это личный опыт клиента (пользователя) и соответствующая его опыту обратная связь о продукте/услуге (Mark Fidelman). Применяется для различных маркетинговых исследований.

В академической сфере для определения понятия «Small Data» используется первый вариант. Принято считать, что до 2008 года все научные данные, по сути, были тем, что сейчас называют как «малые». Требования для сбора и хранения больших массивов информации до 2010 года были выше имеющихся тогда технических возможностей.

Малые данные — это часть больших данных, их некоторая подвыборка с условием ограничения по времени и/или по количеству представленной информации.

С другой стороны, малые данные — это массив такой размерности, который в большей степени «подвластен» исследователям без использования высоких вычислительных мощностей. Кроме того, при работе с малыми данными предоставляется больше возможностей для их укомплектования на подготовительном этапе, так что информацию о каждом объекте можно расширить. По аналогии с социальными сетями из примера о больших данных, можно выделить пользовательские действия за ограниченный период, затем по каждому из них в личном порядке (например методом рассылки опроса) уточнить настроение человека, его чувства и эмоции во время работы с системой.

Стоит отметить, что малые данные не обязательно являются отсекаемой частью больших данных и могут быть сформированы без них.

С размером понятно. А что еще?

Кроме «размерных» определений выделяют и другие концепции представления данных, лежащих как в научной, так и в предпринимательской плоскости. Рассмотрим некоторые из них.

Smart data

Smart Data или «умные данные» — это модель данных, имеющая смысл и/или ценность. В отличие от больших и малых, умные данные представляются следующим этапом филигранной постобработки собранной информации.

Американский деловой журнал Inc. приводит определение понятие Smart Data:

Умные данные <..> данные, которые имеют действительную, четко определенную, значимую информацию, которая может ускорить обработку информации <…> и принятие решений.

Простыми словами, умные данные содержат в себе лишь полезную информацию, удобную не только для считывания машиной, но и для обработки человеком.

Продолжая пример с социальными сетями: умные данные — это четко структурированная информация о том, какие тематики записей (политика, экономика, спорт и т.д.) нравятся различным группам пользователей (детям, подросткам, девушкам, молодым людям и т.д.).

Fast data

Подход «быстрые данные» или Fast Data ставит своей задачей оперативное обнаружение релевантной информации в постоянно поступающем и возрастающем потоке Big Data. Быстрые данные являются звеном между этапами сбора и обработки информации и выявлению из нее полезных свойств за максимально короткий промежуток времени.

Таким образом, понятие «обеспечение Fast Data» — это выявление Smart Data в Big Data в режиме реального времени для дальнейшего анализа.

Data, Data, Data, DATAAA.

Первоочередной причиной для подготовки этого материала послужило довольно распространенное и, зачастую, неправильное использование понятия Big Data. Необходимо признать, что сегодня возможности для обработки больших данных обусловлены не только техническими ограничениями, но и потенциальным наличием этих данных. Использование подхода Big Data оправдано только тогда, когда имеется достаточное количества объектов и их признаков.

Кроме того, для работы в области больших данных необходим целый штат рабочих, включая аналитиков, разработчиков, администраторов баз данных, менеджеров всех уровней и др., что наводит на мысль о реальности применении этих методов только крупными игроками на рынке.

Научным исследователям стоит присмотреться к более мелким концепциям, вроде Small Data или Smart Data и, возможно, затронуть понятие Capta Data (Johanna Drucker), на котором я подробно остановлюсь в следующий раз.

--

--