how to use open refine/image by pactpub.com

Как использовать Open Refine

новая книга-мануал

Kats Philipp
DADA science
Published in
3 min readNov 5, 2013

--

Некоторое время назад была опубликована книга-руководство «Использование Open Refine». Книга небольшая, и подойдет в первую очередь для тех, кто только начинает пользоваться программой. А начать, или хотя бы ознакомиться с возможностями программы стоит, если вы хотя бы изредка работаете с данными, excel-таблицами, анкетами и т.п. и т.д.

Книга продается вот здесь

Для начала стоит рассказать о самом Refine (далее OR). Изначально проект был создан Google и назывался «Google refine», и только недавно получил открытые исходники и приставку «Open». До сих пор многие уроки и рецепты проще найти по первоначальному названию. Программа абсолютно бесплатна и имеет версии под PC, Mac и Linux.

Основная задача программы — переработка и очистка данных. Звучит довольно абстрактно, — до тех пор, пока ее не попробуешь в деле. Среди ее основные возможностей можно перечислить:

  • Возможность быстро получить представление о больших массивах информации
  • Перерабатывать данные в нужный формат, делать базовые расчеты
  • Фильтровать и объединять данные
  • Находить ошибки и неожиданности — например, слишком большие цифры, слова вместо чисел, пустые значения
  • Автоматически находить потенциальные опечатки и несоответствия в названиях, позволяя приводить записи к единому виду (кластеризация текстовых записей)
  • Отправлять http-запросы к любому api, к примеру, для геокодирования адресов
  • Сверять (reconcile) данные с открытыми базами данных, (в первую очередь Freebase) для уточнения названия и подгрузки комплиментарных данных (см. видео №3 в конце поста)
  • Создавать «макросы», автоматизируя обработку данных
  • Большое преимущество OR — его простота. Программа не сложнее, чем, к примеру, excel

Разумеется, все перечисленное можно делать и в других программах, базах данных и языках программирования, однако OR сочетает в одной «коробке» слишком много ценных возможностей, чтобы ее проигнорировать. В моем случае программа быстро превратился в инструмент на каждый день.

Итак, если все вышеперечисленное заставило вас задуматься, вам стоит попробовать программу на практике. Книга, в свою очередь, может стать для новичка хорошим подспорьем: кроме основных глав (установка, интерфейс и т.д.) она содержит конкретные «рецепты» — как удалить дубликаты, увеличить лимит оперативной памяти или отправить запрос на Freebase.

Книга легко читается и позволяет быстро начать использовать OR в работе. Всего в ней 4 части: установка и настройка (сразу стоит увеличивать объем квоты памяти), базовый анализ, подключение к внешним базам данны и дополнительные возможности анализа. Отдельно рассматриваются возможности regEx (регулярных выражений) и специального языка GREL (Google Refine Expression Language). Впрочем тем, кто имеет опыт работы на python, язык покажется простым. Кроме GREL, Refine поддерживает Jython и Closure.

Каждая глава делится на “рецепты”: как скрыть ненужные колонки, как увеличить квоту памяти, как повторить все трансформации одного проекта в другом, и так далее — каждый рецепт это последовательное описание действий. Такой способ изложения позволяет назвать книгу самоучителем — даже неопытный пользователь компьютера сможет разобраться с программой, повторяя действия, описанные в книге.

Вместе с тем, книга (пока?) охватывает лишь основной функционал, и для человека, уже знакомого с программой полезнее будет поработать с документацией на GitHub, где он сможет найти такие вещи, практически не затронутые в книге, как функция «cross» (команда позволяет «склеивать» данные из двух баз по ключевым значениям) или scatterplot facet (двухмерный цифровой фасет). Такой вид фасета полезен, например, для геоданных, позволяя работать внутри общего сета с конкретным регионом.

Еще одна важная, но не описанная тема — описание разнообразных плагинов. После открытия исходников проект обрел свое «второе дыхание», и количество дополнений сейчас растет с завидной скоростью, — от базовой статистики и до алгоритмов выделения в тексте «сущностей» (entities) и возможностей работы с RDF-базами и прочая, и прочая.

Подытоживая сказанное, я могу лишь порадоваться, что такая книга вышла, и станет хорошим подспорьем для начинающих пользователей. Я очень рассчитываю, что уже в ближайшем будущем сообщество пополнится новыми членами, а сама программа будет и дальше динамически развиваться.

В качестве альтернативы книге могу предложить посмотреть три видео, которые помогут вам составить базовое представление о программе.

Google Refine logo

--

--