Elastic Stack (Elasticsearch) Advent Calendar 2020 の 12月21日のエントリーです。
今回は「検索の基本中の基本」について解説したいと思います。この Elasticsearch 入門シリーズは今回で4回目になりますが、検索エンジンなのにやっと検索の話です。
Elasticsearch の検索のパワーをフルに活用するには、以下の内容を理解する必要があります(検索や集計の精度を向上させるなど)。
前回は「データスキーマ設計のいろは」というテーマで Elasticsearch にインデックスするためのドキュメント構造の設計について説明しました。 今回は「ドキュメント管理の基本」というテーマで、そのドキュメントを追加・更新・削除する操作の基本を解説します。
きっと、他の検索エンジンと比べ、その高機能ぶりに驚くはずです。
今回、第1回目の Elasticsearch 入門という事で、今回は「インデックスを設計する際に知っておくべき事」というテーマにしてみました。ここでのインデックスの設計とは RDB のデータベースとかテーブル、ビューの設計に当たるところです。
Elasticsearch は RDB…
入社3日目の木戸です。入りみだれるチャットコミュニケーションにあたふたしつつも、社内のドキュメントなどを読みあさりながら、少しづつ会社にも慣れてきたかな?といった感じです。
そのうち「Elasticsearch 入門シリーズ」でも連載しようかと考えているのですが、今回記念すべき1本目のブログは、
ElasticsearchをベースにTwitter利用者の性別判定システムを構築する。
Twitter 利用者の趣味嗜好など興味分野の分析であれば、以前公開した「Elasticsearch Twitter ツィート情報リアルタイム分類」のようにツィートの内容をベースに名詞系の品詞に特徴が出てくるのでそれほど難しくはないのですが、性別判定の場合はちょっと勝手が違います。
Google に代表される「キーワードサジェスト」機能を Elasticsearch を前提に日本語向けに設計。
Twitter のツィートテキスト情報をもとに、リアルタイムに分類してみる。
機械学習を使った多項分類では、教師データが必要で、教師データがない場合には、この正解データを作成することがかなり大変です。例えば今回のタイトルにあるように Twitter のツィート情報をもとに任意のカテゴリーに分類したい場合、教師データを作成することも大変ですが、Twitter…
自前で構築してきたElasticsearchをAmazon ESに移行できるかという視点で、その特徴や機能的な制限などまとめてみました。
機械学習せずに新しいドキュメントの分類を予測する。More Like This編