[janome 開発日誌] neologd サポートなどを追加した janome 0.3.3 をリリースしました

janome のバージョン 0.3.3 をリリースしました。機能的な変更はありません。mmap 対応など,内部はだいぶいじってます…。辞書構築の効率化を試み,実験的ですが NEologd 辞書ベースの janome ビルドが試せるようになりました。

【v0.3.3 の変更点】

Bug Fixes

Improvements

  • mmap サポートを追加しました。Tokenizer 初期化時に mmap=True オプションを指定すると,memory-mapped file 経由で辞書エントリにアクセスするようになります。辞書エントリをプロセス空間にロードしないため,Tokenizer の初期化が高速になり,また python プロセスのメモリ消費が抑制されます。
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer(mmap=True)
  • mecab-ipadic-neologd 内包の janome がビルドできるようになりました。辞書サイズが大きく,更新頻度も高いため,ビルド済みのパッケージを公開する予定はありませんが,NEologd 辞書を内包した janome パッケージを作成する手順を wiki で公開しています。実験的なものなので,諸々了解のうえお試しください :)

(very experimental) NEologd 辞書を内包した janome をビルドする方法

たまに,「janome は neologd 対応してないのか(がっかり)」という感想を見かけるので,もしかしたら何かの役に立つかもしれません。

neologd サイズのシステム辞書に対応するのは janome の作り上けっこう無茶感がありまして,ともかくやってみると色々と勉強になりました。2週間くらいかかったのですが動いて良かった(汗)。

Other

Gitter ルーム(チャット)を立てました。ちょっとした質問や困ってること,雑談など,お気軽にどうぞ

https://gitter.im/janome-python/ja

Like what you read? Give moco(beta)’s backup 2nd a round of applause.

From a quick cheer to a standing ovation, clap to show how much you enjoyed this story.