[janome 開発日誌] neologd サポートなどを追加した janome 0.3.3 をリリースしました

janome のバージョン 0.3.3 をリリースしました。機能的な変更はありません。mmap 対応など,内部はだいぶいじってます…。辞書構築の効率化を試み,実験的ですが NEologd 辞書ベースの janome ビルドが試せるようになりました。

【v0.3.3 の変更点】

Bug Fixes

Improvements

  • mmap サポートを追加しました。Tokenizer 初期化時に mmap=True オプションを指定すると,memory-mapped file 経由で辞書エントリにアクセスするようになります。辞書エントリをプロセス空間にロードしないため,Tokenizer の初期化が高速になり,また python プロセスのメモリ消費が抑制されます。
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer(mmap=True)
  • mecab-ipadic-neologd 内包の janome がビルドできるようになりました。辞書サイズが大きく,更新頻度も高いため,ビルド済みのパッケージを公開する予定はありませんが,NEologd 辞書を内包した janome パッケージを作成する手順を wiki で公開しています。実験的なものなので,諸々了解のうえお試しください :)

(very experimental) NEologd 辞書を内包した janome をビルドする方法

たまに,「janome は neologd 対応してないのか(がっかり)」という感想を見かけるので,もしかしたら何かの役に立つかもしれません。

neologd サイズのシステム辞書に対応するのは janome の作り上けっこう無茶感がありまして,ともかくやってみると色々と勉強になりました。2週間くらいかかったのですが動いて良かった(汗)。

Other

Gitter ルーム(チャット)を立てました。ちょっとした質問や困ってること,雑談など,お気軽にどうぞ

https://gitter.im/janome-python/ja

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade