TISのchakkiチームは、2018/8/27から8/29で開催されたNLP若手の会(YANS)にスポンサーとして参加してきました。本記事では、TISの発表内容とYANSでの交流の模様をお届けしようと思います。
Presentation
スポンサー発表では、テキストデータに対してアノテーションを行うツールdoccanoの紹介と展示を行いました。
既にGitHubでも公開しています。デモも試せるため、データを作る予定のある方はぜひ試してみてください。
開催中頂いた意見はとても参考になりました!
ポスター発表中頂いた意見はポストイットでポスターに張り付けていたのですが、満員御礼といった状況になりました。
ご意見のまとめは別途記事にする予定です。現在アノテーションを行っている・クラウドソーシングで発注している方にとっても参考になると思います。
Communication
今年の開催場所は香川県の高松市でした。香川と言えばやはりうどん、ということで到着早々に頂きました。
高松市でなく瓦町へ出たほうが良い、という事前情報を元に瓦町のうどん屋(麺処 綿谷)へ行きました。やはりコシとツヤが本州で食べるうどんとは一味違います。そして味ではないですが、行列が見る間に消化される人の回転の速さに驚きました。
会場となるホテルは山にありました。我々は市内を散策したいという思いと、タクシーを使うと社内精算が面倒という思いとから歩いて行ったのですが、最後の登りはなかなかにハードでした。途中何台ものタクシーに抜かされる度、若干の後悔が胸をよぎりました。ただ、その分瀬戸内海を一望できる景色を堪能できました。
到着後ポスター発表の準備と配布する「直感ディープラーニング」のセットアップを行いました。直感ディープラーニングは、弊社の久保と中山が翻訳に参加した書籍です。当初何か交換条件を(doccanoに★など)、という案もあったのですが、そういうケチ臭いことはやめようということで普通に先着順に配布させていただきました。
皆さんの研究に役立てば幸いです!
以後は怒涛のポスター発表とハッカソンで見る間に時間は過ぎていきました。スポンサーブースは3日間ずっとオープンしていたため、ひたすら話続けデモし続けました。
今回の発表テーマであるアノテーション、また現在取り組んでいる決算書の観点要約に関連しそうな以下のテーマは、ポスター発表を見に行かせていただきました。
- P03: 人手による感情ラベル付けにおける応答時間に着目した感情推定難易度の評価
- S02: 弁護士と言語処理技術 ~LegalForceが目指す企業法務の未来~
- P22: 経済市況データを用いた動向概要文生成の制御に向けて
- P24: 情報科学論文からの技術の利点・欠点のマイニングに向けて
- P46: 言語・視覚情報の統合による自動論文要約システム
ハッカソンは発表の合間の時間+夜に進めていました。3つテーマがあったのですが、私が取り組んだのは論文のAcceptを予測する分類タスクでした。ただ、そのかいあり優勝することができました。
ベースラインとして提供されていたスクリプトは動かすのが難しかったため、まず実行環境を整えるところから始めました(実際のところ、それだけで終わるんじゃないかという印象もありましたが)。
この環境にはKaggleのPrivate Datasetを使いました。ハッカソン終了後にPublic Dataset/Kernelとして公開したため、興味がある方は試してみてください。
何とかモデルをチューニングするところまで持っていけ、優勝することができました。
色々な方とお話しさせていただきましたが、arXivTimesの取り組みが参考になっているというお話は非常に励みになりました。そうしたフィードバックはモチベーションにもなるため、今後もグイグイ言っていただけたら幸いです。
TISは今後も「NLPエンジニア集団」として、研究面+ツール面という2方面で自然言語処理コミュニティに貢献していければと考えています。年度内にはそれぞれプレスが出る!予定なので楽しみにしていてください。
では、来年またお会いしましょう!