IEEE ACCESSに論文が採録されました

視覚情報からの手順書生成を行う我々の研究がIEEE Accessに採録されました.この研究は京都大学の森信介教授,亀甲博貴助教,および,東京大学の山肩洋子准教授との共同研究です.

Taichi NISHIMURA, Atsushi Hashimoto, Yoshitaka USHIKU, Hirotaka KAMEKO, Yoko Yamakata, and Shinsuke MORI,
“Structure-Aware Procedural Text Generation from an Image Sequence”
[paper]

手順書生成とは?
複数の材料を組み合わせることによって新たな価値を生む行為は我々の社会にとって重要な活動です.毎日の料理から工業での組み立て作業まで,手順書には、読者がこれらの活動の手順を再現できるようにする方法が説明されています.手順書の生成は,手順がわかる何らかの情報に基づいて,一貫性のある実行可能な手順を説明する自然言語表現を生成するタスクです。産業応用上は組立作業が重要と考えられますが,データの取り扱いが容易な料理レシピを対象とした研究が良く行われています.

どのような情報がこの課題の入力となるか?
手順書生成の研究では多様な入力が提案されています.例えば完成した料理の写真一枚から手順書を生成する研究や,動画と解説文を入力とする研究などがあります.前者は不良設定な事例を多く含むと考えられ,また,後者は手順書とは異なるものの,別の言語情報が入力に加わってしまっており,問題を簡単化しすぎてしまう傾向があります.我々のプロジェクトでは,不良設定になりにくく,かつ,作業手順に関する言語情報を伴わない入力として,手順を説明する画像列(作業観測映像のダイジェストと位置づけられるもの)と材料リストの2つを用いています.

新しいデータセットおよび提案手法
一貫性のある説明を生成する上で,モデルが手順の裏に存在する構造,すなわち材料の統合木を読み取り,それに基づいた生成を行うことは重要です.言語処理分野で発表されているSIMMRデータセットを参考に,我々はその視覚言語処理統合版であるvSIMMRデータセットを作成しました (Fig. 1).

Fig. 1 vSIMMR dataset

このデータセットを用いて,材料統合木を推定し,その構造を使ってより良いテキストデコードを行う手法を提案しました (Fig.2).入力からのエンコードでは,材料名と画像をそれぞれ潜在特徴へと変換するのと同時に,それらの間にリンクがあるかどうかを注意機構と似た方法で予測します(process(i)).この予測により得られたリンクの有無の確率値に対して,ガンベルソフトマックス(ニューラルネットワークの途中に離散化があっても誤差逆伝播による最適化を可能とする方法)によって0/1の二値に変換します(process(ii)).その後,得られたリンク構造を使ったTreeLSTMという再帰的ニューラルネットワークによって,構造を考慮したテキストのデコードを行います(Process(iii)).

Fig. 2 提案手法の処理の流れ

木構造の予測にはvSIMMRデータセットを活用した教師あり学習が行えます.しかし,学習データに含まれる全てのレシピについて木構造をアノテーションするのはコストが高すぎるため,vSIMMRデータセットには全体の1%程度のレシピしか含まれていません.このため,半教師あり学習を行うために提案手法では「木構造の再推定部」を追加しています.Process(i)で推定されたのと同じ木構造を生成されたテキストからも予測することで入出力の間での木構造一貫性を保持するように学習を行い,木構造の正解がないデータに対しても構造に関する学習を進めるようにしています.

提案手法の効果
実験では,提案手法のfull modelにおいて材料を ‘•’ で参照するようになるなどの印象的な結果を得ました(Fig.3内,材料リストが{ごぼう,にんじん,•砂糖,•酒,•しょう油,•わさび,白ごま,ごま油}であるのに対して「材料を用意します。•の調味料を合わせておきます。」という文を生成).これは構造を考慮しない従来モデルでは起きないことでした.このような定性的な変化のみならず,定量的な評価においても改善が見られました (Table 1).この表には提案手法を4つの異なるベースモデル(Image2Seq, GLAC Net, SSiD, SSiL および私達が2019年に発表したRetAttn)上で実装した結果がまとめられています. 木構造推定のためにパラメタ数が増えている提案手法との公平な比較のため,それぞれのベースモデルを単体で評価する際にはwideとdeepという2つのパラメタ数を増強したバリエーションが追加されています.またhalf modelは木構造の再推定部がないモデルです.ほとんどの指標・ベースモデルで,提案したfull modelがスコアを改善しています.また論文では人による評価の結果も掲載しています.

Fig. 3 生成されたテキストの例
Table. 1 定量的評価の結果.5つのベースモデルおよびhalf, fullモデルに対するWord-overlap による指標.太字はそれぞれのベースモデルを用いた場合の最良のスコアを示しています.指標の略称はB=BLEU, RL=ROUGE-L,D=Distinct, I=Ingredient, and Ac=Actionです.またI-B1はテキスト中の材料に対応する名詞のみを抜き出した場合のBLUE1スコアです. * がついているものはブートストラップサンプリングによって有意差が(p <0.001)となったものです.

産業応用に向けて残された課題について

この手法は学習に非常に多くのテキスト-画像列ペアを必要とします.この制限は提案手法の産業応用を非常に難しいものにしています.もし,多くのデータを所有するなど,コラボレーションに興味がある方がおられましたら,ぜひご連絡ください.
Eメール: contact[at]sinicx.com ([at]を@に変更)

謝辞
本研究は JST ACT-I Grant Number JPMJPR17U5,国立情報学研究所公募型共同研究(2020–20S0902),および JSPS 科研費JP20H04210, JP17H06100の助成を受けたものです.

また,本研究に用いたデータセットは国立情報学研究所(NII)が提供する情報学研究データレポジトリで公開されているクックパッドデータセット,およびクックパッドが提供するCookpad Image Datasetを利用しております.優れたデータセットを学術研究の発展のために公開いただいているクックパッド株式会社,並びに,NIIへ感謝申し上げます.

--

--