物体検出データセットのアノテーション品質の検討結果をCVPR 2022のワークショップで発表します

Yoshitaka Ushiku
OMRON SINIC X (JP)
Published in
Jun 27, 2022

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022と併催の1st Workshop on Vision Datasets Understanding [link]にて、論文の1つを発表することが決まりましたのでお知らせします。講演は午後のショートオーラルセッション(6月27日12:40–13:40 米国中部標準時)に予定されています。

Jiaxin Ma, Yoshitaka Ushiku, and Miori Sagara, “The Effect of Improving Annotation Quality on Object Detection Datasets: A Preliminary Study”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2022, pp. 4850–4859 [cvf]

本研究は、オムロンサイニックエックス株式会社と株式会社バオバブ(https://baobab-trees.com/)による共同プロジェクトです。

モデルセントリック vs. データセントリック?

機械学習分野で発表される論文の多くがモデルや手法の改善を目指している(=モデルセントリック)現在、モデルを固定してデータを改善する(=データセントリック)アプローチもあります。具体的には、a)データの増強や収集によって学習サンプルを増やし、b)誤ったラベルや曖昧なラベルを修正することでノイズを減らす、というものです。2021年にAndrew Ng博士の研究チームが、このアプローチによって機械学習の精度が大幅に改善されることを報告したのは、日本でも話題になったと思います [参考動画]。

この発見は、機械学習の研究開発の際にデータの(アノテーションを含む)品質の重要性にもっと注意を払う必要性を訴えています。いま扱おうとしているデータは一貫して正しくアノテーションされているかどうか?ということを、今一度考える必要があります。

データセントリックなAIと関連するものの同一ではない取り組みとして、こうしたデータセットのクオリティを向上させるためにデータセット内の画像を再度取捨選択したり、そのアノテーションの正確さを改善したりという試みが行われています。画像分類では、ImageNetに対してその様にアノテーションを再度検証データセットに対して実施した結果、得られたImageNetV2データセット[link]は種々の画像分類モデルでオリジナルのデータセットよりもチャレンジングなデータセットとなったことが報告されています。

このようなデータセットのクオリティを見直す動きは、画像分類のデータセットでは広がりを見せつつあるもの、物体検出のデータセット上ではあまり行われておりません。一方で、ご存知の通り物体検出では画像内の複数の物体を、それぞれが外接するような最小の矩形で囲うというより高度なラベル付けが求められます。このような物体検出データセットでアノテーションのクオリティを改善したら、従来の物体検出モデルはどのような挙動を示すのか?これを調べるために、アノテーションのプロフェッショナル集団であるバオバブと共同で調査・検証を行いました。

データアノテーションの改善と方法

本論文では、データアノテーションの品質向上による実際の効果を評価するために、物体検出タスクを用いました。代表的なデータセットであるMicrosoft Common Object in Context (MS COCO) の80k画像とGoogle Open Imagesの5k画像を、バオバブのアノテータ―の方々が再度ラベル付けしました。結果として分かったのは、両データセットとも、ラベルに誤りや矛盾があったということです(以下の例を参照してください)。再アノテーションの詳細については、我々の論文に記載されています。

Google Open Imagesのオリジナルデータセットでは、このかわいい動物が犬とアノテーションされています(明らかに猫ですね)。

我々は、5つの一般的な物体検出モデル(Faster RCNN, SSD, YOLO, EfficientDet, DETR)を用いて、元のデータセットと新しい(再アノテーションされた)データセットを評価し、その結果を比較しました。

成果

結果はそれぞれのデータセットで分かれました。Google Open Imagesデータセットでは、再アノテーションによって全ての物体検出モデルの精度が向上し、高い検出精度(mAP)を得ることができました。一方、MS COCOデータセットでは、再アノテーションによってデータセット自体がよりチャレンジングなデータセットとなり、物体検出モデルの精度が低下しました。

COCOの実験結果(old/oldは元のデータセットで学習/テストしたもの、new/newは再アノテーションしたデータセットで学習/テストしたもの、以下同じ)
Open Imagesでの実験結果

この結果の背景を分析すると、COCOデータセットではできるだけ多くの対象物を(小さなサンプル、あいまいなサンプルなど、言い換えれば検出が困難なサンプルであっても)再アノテーションしようと努力したのに対し、Open Imagesデータセットでは、比較的検出しやすい物体に限ったアノテーションガイドラインであったことがわかります。このように、難しいサンプルを増やすことが、COCO最終的な性能の低下につながった可能性があります。

このように物体検出タスクでは、データのアノテーション品質を向上させても、困難なサンプルが追加される可能性があるため、必ずしもモデル性能に有利に働くとは限らないことが、予備的に示されました。この結果は、物体検出プロジェクトにおいてデータセントリックなアプローチを用いて精度を改善しようとする際にも、一つの参考事例となるでしょう。

今後の課題

本研究で使用した再注釈データセットは現在公開されています[link]。アノテーションの品質と機械学習モデルの性能を同時に向上させるために何ができるかを継続的に探っていくことは興味深いことです。何かご提案がありましたら、contact@sinicx.com までご連絡ください。

インターン募集

このプロジェクトは、オムロン サイニックエックスのインタラクショングループのプロジェクトとして行われました。オムロン サイニックエックスでは、実社会で人々と協調・共存して活動する機械の実現を目指し、自然言語処理や機械学習、コンピュータビジョン、ロボティクス、ヒューマンコンピュータインタラクションに関する基礎研究を継続していきます。弊社でのインターシップにご興味のある方は、インターン募集ページをご確認ください。通年で募集しております。

--

--