Grounded-SAM : 任意の物体をセグメンテーションできる機械学習モデル

Kazuki Kyakuno
axinc
Published in
Jul 18, 2024

任意の物体をセグメンテーションできる機械学習モデルであるGrounded-SAMのご紹介です。

Grounded-SAMの概要

Grounded-SAMは、テキストで指定した任意の物体をセグメンテーションできる機械学習モデルです。

出典:https://github.com/IDEA-Research/Grounded-Segment-Anything/blob/main/assets/demo2.jpg

Grounded-SAMのアーキテクチャ

Grounded-SAMは、GroundingDINOを使用して、指定されたテキストのBounding Boxを計算し、そのBounding Boxを指示としてSegement Anythingでセグメンテーションを取得します。既存の2つのモデルを統合することで、任意の物体のセグメンテーションを実現しています。

Grounded SAMのアーキテクチャ(https://arxiv.org/abs/2401.14159

応用例として、Grounded SAMとStable Diffusionを組み合わせることで、テキストで椅子を指定し、椅子だけの模様を変更するなど、高度な画像編集が可能になります。

Grounded-SAMは、「ピンクの服を着た人」や、「サングラスをかけた男」などを、テキストからセグメンテーションすることが可能です。

Grounded SAMのアーキテクチャ(https://arxiv.org/abs/2401.14159

GroundingDINOとSegmentAnythingについては、下記を参照してください。

Grounded-SAMの使用方法

ailia SDKでGrounded-SAMを使用するには、下記のコマンドを使用します。メモリ消費量が5GB程度です。VRAMが少ない場合は、-e 1オプションを付与してCPUで実行してください。

$ python3 grounded_sam.py -i demo.jpg --caption "The running dog."

Grounded SAMの実行にはBERT Tokenizerのためにailia_tokenizerが必要です。下記のコマンドでインストールしてください。

pip3 install ailia_tokenizer

ax株式会社はAIを実用化する会社として、クロスプラットフォームでGPUを使用した高速な推論を行うことができるailia SDKを開発しています。ax株式会社ではコンサルティングからモデル作成、SDKの提供、AIを利用したアプリ・システム開発、サポートまで、 AIに関するトータルソリューションを提供していますのでお気軽にお問い合わせください。

--

--

Kazuki Kyakuno
axinc
Editor for

CTO — ax Inc. , Managing Director — AXELL