お産合宿2024で発表した「マルチモーダル入力とOptical Flowによるリアルタイムスポーツ実況システム SportsVision」の開発レポート

Takuya Ichise
TAKUYA ICHISE
Published in
Jun 3, 2024

2024年5月30日から2日間、GMOペパボ恒例のお産合宿に参加しました。今年のテーマは「動画配信カルチャーにフィットしたアプローチをアウトプットする」でした。私はこのテーマに基づき、スポーツ実況を効率化し、魅力的な動画コンテンツを提供するツール「SportsVision」を開発しました。

お産合宿 2024とは

GMOペパボのお産合宿は、社員が新しい技術やアイデアを試す場として毎年開催されています。2024年のテーマは「動画配信カルチャーにフィットしたアプローチをアウトプットする」でした。このイベントには、多くの社員が参加し、各チームがテーマに基づいたアウトプットを行いました。

作ったもの

私は「マルチモーダル入力とOptical Flowによるリアルタイムスポーツ実況システム SportsVision」を作りました。これは、AIを活用してスポーツ実況を自動化し、視覚的な効果を追加するツールです。このツールは、スポーツ動画をキャプチャし、AIによる実況とOptical Flowによる移動検知を組み合わせることで、リアルタイムの実況を提供します。

技術解説

「SportsVision」は、AIによる実況生成と移動検知技術を組み合わせたツールです。まず、カメラで取得した映像を基に、事前に設定されたプロンプトやAIを用いて実況を作成します。この際、GPT-4oのマルチモーダル入力を利用し、画像とテキストを組み合わせて高品質な実況を生成しました。

次に、Optical Flow技術を用いて撮影対象の移動量を検出しました。移動が急増する瞬間を捉え、そのタイミングで実況頻度を高めることで、よりダイナミックでリアルタイムな実況を可能にしました。

SportsVisionの処理の流れ

技術スタックとしては、GPT-4oのマルチモーダル入力を利用して画像とテキストを組み合わせた実況生成を行い、Optical Flowを用いて物体の移動を検知し、実況タイミングを調整しました。さらに、AVSpeechSynthesizerを利用して、生成されたテキストを音声で読み上げることで、リアルタイムの音声実況を提供しました。

開発の流れとしては、まずスポーツ動画を撮影するビデオカメラアプリを実装し、動画を一定間隔でキャプチャして画像データとして処理しました。次に、Optical Flow技術を用いて物体の移動量を計測し、急増する瞬間を検知して、一定間隔以外でもキャプチャを行うようにしました。その後、GPT-4oのマルチモーダル入力を用いて取得した画像とプロンプトを送信し、実況テキストを生成しました。最後に、AVSpeechSynthesizerを利用して実況テキストを音声で読み上げました。

作ってどうだったか

今回の開発では、GPT-4oのマルチモーダル入力が非常に有効であることを確認することができました。特に、画像をリサイズ・圧縮することで、テキスト入力と比較してもレスポンスが良好である点が印象的でした。また、Optical Flowを用いた移動検知は、スポーツのリアルタイム実況において非常に効果的でした。

一方で、現状は通信環境に依存するので、ネットワークが不安定な環境でも使用できるよう、ローカルのLLMの活用も検討する必要があると感じました。

まとめ

「SportsVision」は、スポーツ実況の効率化と魅力の向上を目指したツールであり、今回の合宿でその可能性を大いに感じることができました。

今後の展開

今後の展開としては、MLを用いたスポーツ実況体験の強化が挙げられます。CoreMLを活用してシーンの判断やプレイヤーの動きを分析し、より高度なプロンプト生成を実現することが可能です。また、効果的なディレイ機能の追加により、動画配信をワンテンポ遅らせてシチュエーションに同期した実況を実現することも考えられます。さらに、スポーツ以外の分野への応用も視野に入れており、オフラインイベントや商品説明など、他の分野でも「SportsVision」の技術を活用できると考えています。

参考文献

--

--

Takuya Ichise
TAKUYA ICHISE

🗻Engineer, Maker 🎥http://youtube.com/@tichise