CMU Heinz Capstone プロジェクト — 車両テレマティクス データを使用した交通フロー推定

Ryan Lingo
99P Labs: 日本語バージョン
23 min readOct 20, 2023

作者: Chia En Lee (Natalie), George Saito, Chuchu Wu, Joey Wang, Wei Xiao, Xi Yan, Jingbo Zhang

序章

「ビジョン・ゼロ」は、1990年代にスウェーデンで初めて実施された交通安全プロジェクトで、衝突や交通事故によって誰も死亡したり重傷を負ったりしない交通システムを構築する目標があります。 その背景には、交通事故はむしろ人為的ミスによるもので、テクノロジーの進歩により設計される安全な道路・車両・交通システムから事故は防止できるという考えがあります。人命が何よりも大切であり、すべての道路利用者の安全と健康を優先する交通システムを構築するのが設計者と政策立案者の責任であるという原則に基づいています (Matts-Åke Belin、2011) )。

この特別なプロジェクトは、オハイオ州コロンバスにおいて、リアルタイムの交通密度、フロー、交通量の予測に車両テレマティックデータが活用できるかどうか探ることです。99P Labが提供する車両テレマティクス データを使用した交通フロー推定で、一般道路や高速道路上の車両の動きに関する貴重な情報が得られ、推定の結果を視覚化することで、AI技術の改善や現在の交通システムの安全性を向上させるための意思決定戦略の開発に使用可能かもしれない道路セグメントレベルの交通パターンの理解を得られます。

[1] Belin, M.-Å.、Tillgren, P.、Vedung, E. (2012)。 Vision Zero — 交通安全政策の革新。 _傷害管理と安全推進の国際ジャーナル_、_19_(2)、171–179。 https://doi.org/10.1080/17457300.2011.635213

## 価値への影響

衝突や事故のリスクを軽減するこのようなAIテクノロジーの開発の価値は当然大きくなります。海外旅行安全協会の統計によると、毎年約135万人が交通事故で死亡しており、毎日平均約3,700人が命を落としています (海外旅行安全協会、2022 年)。この開発が成功すれば、2050年に「ビジョン ゼロ」を達成し、毎日3,700人の命を救うことができるのです。

交通量のカウントは、地方自治体や中央政府のモビリティ、インフラストラクチャ、税制の決定に不可欠であり、現行をより深く理解し将来に備えるためにも利用されます。

米国では、高速道路パフォーマンス監視システム (HPMS-各州が連邦道路管理局に提出する全国報告書) に報告するため、地方自治体からの交通データが必要です。交通量データは、高速道路の再舗装や改良など、道路のメンテナンスに焦点を当てて使用されますが、データ収集場所は全米で約500ヶ所しかありません (Otonomo、2022)。

車両テレマティクスを使用して交通量と交通フローが推定できれば、意思決定と費用対効果をサポートするためのデータがさらに多く得られます。

[2] 交通安全に関する事実。 (未確認)。 _国際道路旅行安全協会_。 2022 年 12 月 10 日取得、https://www.asirt.org/safe-travel/road-safety-facts/ より)

[3]_トラフィック数は実際にどのように測定されますか?_ (2022 年 1 月 11 日)。オトノモ。 https://otonomo.io/blog/traffic-count/

プロジェクト チームと目的

このチームは、ソフトウェアエンジニアリング、Web開発、データエンジニアリング、機械学習、地理空間データ分析、視覚化など、他分野にまたがるソフトウェアエンジニアリングや研究をする学生の集まりで、カーネギー メロン大学のハインツ カレッジを近々卒業する予定です。このプロジェクトの目的は:

GIS データを車両テレマティックデータとマッピングし、関連する社会経済(国勢調査局)データを実装し、それをプローブ車両の軌跡データと組み合わせて、交通量をより正確に予測するようにモデルをトレーニングする方法を学ぶことです。

ソリューション: マップマッチング、機械学習、ダッシュボードの視覚化

このプロジェクトでは、アプローチと実装を3段階ステップのプロセスに分割します。

  1. まず、テレマティックデータの前処理を行います。次に、GPSポイント(クライアント99P LABによって提供される) をマップにスナップし、高度な高速マップマッチングアルゴリズムを使用して、最も可能性の高い軌跡を予測します。
  2. 次に、道路の特性と社会経済的要因を使用して交通フローを推定する機械学習モデルを作成します。
  3. そして、その結果はインタラクティブなWebダッシュボードの視覚化で表示され、各道路セグメントの予測が把握可能となります。ここでは、テレマティクスデータを使用して交通流のタイムリーな推定を提供できる可能性があることを示しています。

プロジェクトタイムライン

フェーズ1: 文献レビュー

フェーズ1 はプロジェクト(マップマッチング、機械学習、ダッシュボード開発)を完了するために必要なステップは何かを見つけた後から始まっていて、このプロジェクトの実際の始まりです。この段階では、トピックに関する文献の高レベルのレビューに重点を置いています。この調査で、概念と方法論への理解が深まり、次のフェーズでの開発と実装への道が開かれました。

フェーズ2: 3段階開発と実装

マップマッチング、機械学習、ダッシュボード開発では方法論と重点技術が本質的に異なるため、このステップのプロジェクトチームを3 つのグループに分けています。メンバーそれぞれの専門分野を各タスクの開発と展開に活用し、プロジェクトアドバイザーとクライアントと密に相談して目標を調整します。

フェーズ3: 成果物

最後のステップでは、各グループが使用する方法論に関する詳細な文書を作成して作業を締めくくります(以下参照)。プロジェクトの最終プレゼンテーションが実施され、成果物としてコードとドキュメントとともにプロジェクトレポートが提出されました。

文献展望

マップ マッチング アルゴリズム

まず伝えなければならないのは、車両の軌跡と必要な GISデータを道路セグメントにマッピングする方法です。マップマッチングアルゴリズムは、99P Labプロジェクトに不可欠な部分です。多くのマップマッチングアルゴリズムが利用可能ですが、どれがこのプロジェクトに最も適しているかは依然として分かりません。この文献レビューでは、以前の学術論文やレポートから、さまざまな種類のマップマッチングアルゴリズムとその長所と短所を要約します。

Mohammed A. Quddus らによると、 (Mohammed A. Quddus、Washington Y. Ochieng、Robert B. Noland、2007) 、リンクの接続や交差点ではなくリンクの形のみを含むことが特徴である幾何学的解析ベースのマップマッチングアルゴリズムカテゴリは主に4つあります。この種のアルゴリズムの利点は実装が迅速かつ簡単であることですが、欠点は収集されたデータ内のデータポイントの数と道路密度に影響されやすいことです。幾何学的なアプローチに基づいてみると、利点としてはトポロジカルなアプローチはリンクの接続性と連続性を追加しますが、逆に外れ値により車両の進行方向の計算が不正確になったり、接続する道路の相違により交差点でのパフォーマンスが低下する可能性があります。3 つ目は、信頼領域と誤差領域があり最初の 2 つのカテゴリが持つ多くの問題を解決する反面理解がとても難しい、確率と統計によって開発された確率的アルゴリズムであることです。高度なマップマッチングアルゴリズムは、上記の3種類のアルゴリズムを統合し、さまざまな研究者によって提案され、さまざまな目的のために開発された多くのサブカテゴリを持つ他のアルゴリズムが持つ欠点を排除しました。 (モハメッド・A・クドゥス、ワシントン・Y・オチエン、ロバート・B・ノーランド、2007年)。マップ マッチング アルゴリズムの 4 つのグループの詳細な概要と、そのサブカテゴリの長所と短所を図 2 に示します。

Liang Liらの研究は、非ガウス分布とシグマインフレーションアルゴリズムを使用して、可変誤報率 (VFAR) で障害検出パフォーマンスを向上させることで、従来の RAIM モデルが抱える完全性の問題を取り除いた強化されたRAIMモデルを開発し、後の段階での99P Labプロジェクトの基準チェックにさらに多くの影響を及ぼします。(Liang Li、Mohammed Quddus、Lin Zhao、2013 年) 。

Ron Dalumpines と Darren M. Scott の論文は、後処理マップマッチングGISプラットフォームを導入し、Pythonプログラミング言語を使用してアルゴリズムを実装するための5段階ステップを詳しく説明し、実際のモデル構築とPythonスクリプト プログラミングに有効です(Ron Dalumpines、Darren M. Scott、2011)。論文に基づいて作成されまとめられた5段階ステップのフローチャートを図 3 に示します。

Wonhee ChoとEunmiの研究はNoSQLのHBaseとHadoopに基づいていますが、彼らが言及したアルゴリズムは、Fréchet distanceやthe Hidden Markov Model (HMM)を使用した点対曲線ベースのグローバル手法**など**、99P Lab プロジェクトに非常に役立ちます。(Wonhee Choi、Eunmi Choi、2017)**.**

この99P Labプロジェクトで、どのマップマッチングアルゴリズムを使用するかの決定は、センサーから収集されたデータ、空間データの品質、使用される技術、検証の考慮事項、完全性、実装の実現可能性などに左右されるかもしれません。

**_図 2._** _さまざまなマップ マッチング アルゴリズムの長所と短所_
**_図 3._** _Ron Dalumpines と Darren M. Scott のGISマップマッチングアルゴリズムを実装する5段階ステップ(Ron Dalumpines、Darren M. Scott、2011)_

\[4\] モハメッド・A・クドゥス、ワシントン・Y・オチエン、ロバート・B・ノーランド(2007)。交通アプリケーション向けの現在のマップマッチングアルゴリズム: 最先端および将来の研究の方向性。交通研究パートC、312 ~ 328。

\[5\] チョ・ウォニ、チェ・ウンミ(2017年)。マップマッチングシステムによる空間ビッグデータ解析の基盤。クラスターコンピューティング 20、2177 ~ 2192。

\[6\] ロン・ダルピンズ、ダレン・M・スコット(2011年)。 GIS ベースのマップ マッチング: 交通研究のための後処理マップマッチングアルゴリズムの開発と実証。 S. R. Geertman、変化する世界のための地理情報科学の推進 (pp. 101–119)。ベルリン、ハイデルベルク:シュプリンガー。

\[7\] リャン・リー、モハメッド・クドゥス、リン・チャオ(2013年)。マップマッチングのための高精度の密結合整合性監視アルゴリズム。交通研究パート C、13 ~ 26。

機械学習

機械学習の方法論には様々なアプローチがあり、長所と短所をそれぞれ下に示します。

_図 4._ _機械学習の文献レビュー_

数式ベースのアプローチ

  • 例: AADT = 短期カウントステーションからの 24 時間交通量カウント \* 調整係数
  • 日次調整機能、月次調整機能、季節調整機能
  • 欠点: 短期間のカウント場所がある道路セグメントでのみ使用可能。

車道の特性と社会経済的要因を利用した線形回帰

  • 例:モデル (R2 = 0.82): AADT = -5625 + 8493 FCLASS (集合道路、小幹線、主要幹線などの機能分類 + 219 LANE (道路セグメントの車線数) — 1.16 POPBUFF (人口)-0.58 NONRETAILEMBUFF (その他すべての雇用) )+ 11.55 RETAILEMBFF (小売業の雇用)
  • 利点: 目的の道路で AADT を正確に推定できる
  • 欠点: 国勢調査データ:5年ごとにのみ更新。他の種類のデータ:収集に時間がかかる可能性
  • 田舎の道路:主なコンポネント分析/クラスタリング + 退化
_図 5._ _線形回帰の社会経済的要因_

ニューラルネットワーク

  • 利点: ATR をグループ化する必要なし
  • 欠点: 人工ニューラルネットワークモデルは低精度、複雑すぎて解釈不可能、またはブラックボックスで
_表 1._ _変数、解釈、およびデータソース_

データソース

データ処理は、テレマティックデータを、後の段階でのマップマッチングアルゴリズムの展開に適したデータ型に変換するために必要なプロセスです。テレマティックデータは、99P LabsのDeveloper Advocateから提供される電子メール経由でダウンロードされます。

ホストデータ、rvbsmデータ、spatデータ、および注釈付きのスキーマファイルがフォルダに存在します。スキーマファイルから、ホストデータには車両のテレマティックデータが 0.5 秒単位で送られていることがわかります。これは、有効なテレマティックデバイスが 0.5 秒ごとに、次の機能を含む重要な車両情報を記録していることを意味します。

_表 2._ _ホスト データの重要な機能_

方法論

マップマッチング手法

高速マップマッチングアルゴリズム(FMM)が、Githubノイズの多いGPS座標データを道路ネットワーク(Cyang-Kth)に照合する問題を解決することを目的として、Github([https://github.com/cyang-kth/fmm](https://github.com/cyang-kth/fmm))に投稿されているオープンソースのマップマッチングフレームワークです。C++実装により高いパフォーマンスが保証され、Python APIを採用しているため使いやすく、簡単にスケールアップできる可能性があり、複数の形式のデータを含める適応性を持ち、へクサゴンマッチングの高精度等、多用途です。

このマップマッチングアルゴリズムを特定のケースに適したものにするため、いくつかの変更を主にシェープファイルに加えました。

  1. 利用可能なシェープファイル形式は、アルゴリズムのデモで提供されるシェープファイル形式と同じではありません。GPS座標の単位が異なるので、シェープファイル内のGPS座標単位に対応するようにマップ単位を変換しました。
  2. 新しい属性 (LinkID) を生成し、軌跡データセットに追加しました。

マップマッチングワークフローには次のものが含まれます。

  1. GPSデータをロード
  2. ネットワークとグラフをロード
  3. UBODTを計算。UBODTは高速マップマッチング事前計算の結果で、高速マップマッチングアルゴリズムが軌跡を予測する場合に有効。ノードを指定すると、UBODTは特定の距離 (300 メートル) 以内にあるすべてのノードを保存し、これにより予測の実行速度が向上。
  4. 高速マップマッチングモデルの構成 (入力、出力)

マップマッチングが完了したら、スナップしたデータを出力し、機械学習部分に渡す必要があります。入出力の例を以下に示します。

_図 6._ _マップマッチングの入力と出力_

\[8\] Cyang-Kth(未確認)。 _Cyang-KTH/FMM: 高速マップ マッチング、C++ のオープンソース フレームワーク。 GitHub。 2022 年 12 月 11 日、[https://github.com/cyang-kth/fmm](https://github.com/cyang-kth/fmm) より取得

マップマッチングの制限事項

  1. 軌跡予測は入力ネットワーク、つまり事前計算の結果に依存します。ネットワークが更新された場合すべての軌跡を再予測する必要がありますが、これには時間がかかり計算コストもかかります。
  2. GPS座標は高度を反映できないため、予測軌道が不正確になる可能性があります。

マップマッチングの改善の可能性

  1. 精度を高めるためにパラメータを調整
  2. 他のマップマッチングアルゴリズムを試し、より良い解決策を探す

機械学習の方法論

データソースと処理

ダッシュボード全体のビジュアライゼーションは、カーネギーメロン大学のモビリティデータ分析センター(MAC)と、米国国勢調査局から収集された国勢調査データと99P Labからのテレマティクス データのマッピングによって提供されたシミュレーションデータを使用して作成されました。このシミュレーションは、コロンバスの交通ネットワークの平均的な1日を概算していて、午前5時から午前11時まで一定の間隔で推定され、乗用車とトラックの流入、移動時間、フリーフローの移動時間、速度、公共交通機関の乗客流入などのベースライン指標が含まれます。

_図 6._ _機械学習データソース_

マッピング

次のグラフに示すプロセスでデータをマッピングします。

_図 7._ _機械学習データのマッチングスキーマ_

機械学習パイプライン

機械学習パイプラインのために実行する手順は次のとおりです。

まず、すべてのアクセス可能な機能が説明変数として導入されます。次に、データセット全体がトレーニングデータセット(80%)とテストデータセット(20%)に分割されます。

現在、MSEを最も低く抑えることができるモデルの探索を開始しています。リッジ回帰を最初に試しましたが、ペナルティ項はハイパーパラメータであるため、最初に多数のポテンシャル値を与えました。ペナルティ条件をより即座に選択できるように、結果も視覚化しました。

_図 7._ _リッジ回帰結果_

上のグラフから、最良のアルファは10^-2から1⁰²の間であると自信を持って結論付けることができます。左側のグラフでは、アルファが大きすぎるためすべての係数が0になることは望ましくない結果となり、右側のグラフでは、10^-2と1⁰²の間で最も誤差が少なくなりました。

これで、潜在的なアルファとの相互検証をリッジ回帰に入力し、関連する値を出力できるようになりました。

_図 8._ _RidgeCV トレーニングと結果_

Lassoモデルも試し、Ridgeと同じプロセスを経ました。このレポートを簡潔にするため、重複する部分は省略しています。以下は、Lassoモデルに基づく視覚化と、相互検証を使用したRidge回帰の結果です。

_図 9._ _LASSO 回帰結果_
_図 10._ _LASSO ペナルティ期間の結果_

4 番目に、テストデータセットを通じて最適なRidgeモデルと最適なLassoモデルをテストしました。

_図 8._ _両方のモデルのMSEをテスト_

テストMSE に基づいて、RidgeはLassoよりわずかに優れていると結論付けることができます。さらに、一部の変数は係数が0であるため、カウントの予測に役に立たないことがわかりました。そのため、これら4つの変数を削除し、変数を更新しました。

カウント予測

方程式

時間に関係のないパラメータ

車線数、エリアの種類、道幅、右折車線などの時間に関係のない変数については、過去の道路データを参照します。リンクはブロック情報に簡単に関連付けることもできるため、このステップには国勢調査データのマッピングを含めました。

時間関連のパラメータ

時間に関連する変数は2つだけです。そのうちの1つは、マップマッチンググループによって前処理されたカウントデータです。元のデータ形式は、時間とリンクIDを含むデータの行ごとのカウントでした。2番目の変数は時間です。半円のみ(朝のカウントのみ)を扱っているため、時の正弦を12で割った循環回帰を採用しました。

_図 9._ _時間変数循環関数_

予測

以前の機械学習モデルからの係数結果を採用し、それを時間に関係のない変数と時間に関係する変数の両方に適用し、予測カウントを生成します。

機械学習の制限

限定エリア

このモデルは、モビリティデータ分析センター(MAC)と国勢調査データより提供される実数データに基づいて構築されました。コロンバスからのこれらのデータを使用すると、交通フローと関連する道路データの関係を一目で把握できます。ただし、調査対象地域が限られているため、他の都市に適応するにはさらに多くの情報とトレーニングデータが必要です。

国勢調査データレベル

モデリングをさらにサポートするために、国勢調査局から国勢調査データを収集しようと試みていますが、残念ながらこの計算に必要な地理データの一部はまばらです。収入の中央値データは、必要な地域レベルである国勢調査ブロックグループでは利用できず、国勢調査区レベルでダウンロードする必要がありました。互換性と使いやすさを考慮して、すべての国勢調査データに Tractレベルを採用しました。

スケーラビリティ

最も時間のかかる部分の1つはデータの前処理です。リソースに関しては、必要なデータが複数のソースに分散しているため、手作業での収集と検証が必要です。技術的には、道路データと国勢調査データは同じ地理的識別子を共有していないため、現時点ではそれらを簡単にテーブル結合できず、QGISの「位置による属性の結合」機能を通じてこれら2つのデータをマッピングしています。この操作はこのプロジェクトで実行できますが、複数の場所と複数のバージョンがある場合は理想的ではありません。エラーを最小限にするために、道路データの形式にも厳密に従う必要があります。

機械学習による改善の可能性

  1. 公開データの取得を自動化する
  2. 道路データのソースと形式を統合する
  3. 道路データシミュレーションを実装し、利便性を拡大
  4. 道路データと交通量の両方の観点から観測エリアを拡大する

ダッシュボードの方法論

機械学習セクションから出力データを取得した後、昨年の99P Labチームが構築したダッシュボードをベースにして、交通流予測結果を視覚化するダッシュボードを開発しました。

ダッシュボードはDjangoプロジェクトであり、バックエンドにはDjango+Python、フロントエンドにはブートストラップ+JavaScript+HTML+CSS+Mapbox が含まれています。

トラフィックダッシュボードの主な部分は次のとおりです。

  1. 交通フローの可視化ページ。ユーザーが期間を選択すると、このページには選択した期間内のトラフィックフローが表示されます。
  2. 交通軌跡の視覚化ページ。ユーザーが指定した選択期間内で、1 つのリンクをクリックすると、このページにはリンクの軌跡が表示されます。
  3. 以前の持続可能性ダッシュボードを現在の交通フロー推定Webアプリケーションに統合しました。
_図 10(a)._ _特定のリンクを通過する午後12時の軌跡を表示するダッシュボード_
_図 10(b)._ _リンクのトラフィックフローを表示するダッシュボード_

Django Webアプリケーションの起動手順

マップボックス実装の詳細

データセットと形式の選択

  • データ ファイルはMapboxではタイルセットと呼ばれます
  • データ形式:すべてのフィーチャとジオメトリデータを含むCSVかgeojson
  • < 300M: CSVをMapbox Studioにアップロード
  • \> 300Mタイルセット用のMapbox CLI APIによるgeojsonをプッシュ
_図 11._ _Mapbox Studio のタイルセット_

タイルセットの表示設定

  • レシピでマップの中心とズームレベルを設定
_図 12._ _Mapbox のタイルセットレシピ_

フロントエンド構造

_JS 部分:_

  • マップボックスのインポート
  • ロードマップ
  • データソースを含むレイヤーを追加
  • 時間フィルタリングのスライダーを設定
  • 特定のリンクをクリックした場合のフィルタリングを設定

_HTML 部分:_

  • マップを設定
  • 凡例の設定
  • スライダーの設定

Web ダッシュボードの改善の可能性

より大きなデータセットと統合し、APIツールを使用したMapbox Visualizationと対話するバックエンドデータベースを開発します。このようにして、交通フローと軌跡のすべての履歴データがいつでも取得できる方法で保存および管理されます。

推奨事項と結論

現在、プロジェクトの拠点はオハイオ州コロンバスですが、将来的には対象範囲を新しい地理的エリアやシナリオに拡大することを想定しています。データ収集とクリーニングのパイプラインを構築することで、機械学習をより効率的に実施し、モデルをより効果的に改良できます。このプロジェクトのために開発された視覚化フレームワークは、他の都市の現在のデータを表示するために簡単に作り直すことができます。さらに微調整を加えれば、政策介入シナリオとの比較を含めるようにツールを拡張できる可能性があります。

謝辞

このプロジェクトを通じてご指導とご支援を賜りましたSean Qian教授に感謝すると同時に。カーネギーメロン大学のスタン・コールドウェル氏とカレン・ライトマン氏にも感謝いたします。

--

--

Ryan Lingo
99P Labs: 日本語バージョン

🚀 Applied AI Engineer & Developer Advocate @99P Labs | Unraveling future technology & data science | Insights on #AI #LLMs #DataScience #FutureTech 🤖💻📊🌟