データ分析サンプル:水質年報を用いた河川水質の分析例

この記事は,インフラデータチャレンジ(IDC2018)における作品応募に向けた 提供データの特徴や活用方法のヒントについて,実行委員等がリレー形式で紹介 するものです.募集要項等は,Webサイトをご覧ください
http://jsce-idc.jp/

今回は、データ分析用ツールの紹介も兼ねて、簡単な分析を試してみたいと思います。

  1. 分析素材:
    インフラデータチャレンジの提供データ|水道 | 東京都水道局|水質年報 を対象としています
  2. 分析ツール:
    Microsoft PowerBI を用いることにします
1. PowerBI Desktop インストーラーのダウンロード
※ 上記リンクよりインストーラーを入手します(対応OS:Windows7 以上)
2. Microsoft Power BI のガイド付き学習
※インストールが完了したら、まずは上記学習ガイドの「作業の開始」セクションを参照し、PowerBI の概要を確認してみてください
3. 【PowerBIメモ】初心者が見るべき情報まとめ
※こちらの記事には、チュートリアルやサンプルなどPowerBIの情報がまとまっています

水質年報とは、東京都水道局が「水質検査計画」に基づいて行った検査結果を収録したもので、東京都水道局のWebサイトで全文を読むことができます。なお、「水質検査計画」については、東京都水道局のWebサイトでは下記のように説明されています。

水道局が、水道の水質検査についてお客さまにわかりやすくご説明するために、水質検査の項目、地点、頻度などを示した計画のことです。
 水道局では、この計画に沿って水質検査を行い、その結果を公表することにより、水道水が安全であることをお客さまにお知らせしていきます。
出典:東京都水道局「水質検査計画」より

今回の分析では、水質年報 第3章「水源の水質」に収録されている、水源水質調査(河川)を対象としてみたいと思います。
具体的には、インフラデータチャレンジ提供データ|東京都水道局|水質年報 に掲載されている、「表III.2(1)-利根川上流・荒川水系調査結果1~3」と「表III.2(2)-利根川下流・江戸川水系調査結果2~3」の CSVデータになります。

まずは、Excel で分析素材であるCSVファイルの「整形」を行います。以下にその手順と内容を列挙します。

  1. CSV列の縦横を入れ替えます
    (先頭列に調査地点、以降の各列に各指標が並ぶようにします)
  2. 地点名の末尾に記載の「最高|最低|平均」を別カラムに切り出します
  3. 地図上にプロットするため、調査地点の「橋」や「取水口」の所在地を調べ、地理院地図で緯度経度座標を取得し、追加列に入力します
    ※なお、調査地点の所在地は、水質年報 第3章「水源の水質」収録の 「図III.1 水源水質調査地点全体図」にて確認できます
  4. 5つのCSVファイルに対して上記1.~3.の作業を行い、最後に上流のCSVファイルから順番にマージして、ひとつのExcelファイルに集約します

準備工程は以上となりますので、続いて PowerBI Desktop を用いて分析/可視化作業を行ってゆきます(注:PowerBIの操作方法は下記工程毎のリンク先を参照してください)。

  1. データを取得(Excelファイルをインポートします)
  2. データビューでインポート結果を確認(インポートしたデータの型が正しく設定されているか確認します)
  3. 視覚エフェクトの作成(今回のサンプルでは、集合縦棒グラフ|マップ|スライサーの三種類を使用しています)
PowerBIでの「マップ」作成方法の詳細については下記を参照してください
Power BI マップの視覚エフェクトに関するヒントとテクニック
Power BI勉強会 #6 Power BI で地理的分析どこまでできる?
PowerBI Desktopで作成したレポートをWebに公開することもできます(※手順の詳細は下記のリンクを参照してください)
Power BI Desktop からPowerBIサービスへのレポート発行
PowerBIサービスから Web に公開

さて、それでは作成した分析サンプルを確認してみましょう(サンプルを app.powerbi.com で開く)。

図1:グラフの拡大表示app.powerbi.com

画面右下の棒グラフでは、有機物による水質汚濁を示す代表的な指標であるBOD(生物化学的酸素要求量)の値を表示しています。
グラフの中央付近を見ると、特にBODの値が高い地点「入間川上江橋」があります。こちらは平均値でみると、水域類型B/水道3級相当の [3mg/L] 未満なのですが、区分(スライサー)を最高値に切り替えると、[3mg/L]を超えた観測値が表示されます(図1)。

ここで、例えば「入間川 水質 BOD」などでキーワード検索を行って、このような数値が生じている背景を調査する、さらには「主要支流の水質調査データ」などの関連データをPowerBIに追加インポートして、分析範囲を広げてみるのもよいでしょう。

或いは、別途GISツールを用いて、国土数値情報|上水道関連施設データ(給水区域と浄水場のGISデータ)上に、当該の水質データを重畳し、分析してみるのもよいでしょう。

水道水源である河川の水質について、このように「流域」視点で分析し、その影響範囲や課題などを考えてみることで、新たな気付きが得られるかもしれません。

BODなどの水質指標や基準値については、下記の参考資料2.「各種基準値(指針値)一覧」などを参照してください
国土交通省「平成29年全国一級河川の水質現況(平成30年7月6日発表)」

インフラデータチャレンジでは、このような「データの可視化・分析レポート」についても「データ作品」として応募することが可能です。

詳しくは「土木学会インフラデータチャレンジ応募要領」をご確認ください。

使用データ
インフラデータチャレンジ|【提供:東京都水道局】水質年報
使用ツール
・Microsoft(R) PowerBI バージョン: 2.61.5192.601
・Microsoft(R) Excel(R) 2016

( 土木学会土木情報学委員会・インフラオープンデータ・ビックデータ研究小委員会:高橋陽一)