30分くらいでインフラデータチャレンジに応募するためのアイデアを見つけてみる
この記事は,インフラデータチャレンジ(IDC2018)における作品応募に向けた 提供データの特徴や活用方法のヒントについて,実行委員等がリレー形式で紹介 するものです.募集要項等は,Webサイトをご覧ください
http://jsce-idc.jp/
[New!] 作品概要の登録が、2019年1月19日まで延長されました!12月中にお申込みできなかった方もぜひお申込みください。
インフラデータチャレンジの作品概要登録締切が近づいてきました。登録フォームによると、まず大事そうなのは「作品概要」の部分で、100文字程度で内容を説明しなくてはなりません。
とりあえずデータのファイル名一覧を眺めて、いきなりフォームに記入する勇気もわたしは好きですが、なかなかむつかしいものです。
そこで本稿ではデータ加工と可視化からアイデアの種をみつけるアプローチを示してみましょう。
※もちろん課題のロジックを考える際には、疑問や明らかにしたいことをスタートに始めるのがセオリーですが、なかなか正面突破も難しい場合はまずこのような状況把握につとめてみるのもよいかもしれません。
たとえば、今回のインフラデータチャレンジで利用できるG空間センター内の土木学会内のデータセットをみてみると港湾関係統計データセットというものがあります。
港湾といっても言葉がおおきいため、すぐ具体的な思いつかないかもしれません。ここで、港湾のニュースをたどってみると、2018年9月の台風21号の影響により、神戸港や大阪港では甚大な被害がおき、コンテナが流されるなどしてその復旧のために43 億円も計上された…といった話題が出てきます。
このようなリスクや対応シナリオからアイデアをスタートしてみましょう。
では、そもそも日本の港湾ではどのくらいコンテナが取り扱われているのでしょうか。
データセットには、02_港湾数一覧、国際戦略港湾、国際拠点港湾及び重要港湾位置図という項目があり、おおこれでまずは概況把握…と開いてみると
パワーポイントファイルの位置図のみです。しかしこのままですと数値による色分けやその他の位置データと重ね合わせることが不可能です。このような図が公開されていることは大変ありがたいのですが、やはりちゃんとGISなどで図化してみる方向で探ってみます。
そうすると、データサイトには08_港湾別コンテナ取扱量(TEU)ランキング(2016年)というデータがあり、プレビューで見てみると
となっています。なんとか使えそうですね。でもヘッダがよくわからないので更に探すと、元データのwebページに、同じ内容のpdfがありまして、
この様になっているようです。
なるほど、ではこれをもとに前処理するか…と思っていましたら、センターのデータダウンロードで得られるエクセルファイルにはヘッダがついていました…。
※どうやら、データサイトのデータエクスプローラーでは表示されない項目もあるようなので、生のデータをダウンロードをしてチェックしてみることをおすすめします。
図化を行うためには、位置に関する情報が必要です。ここでいうとE列に該当するかとおもいますが、港湾名称のみで、緯度経度はありません。そのため、国土数値情報の港湾GISデータを持ってきましょう。
平成26年の港湾GISデータをDLしてきて解凍後QGISで表示すると、投影法の定義ファイルが同梱されていない(笑…よくあるこことです)ので、定義書を見ながらJGD2000として表示するとこのようになっています、どうやら使えそうです。
位置のデータが揃ったので、コンテナ取扱量のデータを整然データにクレンジングします。属性には” 東京【京浜】”といったデータがあったりして。ちょっと悲しい目をしたツライ作業になるので、そこは中略して、結果だけcsvはこちらに置いておきます(整然データ、大事ですね)
あと、データ型の指定のために、csvtファイルも作成します。ここでは文字が最初に4列、数値が5列ですので
“String”,”String”,”String”,”String”,”Integer”,”Integer”,”Integer”,”Integer”,”Integer”
と、テキストエディタなどに記入し、08_港湾別コンテナ取扱量(TEU)ランキング_2016年.csvt という名前で先程のcsvと同じフォルダに保存します。ファイルはこちらです。
QGIS上で「港湾名」をキーにとりあえずテーブル結合を行います。なお、属性の文字コードを一致させていないとうまく結合されないので注意です。また本来は”名称”など危なっかしいテキストデータで結合は避けて、港湾コードなどがあればいいのですが、今回は表データにそもそもコードがないのと、概要を見るゴールのためなので、そのままやっちゃいます。
また、テーブル結合したままだと取り扱いが煩雑になるため、一旦QGIS上でGeoJsonにエクスポートします。ファイルはこちらになります
このデータをもとに、取扱貨物量(個)をベースに見た目を調整するとこのような表現になります。なんかいい感じですね、やはり太平洋ベルト地帯は強いですね、社会の授業を思い出します。
ここでできたらまず一安心。そしていろいろなアイデアを得るためには、他のデータを持ってくると面白いかもしれません。たとえば、災害リスクについてちょっと考えてみたい場合は、気象庁が公開している台風の進路データcsvなどはどうでしょうか?
これをみると、2018年では取扱量の大きな関西圏に台風が直撃したことがわかり、深刻な打撃であったことが如実に示されていますね。
では、2017年の台風だとどうだった?過去20年はどんなかんじ?これからはどうなる?地震や津波では?…なんてことも気になってくるでしょう(ちょっとおめかしした画像は記事冒頭のヘッダ画像になります。)
いきなり数値データの羅列からアイデアを絞ることはちょっとむづかしいものです。
なにか気になる話題や観点からこのような図面をおこしてみたりして、その他の分野のデータとかけ合わせてみると、次のステップがみつかり、課題解決へのアイデアが芽吹くきっかけになると思います。
インフラデータチャレンジの応募はこちらからどうぞ、あなたのチャレンジをお待ちしてます。
( 株式会社MIERUNE/一般社団法人CODE for Japan :古川泰人)