CDP: Unlocking Climate Solutions に挑戦するPart1
Kaggleで開催されているCDP: Unlocking Climate Solutionsへ挑戦します。とはいえ私はKaggleのコンペにチャレンジするのは初めてなので、トップNに入ってやろうというより以下3点に注力したいと思います。
- 「CDP」というデータを理解する
- 「CDP」の形式に適した前処理/可視化/データ加工方法の習得
- なにはともあれ一定の書式でちゃんと提出する
Part1では、CDPというデータの理解をまず行いたいと思います。業務上ある程度内容をしっているのですが、たぶん全然知らない人がほとんどだと思います。そのため、紹介も兼ねながらまとめていきたいと思います。なお、コンペティションのページは以下になります。
CDPには都市と企業の回答がありますが、ここでは企業を扱います(職業上)。見たところ都市の測定を期待されている印象ですがそもそもTopNに入ることが目的ではないので華麗にスルーします。
CDPについて
CDPはCarbon Disclosure Projectの略称です。各都市や企業に対し、環境影響に対し開示をおこなうよう要請しそのデータを収集しているNPOです。CDPは世界50カ国に何がしかの形で拠点があり、日本にもあります。
開示とは具体的にはアンケートで、質問の項目は、気候変動・水資源・森林資源の3つにフォーカスされています。8,400企業、800以上の都市が回答しており、アンケートの規模としてはかなり多きいです。CDPへの回答が投資からチェックされることもあり、企業側としては投資家に対する説明責任の履行という側面もあります。
CDPのデータについて
Kaggleのコンペティションでは以下3つのデータが提供されています。
- Disclosing: 回答した企業のメタデータ(Tickerや業種など)
- Questionaries: 質問内容
- Responses: 回答内容
Responsesについては、どうやら表形式の回答になっています。「あなたは真面目に気候変動リスクに取り組んでいますか?」という質問があったらその下に「いつから」「どういう目的で」「どういう活動をやっている」みたいな表があって、そこに行を追加して回答するみたいな感じです。列形式は様々なので、質問を絞らないと回答を取るのが難しいです(しれっと書いていますが、これを解き明かすのにそこそこ時間かかりました)。
会社側のデータについて、回答データの全量と回答状況を分析しました。以下にKernelを公開しているので参考にしてみてください。
企業分析に興味がある方は、ぜひ参加してみてください!