Exploratory 2020年を振り返って

Kan Nishida
未来の仕事
Published in
25 min readJan 2, 2021

--

今年はほんとにいろんなことがありました。

コロナウイルス(SARS_COVID-2 / COVID-19)は世界中に大混乱をもたらし、その直接または間接的な影響によって人生が大きく変わってしまったり、価値観が大きく変わってしまったりした方は多かったのではないでしょうか。

私の住んでいるアメリカでは大統領選挙の年だっため、コロナの件が政治化してしまい、さらに夏以降各地で頻発した暴動もあってとにかく混乱を極めた年でした。

特にコロナに関しては連日恐怖を煽るメディアとそれを文字通りに受け止めてしまう多くの人たち、そのことによりひき起こされる必要のない混乱や市民の間での分断が起きました。

その中で強く感じたのは、私たち市民がしっかりとしたデータリテラシーを持つことの重要さでした。

より多くの人たちがふだん目にするデータや数字に対して適度な疑問を持ち的確な質問をしていく力、仮説を立てることでただ単にバケツの水を浴びるかのように情報を受け入れるのではなく、必要な情報を能動的に探索し検証していく力、さらには自分たちで直接データを手にし、自分の持つ質問にデータを使って答えていくことで、人の解釈に頼ることなしに現実をより正確に捉えていく力を多くの人たちが持つことの重要さをこれまで以上に強く感じた年でした。

ところで、日本を始め世界中でコロナ騒動が本格化し始めた2月のころ、Exploratoryのチーム内でもこの先どうなるのだろうかと不安になるときがありました。その時にチーム内でたただ1つの重要な決定をしました。

それは、Exploratoryを進化し続けることに集中する、ということでした。

そのロジックは以下のようなものです。

  1. これからの数ヶ月(1年になるとはさすがにだれも予想していませんでしたが。。。)に渡って世の中の不確実性はかなり高くなる。
  2. それはExploratoryにとってももちろん同じことで、生き残れるかどうかはある意味運みたいなものである。
  3. あれこれ今後どうなるか推測しててもしょうがないので、自分たちにコントロールできるものと、コントロールできないものをまずははっきりさせるべき。
  4. 例えばウイルスがどう感染拡大するか、政府がどう対応するか、それによるビジネスはどう影響を受けるかなどといったことは不確実で、それは考えても話しても何かが変わるということではない。つまりコントロールできるものではない。
  5. 逆に、私たちが前進するために、自分たちの手でコントロールできることがあるのでそこにすべてのエネルギーと時間をフォーカスさせるべき。
  6. 私たちにとってコントロールできることとは、お客様の期待に答えること。これは必ずしも、お客様やユーザーから要望された機能を1つ1つ追加していくということではなく、むしろデータサイエンスを民主化するためにExploratoryを進化させていくことである。
  7. Exploratoryの進化とは、より多くの人たちがデータサイエンスが使えるようになるためにExploratoryデスクトップというツールとExploratoryクラウドというプラットフォームの進化であり、さらにデータサイエンスの知識と手法をより多くの人たちが習得できるようにデータサイエンスに関するトレーニングの進化である。

ここに焦点を合わせて、何があっても、脇目も振らずとにかく前に向かって進化し続けていこうと誓ったのが2月でした。

2020年を終えるにあたって、私たちExploratoryはこの2つの点でしっかり進化し続けることができたのではないかと思っています。せっかくの機会ですのでその進化を簡単に振り返ってみたいと思います。

まずは、Exploratoryデスクトップというツールの進化から。

Exploratoryデスクトップ

今年もテンポよくメジャー・バージョンを2ヶ月に1回のタイミングでリリースし続けることができました。さらにそのリリースの間に比較的小さな機能強化やバグの修正などの入ったパッチ・バージョンをタイミングよくリリースし続けることもできました。

こうした頻繁なリリースは、Exploratoryユーザーが増えるに連れ高まっていく機能強化への要求やクオリティに対する期待に答えるためでもありますが、同時に私たちの持つ仮説が正しいのかどうかの検証を速く行うためでもあります。

「データサイエンスの民主化」のためにこういった機能があれば多くの人が問題を簡単に解決できるのではないか、役に立つのではないか、理解しやすくなるのではないか、といった仮説を新機能、機能強化という形で表現し、それらがユーザーの方たちにどう受け入れられるのかをもとに検証していきます。

今年も、間違っていたこともありましたし、うまくいくこともありましたが、私たちにとって多くのことを学べた1年でした。

それでは、前置きが長くなりましたが、今年リリースしたたくさんの新機能の中で私個人が独断で選ぶトップ10を簡単に紹介したいと思います。順番は重要さとは関係ありません。

1. サマリビュー:相関・モード

これは6月にリリースしたv6.0の新機能ですが、データサイエンスの民主化を目指す私たちExploratoryにとっては重要な一歩となるものでした。

私たちは探索的データ分析(Exploratory Data Analysis)こそがデータ分析ではないかと思っていますが、そこで重要な質問の1つは「自分の興味の対象と相関している変数はどれか?」というものです。

そしてこの質問に素早く簡単に答えることができるのがこの「相関モード」です。

さらに、12月にリリースしたv6.3ではこの「相関モード」から様々なアナリティクスやチャートが簡単に作れるようになりました。

2. サマリビュー:ハイライト・モード

v6.0では上記の「相関モード」とともにこの「ハイライト・モード」も新機能として加わりました。

この「ハイライト・モード」を使うことで「自分の興味の対象のデータはそれぞれの変数とどういった関係を持っているのか?」という質問により直感的に答えていくことができるようになりました。

3. アナリティクスの文法

予測モデルを使うと変数間の関係性などをより深く理解することができるようになります。しかし、それぞれの違ったタイプの予測モデルはその性質上それぞれ違った情報をアウトプットとして出してきます。

特に統計学習モデルと機械学習モデルの間ではその違いが顕著なため、モデルからから得られる情報によって余計に混乱するところです。

そこでアナリティクスの文法を定義し、どんな予測モデルであっても以下の質問に答えるための同じアウトプットのフレームワークを用意しました。

  • 目的となる変数に対して、どの変数がより強い関係を持っているののか?
  • それはどういう関係なのか?

これによって、どの予測モデルであってもいつも以下のアウトプットを見ることができるようになりました。

  • 変数重要度
  • 予測 — 予測影響度
  • サマリー
  • 予測データ

変数重要度

予測影響度

さらに、もし予測モデルが統計学習モデルであれば「係数」というタブが、もし生存分析系であれば「生存曲線」というタブが追加としてつくという形です。

この統一したアウトプットのフォーマット、つまりアナリティクスの文法は実際に私たちがデータサイエンス・ブートキャンプ・トレーニングで教えるときにも以前に比べて遥かに教えやすくなりました。

以下が「アナリティクスの文法」を取り入れた予測モデルになります。

  • 線形回帰
  • ロジスティクス回帰
  • GLM (e.g. Poisson, Binomial, etc.)
  • 決定木
  • ランダムフォレスト
  • XGBoost
  • コックス回帰
  • ランダム・サバイバルフォレスト

4. 新しいアナリティクス・タイプ

多くのユーザーの方たちから要望をいただいていた機械学習系の予測モデルのXGBoost、時系列予測のARIMA、さらに機械学習の生存分析予測モデルであるランダム・サバイバルフォレストを新しくアナリティクス・ビューに追加しました。

XGBoost

ARIMA

ランダム・サバイバルフォレスト

5. 複数のY軸による繰り返しチャート

複数の指標がある場合それぞれを別のチャートにすることで、どのような関係があるのかを見たいということがよくあります。

このような場合、以前はデータラングリングして指標データを縦長データに変換する必要があったのですが、v6.3より単純に「Y軸の列ごと」を「繰り返し」で選ぶことで簡単にできるようになりました。

さらにそれぞれのチャートごとに「マーカー(バー、ライン、サークル)」を変えることもできます。

そしてさらに、それぞれのチャートごとに表計算のタイプも変えることができます。これによって、例えば、1つのチャートではある指標の実数を、もう1つのチャートでは同じ指数の割合を出すというようなことができるようになりました。

6. 地図ー標準

「標準」タイプの地図として以下のタイプが追加されました。

  • 世界の国
  • アメリカの州
  • アメリカの郡
  • 日本の都道府県

これによって、地域情報を持った列の割当が簡単になりました。

ファジーなマッピングをサポートしているので、例えばデータが「東京」であっても「東京都」であっても東京としてうまくマッピングされますし、さらに「US」、「United States」、「The United States of America」などであってもアメリカとしてマッピングされます。

さらにこの「標準」地図タイプではデータを領域(国、州、都道府県など)そのものに割り当てる色で表現する「エリア」とともに、データを色とサイズを使って表現する「サークル」というタイプも加わりました。

7. パラメーター

Exploratoryのパラメーターは私が勝手に「スーパー・パラメーター」と読んでいるくらいに機能的には優れたものですが、使いやすがよくありませんでした。

そこで今年はその使いやすさと、さらに機能の方もアップグレードしました。

UIのアップデート

まずは、パラメーターパネルのデザインのアップデートを行いました。これにともない、ドロップダウンリスト、スライダー、カレンダーピッカーなどもアップデートし、以前に比べてはるかに使いやすく、さらに見やすくなったと思います。

ダイナミック・パラメーター

ドロップダウンリストの値を使う時の最新の値をとってくるための「ダイナミック・パラメーター」のサポートが加わりました。

「クオートあり/なし」のサポート

このサポートにより、パラメーターの可能性が一気に広がりました。

以前は例えばSQLなどで使う場合、WHERE句などでしか使えなかったのが、クオートをオフに設定することで他のどこでも、例えばSELECT句、GROUP BY句などでも使えるようになりました。

つまり、パラメーターを使ってSQLを柔軟にダイナミックに構築することができるようになりました。

これで、多くの人がSQLを知らなくても、データベースからデータを柔軟な形で安全にとってこれるようになります。このことは、データの民主化には欠かせないものだと思います。

これらのパラメーターの機能や使い方を紹介するセミナーを行いましたので、興味のある方は以下のページよりビデオを御覧ください。

8. ダッシュボード

データを使ってビジネスを改善していく文化を作れるかどうかは、やはり普段からビジネスに関する指標をチームや組織でモニターできているかどうかだと思いますが、そのために便利なのがダッシュボードです。

このダッシュボードも少しづつですが確実に進化を続けています。

今年は、テキスト・コンポーネントのサポートが入り、テキストをダッシュボードの中に直接入力できるようになりました。

これによって、ダッシュボードのなかにある情報を説明するためのコメントを入力し、さらにマークダウンを使って柔軟にフォーマットできるようになりました。

さらに同じテキスト・コンポーネントを使ってカスタムのRのコードを入力することでカスタムのチャートを直接ダッシュボードに入れることができるようにもなりました。

9. テキストデータの加工のUI

ある意味データの加工で一番やっかいで時間がかかるのがテキストデータの加工ではないでしょうか。

似たような文字列だがちょっとした違いによって違うカテゴリーとして扱われてしまうために、いつまでも正確な姿を掴むことができないというのはよくあります。

そこで今年の最初にテキストデータの加工のための2つのUIを追加し、さらに12月にリリースした最新版のv6.3ではそれらのUIを大きく改善しました。

10. 条件による値の置き換え

ifelseなどの関数を使って、条件をもとに値の置き換えまたは割り当てを行う人も多いかと思いますが、複数の条件の場合にはcase_whenという関数があります。

10月にリリースしたv6.2ではこちらをUI化しました。

以上が私個人が選ぶExploratoryの2020年の新機能・機能強化のトップ10ですが、実はもう一つ重要な機能強化があります。それはパフォーマンスです。

パフォーマンス

データ分析を行うときにはいかに頭の中で次から次へと思いつく質問に高速で答えていけるかということが重要になると思います。というのは、そうした答えがさらに次の質問を作りだし、そうしてるうちに質問の精度が上がっていき、それがデータ分析の質を上げるからです。

それだけに、Exploratoryのようなデータ分析ツールにとってパフォーマンスは重要な「機能」の一つですが、ここでもいくつかの大きな改善を行うことができました。

データを保存するファイルの最小化と高速化

9月にリリースしたv6.1では、Exploratoryにインポートしたデータをディスクに保存する時に使うファイル形式をRの標準フォーマットであるRDSから最近のビッグデータの世界での標準フォーマットであるParquetに変更しました。

このことにより保存ファイルのサイズがかなり小さくなりました。

例えば、かつては200万行30列のデータは480MBでしたが、新しいフォーマットでは27MBとなりました。これはかつての5%ほどのサイズです。

そして、このParquetフォーマットへの変更によってデータの読み書きの速さがかなり速くなりました。

保存する際に200万行のデータであれば6秒近くかかっていたものが2秒近くになりました。読み込むのもかつては6秒ほどかかっていたものが5秒未満になりました。

このことにより、プロジェクトを開けてデータフレームを開く時、または新しいデータをインポートした際のスピードが圧倒的に速くなりました。

そして、このデータファイルのサイズの最小化と高速化は他の2つの場所でも大きな効果を発揮することとなりました。

まずは、パブリッシュの時です。データ、ダッシュボード、チャートなどを再現可能な形でサーバーにパブリッシュする時にはデータファイルとともにアップロードすることになりますが、ファイルサイズの最小化によってパブリッシュにかかる時間を短縮されました。

さらに、パブリッシュされたものがパラメーターを使っている場合はサーバー環境でインタラクティブ・モードとして実行することができますが、その際のセッションの開始にかかる時間が、かなり速くなりました。

このインタラクティブ・モードに関してはさらにコネクション・プールという仕組みを導入したので、セッションの開始にかかる時間はトータルで圧倒的に高速化されました。

ExploratoryのUIの高速化

12月にリリースしたv6.3では、UIの表示にかかる仕組みを全体的に見直して最適化を行いました。そのおかげで、以下のような場所でのパフォーマンスの大幅な改善を体感できると思います。

  • サマリ、テーブル、チャート、アナリティクス・ビューの切り替え
  • データフレーム間の移動
  • データラングリング・ステップ間の移動
  • チャートの表示とタブの切替
  • プロジェクトを開くときと閉じる時

Exploratoryサーバー

私たちは、Exploratoryを使って作ったもの(チャート、ダッシュボード、ノート、データなど)を共有したりスケジュールするためにExploratoryクラウドも提供しています。さらに、このクラウドサーバーを自社のサーバーで運用するためのExploratoryコラボレーション・サーバーも提供しています。

これらのサーバーに関しても多くの新機能、機能強化を2020年には行うことができました

例えば、パブリッシュしたデータ、ダッシュボード、ノートなどのインサイトを検索するためのインサイトページでは、タイル・ビューをサポートしたり、スコープに新しいオプションを追加したりしました。

さらにダッシュボードやチャートなどを開く際のスピード、インサイトの検索のスピード、インタラクティブ・モードのスピードなども大幅に改善しました。

また、パブリッシュの際にコメントを入れることができるようになり、パブリッシュの履歴も表示されるようになりました。

以上が、ツールやプラットフォームの2020年の進化のハイライトです。

次に、データサイエンスの教育に関する進化に関して振り返ってみたいと思います。

データサイエンス・ブートキャンプ

3日間の濃縮なスケジュールで、データサイエンスの前提知識や経験のない人でも、データサイエンスを1から体系的に理解し、さらに現場で使える実践的なスキルを身に着けてもらうためのデータサイエンス・ブートキャンプをこの3年間ほど東京で定期的に開催してきました。

今年の最初の1月は東京でいつものように行うことができたのですが、その後は、コロナの感染拡大に伴いオフラインでのクラスルーム形式でのトレーニングができなくなってしまいました。当時はどうなることかと思いましたが、オンラインに切り替えることで全部で7回のデータサイエンス・ブートキャンプ・トレーニングを今年は開催することができました。

当初は3月、5月、7月と東京でクラスルーム形式で開催する予定だったにも関わらず、急遽オンライン版への参加へ予定を変更していただいた皆様には、改めてこの場を借りて感謝したく思います。

東京で行うブートキャンプと違って、参加者の皆様と直接顔を合わせる機会もなく、トレーニング後にお酒を飲みながらお話する時間もなく、何か寂しいものがあったのも事実です。

しかし、それでも多くの方たちにオンライン版のトレーニングに参加していただき、さらにまた多くの素晴らしい方たちとZoomを通しての新しい出会いがあったのは大変幸せな経験でした。

ところで、このデータサイエンス・ブートキャンプは私たちExploratoryにとってのコアとなる活動でもあります。

それは、データサイエンスの民主化はただ単にデータサイエンスの手法を簡単に使うことができるツールを提供すればよいというものではなく、やはりしっかりと地に足のついた実践的な知識やスキルをより多くの人たちに習得していただくための教育も行っていかなくてはいけないと思うからです。

さらに、実際にブートキャンプに参加された方たちとの授業中、授業後の対話や質問などを通し、みなさんがどこでつまづくのか、どういった問題を抱えているのかといったことを理解するための貴重な機会でもあります。

毎回ブートキャンプが終わると、そこで得られたフィードバックを元にExploratoryの改良とさらに次回のブートキャンプの教材、教え方のアップデートに取り掛かることになります。これをほぼ2ヶ月に1回のペースで繰り返していくことになります。

さすがにこれを行う現場には毎回大きなプレッシャーがありますが、それでも次回のブートキャンプで、改善されたExploratoryとトレーニングの内容に対してポジティブなフィードバックが得られたときにはなんとも言えない充実感があります。

来年もペースを落とすことなしに、みなさんに必要とされる限り、現場で使える知識とスキルを身に着けていただくための世界で一番わかりやすいデータサイエンス・ブートキャンプ・トレーニングとなるようさらなる改善を続け、提供していきたいと思っております。

データラングリング・トレーニング

今年は念願のデータラングリングのトレーニングを12月に初開催することができました。

データラングリング(データの加工)はデータ分析でもデータの可視化でも、とにかくデータを扱う限りは避けては通れないものです。私たちがExploratoryユーザーの方たちから普段よく受ける質問もデータラングリングに関するものが圧倒的に多いです。

そしてこのデータラングリングをどれだけ効率的に使いこなすことができるかが、データ分析の品質に直接関わってくると思います。というのもデータ分析とはいかにより良い質問をデータに投げかけていくかが重要となり、そうした質問に答えるためには多くの場合データを様々な形に加工していくことが必要となるからです。

こちらのトレーニングは、様々なタイプのデータを使って様々なデータの問題を解決していく方法を2日間みっちりとハンズオンで学んでいくというものです。

来年もこちらのデータラングリング・トレーニングは定期的に開催していくことができればと思っております。

オンラインセミナー

データサイエンスに関連するトピックや手法の紹介をする毎週木曜日に開催しているオンラインセミナーですが、今年もブートキャンプの前後をのぞきほぼ毎週開催することができました。

さらに今年はワークショップという形で、SaaSアナリティクスデータの可視化に関する2つのシリーズもののセミナーも開催しました。

Exploratoryアワー

Exploratoryユーザーの方たちより寄せられる、主にデータの加工や可視化に関する質問にデモを交えながら答えていこうという取り組みを「Exploratoryアワー」として2019年より毎週火曜日のお昼に行っていますが、今年もブートキャンプの前後を除けばほぼ毎週で開催していくことができました。

かれこれ通算でほぼ100回近くの開催となりました。

データの加工や可視化に関してはほんとうに様々な問題があるので、質問もつきることはありません。さらに以前答えた問題でも、Exploratory自体が進化するにつれてもっと簡単に解決できる方法もどんどんと出てきます。

来年も積極的にユーザーの方たちの直面している問題や質問を取り上げ、よりシンプルな解決方法をわかりやすく提供していくことに努めていきたいと思います。

データサイエンス勉強会

もともとは2017年より私がブートキャンプのために日本に行くタイミングで、Exploratoryのユーザーの方たちといっしょに開催してきた「Exploratoryデータサイエンス勉強会」ですが、今年は最初の1月をのぞき全てオンラインでの開催となりました。それでも今年は5回も開催することができ、Exploratoryのユーザーの方たちに、データ分析事例やデータ活用の取り組みに関してたいへん興味深く、そして勉強になる話をしていただきました。

来年も定期的にみなさんのお役に立つような情報の提供、さらにExploratoryユーザーの方たちが成長そして輝ける場の提供に努めていければと思っております。

データリテラシー・サロン

メディアや一部の専門家が都合のいいデータを引っ張ってきて一方的に恐怖を煽る時代には、われわれ市民のデータリテラシーを向上させていくことが緊急の問題だということで、データリテラシー・サロンを始めました。

10月に第1回目としてデータ分析業界の有志にお集まりいただき、データリテラシーという観点で様々な視点からお話していただきました。

私の方も、宗教改革、サイエンス革命に続く、データサイエンス改革という流れの中でなぜ今こそデータリテラシーが重要なのかをお話させていただきました。

以上がExploratoryの2020年の進化のハイライトとなります。

最後にこの場を借りて、このExploratory2020年の進化の原動力として一体となってひたすら前進し続けてくれたExploratoryチームのみんなに感謝したいと思います。

さらに、Exploratoryを信じてサポートし続けていただいたお客様と私たちのトレーニングに参加された方たちにもこの場を借りて感謝したく思います。どうもありがとうございました!🙏

2021年に向けて

データの量は増えているがそこから得られる知識の量は増えていないし、その質は上がってもいない。

これが2020年のコロナによる社会的、経済的な混乱をリアルタイムで経験する中で強く感じた失望であり、悔しさでもありました。

冒頭でも話しましたが、世の中の真実に迫っていくためにはデータリテラシーが必要です。

特に恐怖を煽ることを目的としているメディアに支配されている世界では、現実に起きている現象をありのままに理解するためには、われわれ市民が高いデータリテラシーをもってより質の高い質問をデータに投げかけ、より正しい仮説を立て、データを元に検証していくことが重要となります。

結局のところ、よりよい世の中を作っていくのは政府でもメディアでもなく、私たち1人1人であり、その運命は私たちの手の中にあるのです。それだけに、より多くの人たちが高いデータリテラシーを持つことが重要で、そして緊急を要すると思うのです。

そのために私たちExploratoryは微力ながら貢献できることはたくさんあると思います。

Exploratoryをさらに使いやすくすることで、より多くの人たちがデータサイエンスの手法を使えるようにしていきたいと思います。

そしてデータサイエンス・ブートキャンプをはじめ様々な形でより多くの人がデータリテラシーを向上させるのに役立つトレーニングやセミナーを引き続き提供していきたいと思います。

さらに、異なる見解や意見を持ち、様々なバックグラウンドを持つ人たちがデータをもとに自由闊達に議論していくことができる場を提供していくこともできるのではないかと思っています。

ということで、2021年もさらにExploratoryを大きく進化させることに集中していきたいと思っております。

引き続き、よろしくお願いいたします!

みなさまにとって、2021年が健康で素晴らしい年であるように、さらに飛躍の年となるように、祈っております。

西田勘一郎, CEO/Exploratory

--

--

Kan Nishida
未来の仕事

CEO / Founder at Exploratory(https://exploratory.io/). Having fun analyzing interesting data and learning something new everyday.