[NVIDIA GTC] ハンズオンワークショップ:「アクセラレーテッド データ サイエンスの基礎」のご紹介

Riei Ishizeki
NVIDIA Japan
Published in
7 min readAug 8, 2022

2022 年 9 月 19 日 (米国時間) から開幕する「NVIDIA GTC」では、AI/ディープ ラーニングやデータ サイエンス等を実践的に学べるハンズオン トレーニング「Deep Learning Institute (以下、DLI)」を開催します。ここ数年 NVIDIA GTC では、最新の「講師によるワークショップ」を日本語で提供することが恒例となってきました。今回は「アクセラレーテッド データ サイエンスの基礎 (DLIW41222)」を初めて開講します。GTC はグローバルなオンライン イベントですが、この DLI ワークショップは日本語で、日本から参加しやすい時間 (9:00–17:00) に受講可能いただけます。

参加登録に関しては、まず GTC の登録が必要になります。

下記リンクから登録お願いします。
https://www.nvidia.com/ja-jp/gtc/training/?ncid=so-medi-217945

DLI とは NVIDIA が提供するデジタルスキル育成プログラムです。AI/ディープ ラーニングやデータ サイエンス等のスキル/知識習得を目的とした「オンライントレーニング」、「講師によるワークショップ」、「教育者むけソリューション」等を提供しています。

DLI について詳しく知りたい方はこちらをご覧ください。https://medium.com/nvidiajapan/gtc22-fall-dli-cccf82ff5c20

「アクセラレーテッド データ サイエンスの基礎 (DLIW41222)」

以下では今回提供される「アクセラレーテッド データ サイエンスの基礎 (DLIW41222)」について概説します。

今日、様々な企業や組織が膨大な量のデータから重要な洞察を得て、それらを管理、処理しなくてはなりません。顧客維持率を向上させたいソフトウェア企業、リスクを軽減したい金融サービス会社、顧客の購買行動を予測したい小売り業者など、データサイエンスは幅広い産業分野で活用されています。従来、データ サイエンスのワークフローは CPU ベースのシステム上で実行されていました。しかし、データが大規模化するにつれ、処理時間が増大し、限られたリソースを消費するようになっています。こうした課題に対して、NVIDIA の GPU を活用することで、迅速にデータを分析し、ビジネス上の意思決定を加速することが可能になります。

このワークショップでは、 NVIDIA が開発したオープンソースのデータ サイエンス用ライブラリ群「RAPIDS」を活用して、エンドツーエンドの GPU アクセラレーションによるデータ サイエンスワークフローを構築、実行する方法を学び、迅速なデータ探索、反復、そして実運用への適応を可能とします。RAPIDS データサイエンスライブラリを用いて、XGBoost、cuGraph の Single-Source Shortest Path、cuML の KNN、DBSCAN、ロジスティック回帰などの GPU により加速された機械学習アルゴリズムを適用し、大規模データ分析を実行します。このワークショップは、スライドによる解説 に加えて Jupyter Notebook でのハンズオンの形式となります。

RAPIDS とは

RAPIDS はデータ サイエンスのワークフロー全体を GPU で高速化するためのライブラリ群です。RAPIDS では Pandas、scikit-learn、NetworkX や Dask などの一般的な Python API を使用しており、クラウドでもオンプレミスでも、どこでも実行できます。また、ラップトップからマルチ GPU サーバー、マルチノード クラスターに簡単にスケールできます。

ワークショップ概要

ワークショップのアウトラインは下記のとおりです。

◆GPU アクセラレーテッド データ解析:
複数の データセット (一部のデータは GPU のメモリサイズよりも大きい)の取り込みと前処理を行い、ワークショップの後半で行う複数の機械学習演習で使用します。

  • cuDF と Dask-cuDF を使用して、単一および複数の GPU に直接データを読み込みます。
  • GPU による機械学習課題のために cuDF で人口、道路ネットワーク、病院情報データの前処理を行います。

◆GPU アクセラレーテッド 機械学習:
前セクションで準備したデータに、機械学習の基本的な手法をいくつか適用します。

  • cuXfilter を使い GPU により加速されたデータ可視化を行います。
  • cuML による GPU により加速された教師あり/教師なしアルゴリズムを適用します。
  • Dask を使って複数の GPU でモデルを学習します。

◆プロジェクト「データ解析で英国を救え!」:
今回学習した GPU により加速されたデータ処理と解析スキルを英国人口規模のデータに適用し、英国の全人口に影響を与えるシミュレートされた伝染病を阻止するのに役立てます。

  • RAPIDS を使って、複数の大規模データセットを統合し、現実世界の分析を行うことができます。
  • シミュレートされた伝染病は、各シミュレーション日ごとに新しいデータを提供するため、様々な側面からの解析を行うことができます。
  • ワークショップ終了後に理解度テストに合格すると修了証が授与されます。

出来るようになること

  • RAPIDS のライブラリ群を使ってデータ分析パイプラインを GPU 上で実行できるようになります。
  • cuDF、cuML、XGBoost、cuGraph、cuXfilter のようなデータサイエンスツールを使って、データ解析、学習、可視化の時間を短縮し、生産性を向上することができます 。
  • Dask を使ってマルチ GPU 環境でのデータ解析/学習ができるようになり、GPU メモリに収まらないような大規模データの処理も可能となります。
  • イテレーションサイクルを高速化することで、機械学習モデルの精度をより高速に向上することができます。

前提知識

Pandas や NumPy を含む Python の使用経験

必要な機材や通信環境

ハンズオン環境として、クラウドの GPU 搭載インスタンスを 1 人 1 台ご提供します。その環境へアクセスするための PC と、安定したインターネット接続はご用意頂く必要がありますが、みなさんの手元の PC に GPU は不要です。デュアルモニター環境があると望ましいです。

ハンズオン プラットフォームへのアクセスには、WebSocket 通信が必須です。また、事前にアカウント作成などが必要です。こちらの事前準備資料をご参照の上、準備をお願いします。

DLI ワークショップの参加登録は、下記リンクから登録お願いします。https://www.nvidia.com/ja-jp/gtc/training/?ncid=so-medi-217945

多くのみなさんのご参加をお待ちしております。

--

--