DataRobot Codespaces / Notebooksで実現。データサイエンスの革新を加速する統合環境

2024/07/09
執筆者:
· 推定読書時間 3  分

DataRobot でモビリティ分野のお客様を担当しているデータサイエンティストの山本光穂(やまもとみつお)です。

このブログ記事では、DataRobot Codespaces / Notebooksの概要と主な特徴・利点、そして主要な活用シナリオについて紹介します。

DataRobot Codespaces / Notebooks:データサイエンスの革新を加速する統合環境

データサイエンスの世界は急速に進化し続けており、効率的なツールと環境の重要性がますます高まっています。DataRobotはGUIでの機械学習モデル構築を支援するプラットフォームとして知られていますが、最近ではDataRobot Codespaces / Notebooksという新しい機能をリリースし、コードによるデータサイエンスのワークフローをサポートしています。

これにより、組織内の様々な役割のメンバーが、それぞれの専門性を活かしながら、コードを通じたデータサイエンスプロジェクトを効率的に進めることが可能になります。

1. DataRobot Codespaces / Notebooksとは

DataRobot Codespaces / Notebooksは、従来のJupyter Notebookの機能を拡張し、エンタープライズレベルの機能を統合した高度なノートブック環境です。また、DataRobotのAutoML/AutoTSなどの自動モデル構築技術、MLOpsなどのモデル管理技術など各種機能とのシームレスな連携を提供し、より効率的なデータサイエンスプロジェクトの実行を可能にします。

図1 DataRobot Codespaces Notebooks
図1 DataRobot Codespaces / Notebooks
                 図2 機能紹介動画

2. DataRobot Codespaces / Notebooksの主要な特徴と利点

(a) 柔軟性と互換性

API統合:DataRobotの自動モデル構築機能であるAutoML/AutoTSをPythonコードから直接呼び出せるため、自動化されたモデル構築と手動のファインチューニングを組み合わせた高度なワークフローを構築できます。

Jupyter完全互換: .ipynbファイル形式をサポートしているため、既存のJupyterノートブックを簡単にインポートできます。これにより、これまでの作業資産を無駄にすることなく、スムーズに移行できます。

多様なライブラリサポート:DataRobotのpython sdkであるdatarobotライブラリだけでなく、NumPy、Pandas、Scikit-learnなどの一般的なPythonライブラリを利用可能です。これにより、オープンソースの機能とDataRobotの高度な機能を組み合わせた分析が可能になります。

言語の自由度:Python、Rをサポートしているため、データサイエンティストは自分の得意な言語で作業を進められます。

(b) スケーラビリティとパフォーマンス

スケーラビリティ:XS(1 CPU, 4GB RAM)からL(8 CPU, 32GB RAM)まで、タスクに応じて最適なマシンサイズを選択可能です。また、GPUインスタンスも今後提供予定であり、LLMモデリング/深層学習も対応可能となります。

(c) コラボレーションと生産性

中央管理リポジトリ:すべてのプロジェクト関連資産(ノートブック、データセット、モデルなど)を一箇所で管理できるため、チームメンバー間での情報共有が容易になります。

バージョン管理:Git風のリビジョン履歴機能により、ノートブックの変更履歴を追跡し、必要に応じて過去のバージョンに戻すことができます。

Git 連携:GitHub などの Git 連携により、コードのバージョン管理やチームでの協力が容易になります。

(d) セキュリティとガバナンス

統合アクセス制御:DataRobotの既存の認証システムと連携しているため、ユーザーごとに適切なアクセス権限を設定できます。

ネットワーク制御:外部ネットワークとの通信を制御機能を近いうちに提供予定であり、セキュリティをより柔軟に制御できます。

(e) 拡張性と統合

基本環境のカスタマイズ:分析環境としてdockerイメージを利用することで、独自のライブラリやツールを追加した上で、それら環境を組織内で共有することができます。

カスタムパッケージ:pip installコマンドを使用して、必要なPythonパッケージを柔軟にインストールできます。これにより、プロジェクトごとに最適な環境を構築できます。

データベース連携:多種多様なデータベースとの接続が容易になり、データの取り込みや保存がスムーズに行えます。

スケジューリング:ノートブックの自動実行や定期的なデータ更新をスケジュールすることができるため、継続的な分析やモデル更新を自動化できます。

(f) 使いやすさ

直感的なUI:JupyterLabに似たインターフェースを採用しているため、既存のJupyterユーザーはすぐに使いこなせます。

AIアクセラレーター:DataRobotが提供する業界別・ユースケース別のサンプルノートブックにより、プロジェクトの立ち上げが迅速化されます。

ドキュメントとサポート:豊富なドキュメントとサポートリソースが提供されているため、新規ユーザーもスムーズに環境を理解し始めることができます。

図3 スケジュール管理画面(コードの定期実行などを実施可能 )
図3 スケジュール管理画面
(コードの定期実行などを実施可能)
図4 環境選択画面(様々な分析環境を選択可能)
図4 環境選択画面
(様々な分析環境を選択可能)

図5 コードスニペット(多様なコード事例を準備)
図5 コードスニペット(多様なコード事例を準備)
図6 DataRobot AIアクセラレータ(多くの分析テンプレートを掲載)
図6 DataRobot AIアクセラレータ(多くの分析テンプレートを掲載)

3. DataRobot Codespaces / Notebooksの活用シナリオ

上記の特徴と利点を踏まえ、本セクションではDataRobot Codespaces / Notebooksの主な活用シナリオをいくつか紹介します。

(a) 探索的データ分析(EDA)

データアナリストには、大規模データセットを迅速に分析し、重要な洞察を得ることが求められます。DataRobot Codespaces / Notebooksは、AIカタログやSnowflakeなどのデータソースとのシームレスな連携を提供し、データの取り込みや前処理を効率的に行うことができます。

また、PythonやRを用いた豊富な可視化ライブラリをサポートしており、データアナリストは効率的にデータの分布や関係性を視覚化し、重要な洞察を得ることができます。

(b) モデル開発とチューニング

機械学習エンジニアには、高度なモデルの開発とパフォーマンスの最適化が求められます。DataRobot Codespaces / Notebooksはカスタムコード開発環境を提供し、また、DataRobotのAutoML機能との連携により基本モデルの作成から高度なモデルの構築まで一貫して行えます。これにより、自社でPythonやRを用いたモデル開発を行いながら、DataRobotの高度な機能を活用することが可能です。

さらに、  Codespaces / Notebooks上で直接ハイパーパラメータのチューニングを行うことができ、モデルの性能を最適化することが可能です。

(c) コラボレーション

データサイエンティストとビジネスアナリストには、専門知識を組み合わせた効果的な協働が求められます。DataRobot Codespaces / Notebooksは、同じノートブック上でのコラボレーションを可能にします。データサイエンティストが高度な分析モデルを開発し、ビジネスアナリストがビジネスロジックと制約条件を実装するなど、異なる専門性を持つメンバーが効果的に協力して作業を進めることができます。

(d) プロダクション展開

MLOpsエンジニアには、開発されたモデルを効率的に本番環境に展開し、継続的に最適化することが求められます。DataRobot Codespaces / NotebooksはMLOps APIとの統合により、モデルの自動デプロイ、モニタリング、定期的な再トレーニングのパイプライン構築を可能にします。これにより、モデルの性能を継続的に最適化し、ビジネス価値を最大化することができます。

4. 結論:DataRobot Codespaces / Notebooksで実現できること

DataRobot Codespaces / Notebooksは、データサイエンスプロジェクトに関わる様々な役割のメンバーのニーズに応える統合環境、特にコードによるデータサイエンスのワークフロー全体をサポートする機能を提供しています。

その柔軟性、スケーラビリティ、そして統合された機能セットにより、組織全体でのデータ駆動型の意思決定を加速させることが可能になります。

探索的データ分析からモデル開発、協調的な研究、プロダクション展開、そしてレポーティングまで、データサイエンスのワークフロー全体をサポートする統合環境として、DataRobot Codespaces / Notebooksはデータサイエンスの革新を加速することができるでしょう。

この統合環境を活用することで、組織は以下のような利点を得ることができます:

  • 迅速な分析と意思決定:大規模データの高速処理と高度な分析ツールにより、ビジネスインサイトをより迅速に得ることができます。
  • 効率的なコラボレーション:異なる専門性を持つチームメンバーが同じプラットフォーム上で協力することで、プロジェクトの進行が加速します。
  • 分析手法の共有:AIアクセラレーターやサンプルコード、コードスニペット機能により、多様な分析手法を学習し、また実際のビジネスに適用することが可能です。
  • セキュリティとコンプライアンスの強化:統合されたセキュリティ機能により、データ保護と規制遵守が容易になります。
  • スケーラビリティと柔軟性:クラウドネイティブ設計により、プロジェクトの規模や複雑さに応じて環境を調整できます。
  • エンドツーエンドの管理:モデル開発から展開、モニタリングまでの全プロセスをコードレベルで記述することで、AIモデル開発プロジェクトの開発をより推進します。

DataRobot Codespaces / Notebooksは、これらの利点を通じて、組織のデータサイエンス能力を大幅に向上させ、競争力の強化に貢献します。

データサイエンスプロジェクトの効率化を図るなら「DataRobot」

DataRobotでは、トライアル環境を提供しています。以下のURLから、アカウントを作成することができます。

https://www.datarobot.com/jp/trial/

トライアル環境では、DataRobotの主要な機能を使用することができます。機械学習モデルの開発や運用に興味がある方やすでに携わっている方も、ぜひこの機会にDataRobotを体験してみてください。

執筆者について
山本 光穂(Mitsuo Yamamoto)
山本 光穂(Mitsuo Yamamoto)

データサイエンティスト

約15年車業界において最先端のIT技術を活用した製品プロトタイプ開発やデータ分析業務等に携わった知見を活用して、製造業、特に車関連企業様の課題解決支援に従事。またコミュニティ活動に積極的に取り組んでおり、データ分析コミュニティであるPyData.Tokyoのメインオーガナイザを務める。

得意な技術領域は地理情報空間分析/情報検索/機械学習等
2003 – 2005    :研究者 @ソフトウェアメーカ
2005 – 2018    :研究者 @自動車部品メーカ
2018 – 2021    :データサイエンティスト @損害保険(車分野担当)
2021 –      :データサイエンティスト @ DataRobot, Inc. – 製造業界

山本 光穂(Mitsuo Yamamoto) についてもっとくわしく

小幡 創(Hajime Obata)
小幡 創(Hajime Obata)

AI アーキテクト

DataRobot AI アーキテクト。2018年から DataRobot に参加。DataRobot 製品に関するフィードバック収集と新規開発計画への反映、新機能・新製品のベータプログラムやローンチ、トレーニングやマーケティングを通じた普及活動、ローカライゼーション管理、などを通じて、AI と DataRobot の価値を日本に広く広めるための業務に従事。

小幡 創(Hajime Obata) についてもっとくわしく