導入事例

三井物産株式会社様、三井情報株式会社様

NVIDIA DGX H100を基盤に マルチテナンシーと堅牢なセキュリティを両立

ヘルスケア産業のイノベーションハブを目指すTokyo-1プロジェクト

導入事例

ヘルスケア産業のイノベーションハブを目指すTokyo-1プロジェクト
NVIDIA DGX H100を基盤に マルチテナンシーと堅牢なセキュリティを両立

ヘルスケア産業を変革するイノベーションハブを目指して始めた「Tokyo-1 プロジェクト」は、三井物産株式会社、三井情報株式会社、株式会社ゼウレカの3社が協働して進めているプロジェクトです。インフラ基盤には最先端のスーパーコンピューター「NVIDIA DGX H100」を採用し、IDCフロンティアの高負荷ハウジングサービスにて稼働させています。プロジェクトの経緯や目的について、三井物産株式会社 ICT事業本部 デジタルサービス事業部 デジタルヘルスケア事業室長 阿部雄飛 氏と三井情報株式会社 執行役員 先端テクノロジー管掌 イノベーション戦略推進責任者 内田利文 氏にお話しを伺いました。

【GPU・HPCに最適】【高電力/高発熱に対応】高負荷ハウジングサービス

創薬開発の効率化、短期間化を目指したプラットフォームを提供
ハードウェアとソフトウェアを備えたコミュニティの場に

自己紹介とTokyo-1プロジェクトでの会社の役割を教えてください。

三井物産 阿部雄飛氏(以下、阿部):三井物産のICT事業本部では様々な産業ごとにITを掛け合わせて新規事業を展開しており、私のチームはヘルスケア領域(主に医療と創薬関連)でITを起点にした新事業を構築しています。今回は創薬とAI・スーパーコンピューターを組み合わせたコアプロジェクトとしてTokyo-1プロジェクトを立ち上げました。実際に同Tokyo-1サービスのプロバイダとなるのが三井物産100%子会社のゼウレカです。

三井情報 内田利文氏(以下、内田):三井情報は三井物産の100%子会社で、ICTサービスを支えるプラットフォームのアーキテクチャ設計、実装、運用などを担っています。今回は創薬向けにセキュリティとパフォーマンスを両立するプラットフォームをデザインして実装しました。

製薬業界とAIの組み合わせに着目したのはどのような背景からですか?

阿部:製薬業界では、1つの新薬を開発するまでに数百億円から数千億円もの多額の研究開発費がかかります。また、成功率はとても低く、何段階もの臨床試験を経るために開発期間が長期に渡ることが課題になっています。海外ではスーパーコンピューターやAIを活用し、創薬の効率化が積極的に進められています。

かつては薬の候補となる化合物を経験と勘を頼りに発掘していました。今ではスーパーコンピューターで複雑な化合物の立体構造や特性を予測して、膨大な候補のなかから効果が高そうなものをスクリーニングするなど、効率化が進められています。今や高い計算能力やAIなしでは新薬は作れない時代です。

日本でもAI活用を進めていこうとする動きがあります。三井情報はバイオインフォマティクス領域で長年取り組みを行っており、この強みを活かして事業化を進めようと、三井物産の子会社として2021年11月にAI創薬事業会社のゼウレカを設立しました。

Tokyo-1プロジェクトはどのような経緯で始まったのですか?

阿部:私たちはソリューションで製薬業界に貢献しようと考えていました。2022年初めに、NVIDIA社や様々な方と情報交換するなかで「必要なのはソリューションだけではない。ソリューションを動かすハードウェア(スーパーコンピューター)も必要だ」ということが分かり、Tokyo-1プロジェクトの構想につながりました。

今でこそChatGPTやLLMなど、NVIDIAのGPUが注目されていますが、このプロジェクトはその前から動き出していました。

あらためてTokyo-1プロジェクトについて教えてください。

阿部:ヘルスケア産業をデジタルで変革するイノベーションハブの形成を目指し、必要な計算環境(最先端GPUスパコン)、最先端のDXソリューション、情報コミュニティを包括的に提供するものです。正式サービス提供開始は2024年2月で、すでにアステラス製薬様、小野薬品工業様、第一三共様にご参画いただいています。

Tokyo-1プロジェクトは、ハードウェアとソフトウェアだけではなく、コミュニティの側面も併せ持つのが特徴です。日本で製薬業界のAIテクノロジーの知見を持つ人材はまだ圧倒的に少なく、製薬会社が独自に進めてもやりたいことの何割かしかできません。しかし複数の企業が集えば、新しい技術でも互いに助け合い、理解を深めながら進めていけます。そうしたコミュニティの場も提供しています。

オンプレのように占有し、パブリッククラウドのように拡張可能
競合となる製薬会社が複数同時に利用するためセキュリティも厳重に

GPUを使いたければパブリッククラウドを使う方法もあります。独自のインフラを保有する意義やメリットはどのようなところにありますか?

内田:パブリッククラウドだと、事前に多種多様なサービスを組み合わせておく必要があり、また大規模処理になるとGPUリソースに空きがないこともあります。国内リージョンで空きがなければ国外の選択肢もありますが、それでは遅延やデータの保管場所などの課題が出てきます。一方でオンプレだと、自前でGPUリソースを調達して構築する必要があり、コスト面や稼働までの工程で多くの時間を要してしまうことが課題となります。

Tokyo-1プロジェクトでは創薬向けAIサービスとして化合物のデータなどを共有できるようにしており、すぐにGPUで計算が実行できる状態にしています。創薬では他社に開発で先を越されると、ビジネス的に手遅れになります。国内でインフラを整えて、すぐに処理が実行できるサービスを提供することには大きな意義があります。

創薬向けに、どのような工夫や配慮がありましたか?

阿部:製薬会社だと外部に出せないようなデータもあります。Tokyo-1プロジェクトでは使用するサーバーが常時固定されているなどオンプレのように使えるようにしています。

内田:互いに競合となる製薬会社が複数ご利用になるのでセキュリティを担保しつつ、性能も確保しなくてはなりません。サーバーを分けるだけではなく、データ暗号化のための鍵も変えることで機密性を高めています。

Tokyo-1では最先端GPUスパコンとしてNVIDIA DGX H100を採用しています。選定の理由を教えてください。

内田:NVIDIA DGX H100は、NVIDIA H100 Tensor コア GPU(以下、H100)を搭載したサービス開始時点で最先端のAIプラットフォームです。前代のNVIDIA A100 Tensor コア GPU(以下、A100)と比較すると単純な性能では最大6倍も向上していますし、H100からは創薬でも有効なLLM(大規模言語モデル)に向いたTransformer Engineを搭載していて、LLMのAIトレーニングなら最大9倍、AI推論であれば最大30倍高速になると言われています。またDGX プラットフォームはマルチノードの処理を最適化でき、大規模なワークロードに向いています。

インフラ構築における特徴や工夫した点を教えてください。

内田:先ほど申しあげた通り、大事な要件はセキュリティと性能を両立させることです。そしてもう1つ、サーバーリソースはセキュリティやデータ保護の観点では占有したいが、一方で必要な時には自由にスケールアウトしたい、という矛盾するようなことを両立させる必要がありました。

当初はNVIDIAが提供しているサービスも検討したのですが、要件を満たすことが難しいと分かり、ネットワーク機器、トランシーバーケーブル、ストレージのメーカーなどと協議を重ねて実現できる方法を模索しました。一般的にAI系クラスタではインターコネクトにInfiniBandを使うケースが多いのですが、マルチテナントでオンプレと同等にルート権限を利用可能とした場合のセキュリティ確保が難しいため、IP CLOSとイーサネットを採用しました。恐らく似たような構成で稼働させているところは他にあまりないかと思います。

ロスレスネットワークのための工夫について、もう少し詳しく教えてください。

内田:AIの並列処理で、データ転送にCPU経由をしてしまうと遅延やパフォーマンスのボトルネックが生じてしまいます。そこでGPUDirect StorageとRDMA(RoCEv2)を使用して、GPUノード間通信でリモートのGPUメモリへ直接アクセスしています。InfiniBandでは標準的に実装されていますが、今回はイーサネットで動くプロトコルを実装しています。

また、LLMでは大量のメモリ空間を必要とします。1つのGPUのメモリでは足りないので、大量のGPUを連携させます。高速に処理をさせるにはGPU間の帯域を高めなくてはなりません。高速処理ができるとトライをより多く繰り返すことができて、ゴールにより早く近づけます。創薬では、新薬の開発に要する時間が短くなるほどビジネスメリットが大きくなるため、高速性がとても重要になります。

高い電力を安定供給、十分な冷却能力を持ちながら高密度にサーバーを収納
データセンターが都内なので現地にすぐ足を運べるのもメリット

IDCフロンティアの高負荷ハウジングサービスを選んだのはなぜですか?

内田:NVIDIA DGX H100は一般的なサーバーと比べてはるかに消費電力が大きいため、高電力の供給と相応の冷却能力が必要になります。この要件を満たすデータセンターとなると、国内ではかなり限られてきます。

加えて今回の構成では16台単位でスケールするデザインにしているため、隣接して設置ができる連続したラック区画の確保が重要になります。大量のケーブルをフルメッシュで接続するような形となりますので、他のラックを跨いでしまうと、コスト増やケーブリングに支障がでます。また、サーバーを高密度に収納できることも重要な要件でした。

もう1つ、IDCフロンティアは運用支援に強みがあることです。データセンターでは完璧な運用マニュアルを作成してお渡しすることが多いのですが、IDCフロンティアは必要最低限の情報を共有するだけでも比較的柔軟に運用していただけます。また設置場所が都内ですので、何かあった場合には現地に駆けつける時間が短くて済むことも大きなメリットでした。

他にもIDCフロンティアを選んだことで良かったことや印象的なことはありますか?

内田:先ほどの繰り返しとなりますが、高電力の供給と冷却の安定性がありがたいです。パフォーマンスが必要な時にインフラレイヤが不安定になることや、サーバーが熱暴走してしまうことは避けたいので、高性能で高価なGPUサーバーを不安なく使えることはとても重要です。

都内で足を運びやすいこともプロジェクト進行上とてもメリットがありました。新しい製品を利用する場合、チューニングのために何度も現地に足を運ばざるを得ないこともあります。遠方ですと、現地に住むようなレベルになってしまいます。

阿部:技術的なことではないのですが、いろいろ柔軟に快く対応いただけたことです。サーバーを設置したタイミングでTokyo-1プロジェクト用スーパーコンピューター設置の記者発表会をしたのですが、サービス提供事業者として日本初となるNVIDIA DGX H100の設置事例でしたので、メディアからの取材要望も多かったのです。データセンターでは内部の取材が中々難しい中、会議室の設営から記者の見学会まで、全てにおいてサポートをしていただき助かりました。

Tokyo-1導入の効果や、将来どのようなインパクトをもたらすと期待できますか?

阿部:競争相手となる海外の製薬会社勢に、日本の製薬会社が束になって競争していくことになると思います。もともと日本の製薬会社の競争力は高いのですが、このまま何もしなければ年々弱体化してしまうリスクがあります。期待するところとして、長期的には日本の製薬会社が協働することで海外勢に追いつくだけではなく、さらに先を走れるようなところまで昇華させていきたいです。

効果については、正式運用を開始してまだ間がないので、今は検証作業を進めているところです。いずれ具体的な数字や導入効果を発表したいと考えています。

これからTokyo-1をどのように発展させていきたいですか?

阿部:ヘルスケア産業全体のイノベーションハブになるとうたっていますので、中堅企業や新興企業も含めた製薬会社にもご参画いただき、さらに周辺にいるゼウレカはじめAI開発事業者、医療領域も含めたヘルスケア全体を幅広くカバーして、皆さまのイノベーションを支援できるようにしていきたいと考えています。

内田:多様な人たちが新しいことに取り組む環境、そのプラットフォームやシステムを高速かつセキュアに提供していくことはチャレンジングではありますがインパクトもありますのでこれからも継続的に取り組んでいきたいと思います。

本日は貴重なお時間をいただきありがとうございました。

※掲載内容は、本事例の掲載日時点の情報です。
※記載されている会社名、製品名は、各社の登録商標または商標です。

2024年5月22日掲載

【GPU・HPCに最適】【高電力/高発熱に対応】高負荷ハウジングサービス

2024年05月22日掲載