ポスト「京」の利活用促進・成果創出加速に関するワーキンググループ(第3回) 議事要旨

1.日時

平成31年1月21日(月曜日)12時30分~14時30分

2.場所

虎ノ門SQUARE 4階

3.出席者

委員

(ポスト「京」の利活用促進・成果創出加速に関するワーキンググループ)
合田委員,伊藤委員,臼井委員,梅谷委員,加藤委員,栗原委員,白井委員,住委員,田浦委員,高田委員,辻井委員,藤井委員,安浦主査

文部科学省

千原審議官,原参事官,坂下室長,根津参事官補佐

オブザーバー

(理化学研究所)岡谷副理事,松岡センター長
(高度情報科学技術研究機構)関理事長,高津センター長

(説明者)
(理化学研究所革新知能統合研究センター)上田副センター長
(産業技術総合研究所人工知能研究センター)野田総括研究主幹
(慶應義塾大学)泰岡教授

4.議事要旨

議題1 データ科学、AI時代におけるHPCの新展開

資料1について理化学研究所革新知能統合研究センターの上田副センター長より説明

質疑応答については以下の通り

【高田委員】地震の予測というのはとても社会的に大事ですし、実際の過去のデータを駆使していろいろ検証もされていて、すごいなと思っています。私の質問したいことは、今度、ポスト「京」を使うときの使い方についてです。今おっしゃった物理モデルで解析するステップと、あとはパラメータを短時間で最適化したり、予測したりするモデルを作るというステップに関して、ポスト「京」で全てを処理した方がいいのか、それとも、シミュレーションの部分だけポスト「京」で処理して、その計算データを吐き出した後、その後は何か別のマシンで処理した方が良いのでしょうか。これは多分いろんな手法の中で、どういう手法を使うのかとか、それに応じてコンピューターの得手、不得手があるんだと思うのですが、その辺りはどうお考えでしょうか。
【上田副センター長】ありがとうございます。このスライドのように、丸1 (モデルパラメータを変化させて人工データを大量に生成)の際に、まずHPCが必要になるわけですね。実はその丸2 (人工データからモデルパラメータを逆推定)というのが、ちょっと方法は言えないのですが、スパコンがあるかないかということはかなり大きな効率に関わるので、今はこの実験では、非常に小さい領域、R1という領域でやっていますけれども、いわゆる東京の直下型もそうですけれども、東京のほんの小さい領域でやるか、23区全体でやるかということは、入力データを作るだけじゃなくて、その処理にも関わりますので、そういう意味では、Python上でいろいろ動くということは非常に重要になります。
【安浦主査】ちょっと関連して私の方から。その丸1 と丸2 の計算量的な比率というのはどういうぐらいの割合なのですか。
【上田副センター長】ケース・バイ・ケースだと思うんですけども、丸1 というのはやはりそれなりの計算量があるパラメータが非常に多いので、その組み合わせをかなり網羅的に作っておかないといけないので。丸2 では、深層学習を用いていますので、そこでやっぱりGPUがないと、まず動きませんし、大規模な学習データを使いますから、メモリも豊富でないといけないと。そういう意味でも、丸2 というところでもそれなりに使っております。
【安浦主査】ありがとうございます。はい、どうぞ。
【合田主査代理】最初の質問にも関連するのですが、いわゆるスパコンを使う部分と使わない部分があるかと思うのですが、最初に御紹介頂いたリアルタイムサイバーフィジカルで、リアルタイムにどんどん対応しなきゃいけないときというのは、そのルーチンにはスパコンというのは入ってくるものでしょうか。
【上田副センター長】それがやはり使えれば、圧倒的に効率がよくてですね。今は、割と小さい競技場の界隈だけでのシミュレーションですので、普通のPCでやっておりますが、将来的にはもっと大規模化すると。つまり、今は人の流れだけですけども、これから電車だとか、あるいは交通網だとか、そういうことを統合して、シミュレーションと誘導をやるというためには、やはりそのスパコンぐらいのパワーが必要になると思います。
【安浦主査】どうぞ。
【藤井委員】今の話の続きですが、そうだとすると、スパコンの課題を設定するときに、リアルタイムに使えるような課題も設定するのが望ましいという方向に行くと思うんですが、そこはそう思われますか。
【上田副センター長】そうですね。リアルタイム性は非常に重要なファクターと思います。
【藤井委員】分かりました。ありがとうございます。
【田浦委員】最初のエージェントの話で、具体的にはどういうふうに誘導するというのをイメージしているんですか。個々の人に、君はこっちに行った方がいいよ、というようなことを誘導するというようなイメージなんでしょうか。
【上田副センター長】そうなんですけれども、実際、個々でというふうなことはなかなかできませんので、よくあるのはロープを使って、道をわざと狭くしたりして、キャパシティを変えたりですね。あるいは、今の若い人だったら、DJポリスじゃないですけど、ああいう人が面白おかしくやることで、人は結構動くというような感じで。
【田浦委員】このシミュレーションでも、できる誘導というか、そういう制約を加味した上でシミュレーションされているんでしょうか。
【上田副センター長】そうですね。実際には先ほど言いましたように、現場ではなかなかまだできませんが、警備会社がこのソフトを使って、事前に誘導策をやるというようなことは決定しております。
【安浦主査】ほかに何かございますか。
 ちょっと私の方から。ネーミングの問題ですけれども、シミュレーション科学ということを言われているのですが、計算科学もある意味でシミュレーション科学として捉えている人もいるんじゃないかと思うんですけど、その辺は混乱しないでしょうか。
【上田副センター長】ネーミングに関しましては、強い信念があるわけではございませんが、計算科学というとやはり従前のイメージが強いので、HPCを融合させるという意味で、そのシミュレーションというような言葉を入れたんですが、もっといい名前があれば是非。
【安浦主査】そのシミュレーションモデルにまでフィードバックが掛かるという意味なわけですよね。そこが違うところですね。
【上田副センター長】そうですね。だから、逆問題も解いているという意味で、シミュレーションを科学しているというようなイメージですね。
【安浦主査】そのシミュレーションをやられている御専門の方からのイメージとしていかがですかね。
【高田委員】辻井先生の最後のご講演タイトルで「Computational Science」というのがあるんですけれども、計算科学というと、もう既に方程式なり、モデルができていて、それをいかに数値的に解くかということかと思います。シミュレーションというのは確かにその部分もあるんですけども、人間が、例えば現象をモデル化するという部分も入っていて、私自身はシミュレーションをもう少し広い範囲で捉えております。
【安浦主査】この辺はソサイエティの方でいろいろ議論していただくべきことかもしれませんけど、非常に分かりやすい解説をしていただけたのではないかと思います。
 もう一つ、私の方から質問があります。具体的にコンピューター側に対してこの丸1 と丸2 をスムーズにやるためには、どういうアーキテクチャであるべきか、ポスト「京」のアーキテクチャがそれに十分であるか、ということについての先生の御見解はいかがですか。
【上田副センター長】それはまさにこのスライドの御案内のとおりでして、ただ、確認はしておりますけど、ポスト「京」にはシンギュラリティというコンテナが実装される予定になっているというふうに伺っていますので、従前のDockerはなかなかHPCに向かないとよく言われているんですが、シンギュラリティが実装されるということで、とにかくPython環境がずっとあれば、自分たちがPC上で作った環境をそのまま移行できますので、それを再インストールとなると、なかなか敷居が高いんですけれども、そういうことが非常に重要であり、それをかなり全面的にアピールすることが重要かなと思います。
【安浦主査】松岡センター長、そういうことは対応は十分されているということでよろしいですか。
【松岡センター長】はい。もちろんシンギュラリティというのは、いわゆるユーザーレベルコンテナ技術というものなんですが、コンテナとしては、Dockerと同じコンテナをユーザーレベルとして動かすので、一部の例外はあるんですが、基本的にユーザーアプリケーションはそのままシンギュラリティで動きますけども、ドライバーレベルは触らないので、MPIとかは非常に高速に動くというのは事実であります。それ以外にも例えば、そもそもDNN自身を高速化しなきゃいけないんですが、それに関しては、今、研究開発を開始いたしておりまして、非常に高レベルな、GPUに負けないようなDNNの性能が出るんじゃないかと期待しております。
【安浦主査】ありがとうございます。

議題2 HPCによる計算社会科学

資料2について産総研人工知能研究センターの野田統括研究主幹から説明

質疑応答については以下の通り

【臼井委員】私ども民間の事業会社でも、実は自治体さんと組んで、バスの運行のものもやらせていただいたりしているんですが、社会性、向上性という意味ではすごく大事なことだと思っている反面、実は事業自体を、収益をきちんと事業収益を取ってやっているというのがなかなか難しくて、やはり助成金ありきになっちゃうというところがあるんですが、そこが今、JVさん、作られて、言わば単体での事業収益というところが形付けられたと思ってよろしいものでしょうか。
【野田統括研究主幹】まだそういう、ちゃんと収益が上がるかどうかというところまできちっと言えるかどうかは、これからの取組、あるいは普及の度合いが一番大きいかと考えているんですが、まだ立てるか、立てないかという状況であることには変わりないと考えています。ただ、いろんな状況を聞く限りにおいては、少なくともやらざるを得ないし、やれば、実はシミュレーションで出てきている結果としては、広がれば広がるほど、かなり成立する。それこそ住民が全員、自家用車を捨ててしまえば、すごい状態になることは分かっているので、ただ、それは別に夢物語ではないなというふうな実感はあります。
【安浦主査】ほかに何かございますか。高田先生。
【高田委員】面白いお話ありがとうございました。今、私は企業の人たちともいろいろ議論していまして、これから、先生方がお示しいただいているような、いろんな最先端の技術を下方展開していこうと思ったときに、企業サイドはどういうところが問題なのかなと考えています。一つは、最後の方に触れていただいた開発環境への対応です。私が知る範囲では、大学の理工系でコンピューター言語の勉強は、もうFortranはしていなくて、ほとんどCか、C++ですよね。まだ情報系を除けば、AIやデータサイエンス系のPythonとかRとかの勉強もほとんどしていないように思われます。だから、企業に入った人にAIやデータサイエンスをやってもらおうとしますと、まずPythonとかRを勉強してもらうというところから始まります。その他、Rubyだとか、数を挙げればいろいろな言語やツールが出ています。リテラシーの教育を必ずしも一本化する必要はないと思いますけど、今後どういう形で教育していくべきなのかが課題の一つと思います。
 もう一つの課題は、今のお話の中になかったですけど、Rのような利用しやすい形態をどのように普及していくかですよねよね。私どもにとってRが非常に使いやすのは、そのシステムにパッケージという仕組みがあって、既に自分のニーズがある程度分かっているものについては、パッケージを見つけてくればすぐにでも解析を始められます。例題とかサンプルデータもたくさん公開されていますので、企業人のような素人にとっては解析が容易にできる利点があります。同様に、流体だとか構造の分野では、加藤先生のところで開発されているソフトは、企業人向けにスパコンからワークステーションまでシームレスに使えるような形にして、そういうコードを公開されています。今お示しいただいたデータサイエンスやAIのソフトやツールのようなものは、かなりその課題ごとにカスタマイズしなきゃいけない部分もあるでしょうが、やっぱりどこかで共通部分はパッケージあるいはライブラリーなどの形にして、後でほかの人たちが下方展開しやすくすることも大事と思っています。その辺りについて何かお考えがあるでしょうか。
【野田統括研究主幹】実は、途中で紹介しました、東大の和泉先生の経済シミュレーションなどについては、ここにあるプラムと呼んでいるもので、これは実はウエブベースである程度、トレーダーのプログラムを書かないといけないんですが、そこをちょっと書いていただければ、あとはガーッとシミュレーションを回してできます。あと、先ほど紹介をし損ないましたOACISと呼んでいる、非常に多数のシミュレーション条件をできるだけ効率よくやってくれる、このようなしかけというのは、実はウエブベースで作っていまして、もちろんバックエンドでも動くんですが、ウエブで基本的にはどういうパラメータを入れて、今、結果、これぐらい出てますよとかいうのが見えるようにしていると。ただ、もちろんそれで全て使えるわけではないですけど、まずそういうインターフェースはちょっとこう、取っ付きやすいようにしているところはあります。
 あと、先ほどのプラムにしろ、このOACISにしろ、実はいろんな新しい機能を入れる部分は、プラグインのモジュールと呼んでいるんですが、そういうのはいろいろ工夫できるようにしてありまして、それをできるだけライブラリーみたいな形で、例えばGAのモジュールですとか、あるいは経済ですと、エージェント、その学習機能を入れたものとかそういうのをどんどん足していけるようなしかけは用意しているところで、そういうのが恐らく非常に大事になってくるだろうなというふうに考えています。もちろんRとかそういうのも入れていきたいんですが、まだそこまで手を回していないという状況ではあります。
【安浦主査】ほかに何かございますか。
 私の方から質問させていただきます。33ページ、34ページ、35ページ、この辺りが非常に重要なことが書いてあるように思うのですが、33ページの下の方に、並列性の下の2番目で、「計算社会科学では、計算モデル探求が目的」と「モデルの変更が研究そのもの」というふうに書かれて、先ほどの上田先生のお話からすれば、そのモデルを作るところもハイパフォーマンスコンピューティングを使うというお話だったのですが、この辺りは具体的に、この計算社会科学ではどういうふうな取組があるのでしょうか。
【野田統括研究主幹】非常に荒っぽい方法で、まだ現在、我々がまだ荒っぽい方法しか考えていないのですが、何となく考えられるのが複数パターンあるといったときに、それをとにかくぶん回してみて、現実とどれが一番合っているかみたいなものでまず調べるですとか、あと、当然パラメータもその中で探索しないといけないですというのがあるものですが、そういうかなり荒っぽいところから、もしかしたらもうちょっと機械学習みたいな方法を入れて、効率よく観察するというところもあると思うんですけど、まずそういうところをしないことには、例えば人が歩くモデルにしても、誰かが言い出した適当なモデルで、我々結構やっていたりするので、それに対して何か新しい要素を入れるべきなのかどうかを、例えばそういうところで、計算機パワーを使って、検証していくというところが、まだまだ社会科学のところは非常に大事な部分ということで、そこのモデルの変更が大事ですよという考え方になっています。
【安浦主査】そういう視点で見ると、その次の34ページのところで、不完全なビッグデータという表現があるんですけど、一方で、例えば株式市場の価格の変動というデータは、過去、20年ぐらいは秒単位、ミリセック単位でデータがあると思うんですけど、それをうまく使うという話はあるんですか。
【野田統括研究主幹】はい。もちろんその株価の変動自身は、非常にもう蓄積があるんですけれども、残念ながら、株価というのは、株価だけで動いているわけではなくて、やっぱりどこかの会社が何かを発明したとか、戦争が起きたとか、そういうことで当然左右されるわけで、そちら側のデータが結局、何に影響したのかというのはまだ、要は、人間の認識能力の部分であって、それはまだかなりいいかげんなモデルにならざるを得ない。そこがどうしても、ビッグデータとはいえ、不完全であったり、あるいは、そもそもそれをどうやって人間は解釈して、取引に反映しているのかがまだまだ分からないと。そこが不完全と呼んでいるところです。
【安浦主査】ということは、例えば今みたいにニュースがかなりネット上で拡散するようになって、ツイッターなり、そういったもののデータも同時に取れる時代になっているので、この次の世代としては、そういったニュースの拡散と株価の変動というのを入れたようなシミュレーションというか、モデル作りとシミュレーションというようなことが当然考えられるかと思いますけど。
【野田統括研究主幹】はい。それは既にかなり取り組まれているところではあるんですけども、実はそこに更に人間のモデルで、要は、人間というのは例えばそれの裏張りをするみたいなところが入ってきて、それがどれぐらいの割合で裏張りしているのか、残念ながら、データとしては絶対出てこないので、それは逆に言うと、不完全なままのモデルで探索せざるを得ないというところが研究のポイントになっていると思います。
【安浦主査】どうもありがとうございます。
 ほかに何か御質問、いかがでしょうか。
【伊藤委員】そのことについて加えてお尋ねしたいんですけども、こういう社会科学の実験的なことをやると、これ自体がまたモデルに作用していきますよね。どんどん何か所にいろんなことが起きてくるわけで、そうすると、誰かが何かを決定してしまうと全てが決まるのか、あるいは、全くボラティリティのないような世界が出てくるのかというような話が出てくると思うんですけれども、それはどうなんでしょうか。
【野田統括研究主幹】非常にそれは難しい問題で、いわゆる物理学で言う観測問題に等しいんですけれども、我々が例えば株の取引の研究をやっている和泉先生は、決して株の値段の予測をするというためにシミュレーションはとても使えないと。ただ、じゃあ、市場が安定して、比較的安心して取引ができる状態が続くのか、あるいは場合によっては、例えば東証とシンガポールの市場がマーケットと取り合っているわけですけども、それが、じゃあ、どういう条件のときにどっちが有利になるのかをこういう形で調べようという形の使い方が大事になってくるかなと。
 そこでどういう変動が起きるのか自身をシミュレーションしようというのは、まあ、そもそも不可能だろうというふうには考えています。どちらかというと、安心して取引できる場を提供するのがどうしたらいいのかというところがポイントかなと考えております。

議題3 機械学習による分子動力学シミュレーションの高速化

慶應義塾大学泰岡教授より資料3について説明

質疑応答については以下の通り

【高田委員】どうもありがとうございました。まずはコメントです。企業というか、材料科学者が多分、AIとかデータサイエンスに期待していることは3つあると思っています。1つは、例えば分子動力学手法応用の場合は、原子間の相互作用とポテンシャルを決めることです。実験で決めることもあるのですが、最近では、第一原理の計算をして、その計算結果を再現するようにフィッティングすることでパラメータを求めます。それはもう機械学習でできることなので、企業の人たちも実際にもうそこまではできている段階だと思っています。
 2つ目は、今まさに泰岡先生が説明された拡散現象のような話、輸送現象の予測です。その他では、例えば粘性だとか、熱伝導だとかの現象を計算したいといったときに、ミクロの世界に関する長時間の計算を地道に続けるだけでは容易に解を求められません。泰岡先生のこの方法がいろいろ使えるようになれば、企業の人たちにとっても非常に役に立つなと思いました。
 3つ目は、きょうのお話に出なかったんですが、上田先生のお話の中でキーワードとして挙げられていました、入力データと出力データをつなぐ記述子と言われるもので、実は材料科学の実験屋さんのすばらしいところは、その記述子を人間が考えて、そこでストーリーを作って、逆問題を解く、すなわち材料を設計するわけですね。新規の材料を創出するためにはその記述子を見つけてくるというのが、大きな課題だと思います。これは企業だけではなくて、大学の先生方、材料科学の皆さんの共通の関心事ですので、そこを今後狙っていくことが重要です。
 次に一つの質問があるのですが、拡散現象の解析についてどこまでできるかと言うことです。今、泰岡先生が話された中で一番分かりやすかった、スペクトルのグラフを例にとりますと、横軸を周波数に取ったときに、短時間しかサンプルできなかったデータでもフーリエ変換したときに長周期の動きがつかめれば、長時間の予測もできるというわけですよね。ですから、そういう場合には平衡状態はまず問題無い。また平衡状態がゆっくり変わっていくのであれば、逐次的にスペクトルを同定していけば、変化していく状態にも確かに追随していけそうです。しかしながら、レアイベントのようなもの、長時間で1回しか起きないようなものは、やっぱり長時間のデータを解析しないとなかなかつかめないですよね。
 最後のケースというのは材料でも突然、結晶化したりとか相変化したりということが発生します。その辺りの解析可能性や限界について何かコメントとかありましたら是非教えてください。
【泰岡教授】今、結局これは、高分子の方もそうなんですけれども、実際、分子の動きを仮に追っていったときに、どういうふうに動くかという分布を予測して、その分布が平衡だったり、定常みたいなところで、その分布が再現するように、次、次というふうに、要するに、先を予測する外挿という形にならないように外側を、時間方向には外側を予測しているように見えているんですけれども、実際には分布を予測して、それを内挿化といって、僕が考えたんですけど、中のところでやっているので、今のところはまだ平衡と定常というところにしています。
 高田先生がおっしゃるように、やっぱり非平衡、僕が最初にお見せした核生成現象みたいな非平衡で、非平衡のことというのは非常に、又は平衡状態までどういうふうに持っていくかというところというのは非常に重要なことだなと思っているので、そこのところはまた、ちょっとこのままではいけないんですけど、またそれを少しずつそういった考え方を盛り込みながらいければなというふうに考えています。
【高田委員】もう一ついいでしょうか。今のお話の中で、データサイエンスとかAIというのは、私自身、2つ、大きな波及効果がこれから期待されると思っています。1つは、今の泰岡さんがおっしゃられたように、拡散だとか実際の課題、困っている現象を解くのに、今までのシミュレーションではすごい時間が掛かるから、それが短縮でき課題解決につながるというのはやっぱり大きなと思います。もう一つは、むしろサイエンスの方の話になるんだと思うんですけれども、新規の記述子がどんどん予測できるようになると、実はナノとかメゾの世界で、現象を支配している画期的な方程式が見つかるかもしれない。そうなると、科学に対して全く新しい分野が開けてくるとか、これまでになかった新しい見方が出てきますので、そういう意味でAIとかデータサイエンスに大きな期待をしています。もちろん通常のシミュレーションを地道に、実直に解いていくことも重要ですので、AIやデータサイエンスによる全く新しアプローチと並行してことがポイントになります。
【安浦主査】ありがとうございます。
 私の方からも今の関連で質問があります。最後のスライドで、一番最後に、控え目に書かれたことが非常に気になりまして、要するに、因果律が、ある意味、推測できる範囲というのがある。因果律を無視した部分計算で、実は真面目に計算したのと同じような結果が出せるぞという意味に取られるような文章なので、それはそういう理解でよろしいんでしょうか。
【泰岡教授】今ここで対応しているのは、学習したところがマルコフ過程で、全然影響がないということが前提になっているので、その最初のこういう感じで、本当はずっとあってあれですけど、それをブチブチブチッと切っても、それぞれのところは相関はないというような、今、相関がないところまでは見なきゃいけない。先ほどの高分子のやつはすごく本当は長くて、大体、最初にこれを発表したときには、えっ、そんなことできるのかと大分言われたんですけれども、絡み合っているところは、絡み合いが取れて、全てのイベントの中身はその短い間に起こっていて、それが繰り返しているというか、どこでどう起こるか分からないんですけれども、あると。少なくとも1回はそのイベントが起こってないといけないということで、先ほどの長時間のところをどんなものでもできますよというふうにはさすがに言えないと思っていまして、先ほどの株価のこともそうかもしれないんですけど、突然違うことが起こっているのはだめだろうと思います。
【安浦主査】その切り方に対して何らかの情報は、こういうことをやるというのは分かるんですか。
【泰岡教授】それを今、目指しています。現状は、切り方は、これは分子動力学シミュレーションにしか対応していないので、分子動力学シミュレーションばかりやっている我々が、ああ、これはこれぐらいだなというふうにやって、現状は切っているんですけれども、やっぱりそこのところも自動的にしていかないと、なかなか皆さんに使っていただくときに困るのかなというので、少しその辺は、実は企業の人と商用ソフトに載せるということも含めながら議論させていただいています。
【安浦主査】ありがとうございます。
 何かほかに御質問。どうぞ、栗原先生。
【栗原委員】質問というよりは、今の高田先生の言われたことに対して、私も非常に同感の部分があるので、少し意見を述べさせていただきます。複雑系の材料科学は、やはりシミュレーションできることと、マクロの性質の間の関係が、どうしてどうなるというか、その因果関係がパッとは分かりにくいところがたくさんあります。
 それで、何か情報的な取り扱いをうまく、特徴量というのを使って、そういうところがつながっていくと、非常に学術としても進むし、また、そういうときに使う情報処理の技術というのがある程度、関係性やその論理がだんだんに分かってくるのではないかと思います。最後言われたような形のところができてくると、その情報処理の技術としても、新しいものが出てくるのではないかと思うので、そういう意味で期待できるところがあるのではないかというのが、私のイメージでございます。
【安浦主査】ありがとうございます。
 白井先生。
【白井委員】大変勉強になりましたし、我々、生命科学というか、創薬という関係でも、大変有用になると思います。是非頑張っていただきたいんですけれども、国際的なというか、優位性と言うんでしょうか、欧米、あるいは中国に対する優位性ということを考えたときに、どんな感じなんでしょうか。例えばこういうものはもう、まだ萌芽的で、どこの国もちょっとやり始めているような状況なのかなと思っていて、まだ差が付いているような状況ではなくて、多分5年ぐらいたつと、何かいろんな工夫と言うんですかね。いろいろと多様性が出てきて、差というものが出てくるのかなと勝手に妄想しているんですけれども、どういう感じですか。現時点での優位性みたいなのがあるのかないのか、又はそういう差が出てくるとすれば、もうちょっと先なのではないかなと思うんですけど、よろしくお願いします。
【泰岡教授】今まで分子シミュレーションばかり、ずっとやって、これを始めたのは3年ぐらい前からいろいろ考えて、やり始めているんですけど、今までやっている計算科学の進み方より、あっと言う間に機械学習、又はAIの進歩がパッとこう。どんどん論文が出てきたり、どんどん国際会議で発表されたりということで、ちょっと前までは、余りこういったところ、これがすごく多分、自分たちが言うので、新しくて、まだ余りこういうのが見られてないんですけれども。でも、いろんなところで深層学習を使って、分子レベルのこととか、例えば先ほどのパラメータを決めるとかいろんなところを探索するのは、結構いろんな人がどんどんやってきているので、5年というスパンで行ったときに、どういうところで、適用するというのが多分もう出てくるんですけど、新しいやり方みたいなのはどれぐらい5年間の間で進むのかというのは、僕には予測が今のところできません。
 ただ、やっぱりここ5年、10年ぐらいで、どんどんこういった分野とか、今まで計算科学で、計算で一生懸命ガリガリやっていた人たちがこれを使っていくというフェーズになっていくんじゃないかなというふうに個人的には考えていまして、今ここはそれを使ってもらうツールを一生懸命作っている段階なんですけれども、いろんなところで話をさせていただくと、是非これを使って、こういうことできませんかねというのが出てきている段階なので、5年、10年で、それが使っていくというフェーズが非常に大きく出るのではないかなと。それはデータ科学の専門家の人たちが今まで作ってきたものから、こちらの計算科学の話、実際計算していた人のこの間に、今、僕はいるような感じなのかなと思うんですけど、今、こっち側の人たちが使おうとしているんじゃないかと。それがちょっと言葉をうまくつなげてあげて、使えるようにしてあげれば、非常に発展的に行くんじゃないかと。
 そこを、今は特にAIとかそういうので、アメリカとか中国の研究者が非常に活発にしているので、何とかこう、日本の中でも盛り上げて、そちらの方が。特にこういう計算科学の発展というのは非常に日本は進んでいる方だと思うので、逆に、データ科学のところとのつなぎが遅れている気はしますので、そこを皆さんで一生懸命やれば、前に出れるんじゃないかなと個人的には思います。
【安浦主査】どうもありがとうございました。

議題4 全体討論

資料4について辻井委員より説明

質疑応答については以下の通り

【住委員】新しい学問分野を開いていく、応用も広がる、そのことは別に異論はないし、我々の分野でもそういう例があって、一言紹介すると、実際、台風が太平洋から日本海、北海道を襲った例がある年に3つ観測されて、それは50年の観測データでは一つもなかったから、おかしなことが起きたと世間は驚いたけれども、5,000年の計算をやると何例か必ずあるんです。だから、今の、我々が陥りがちなのは、観測というのはオールマイティーに思うけど、統計的に考えると、それはほんの一つの標本にすぎないわけで、そういう点では、シミュレーションが標本数を大きくするというのは、僕は非常に大きな可能性があって、モデリングとAIとか全部それはいいと僕は思うんですが、ただ、ここで一つの問題は、計算機の問題です。それは、昔から計算機だったわけですね。それは画像処理だとか、情報処理だとかというマシンではない。それを、たまたま計算機を使ってやっているだけです。
 だから、今度、ポスト「京」をやるときはやっぱり計算だけじゃなくて、ほかの情報処理をおこなおうとするならば、先ほどの言語の話もそうですけど、計算環境とか言語とかのいろんな側面を考える必要がある。その辺のことをHPCで考えるときに大きなテーマとして入れていかないといけない。それこそ僕らの分野でいくと、もうFortranは古いから。ある人はそう言うんだけど、Fortranは古いから要らないと言われたって、過去の膨大な資産があるし、やっぱりFortranで書くと、ベクター機には楽だし、流体コードなんかいいんですよということになるでしょう。それぞれの分野でそういう資産があるという点は、システムとかそういうことの問題を考えるときには大きなテーマとして考えていったらいいと思います。
【安浦主査】どうもありがとうございました。実際にそのハードだけで動くわけではありませんので、それが使える形に持っていくポイントというのは非常に重要だと思います。
 きょうの辻井先生含めて、4名の方、いろんなお立場からお話頂きました。ただ、共通したテーマとしては、モデルという部分、それから、学習という部分、データから学習してモデルを作るという、そこのところを今までの方程式ありきのシミュレーションとどういうふうに組み合わせていくかという、そこの部分が今から新しい展開につながるんじゃないかというお話が、いろんな角度から出てきたと思いますけれども、どういう視点からでも結構ですので、是非御意見を頂ければと思います。
 特に今まで御発言なさってない方、どうぞ。
【加藤委員】一つは、データ科学系の先生方にお聞きしたいんですが、率直に言って、「京」のときに余り、その方面で「京」が注目されてなくて、ポスト「京」で注目されてきた理由は何ですかというのが一点。
 それからもう一つ、我々、いわゆるシミュレーション屋は、ずっとコデザインということで、ハードウエアと協調開発をやってきて、もうかなりハードウエアに近いところをやっているんです。ところが、先ほど2番目の先生からお話があったように、データ科学とか社会科学をやっている人は、そもそもFortranなんか使わなくて、エクセルレベルじゃないと使えないと。その辺をこれからどうしていくのかなと。
 先ほど住先生からのお話にも共通するところがあると思うんですが、ちょっとその2点を、どなたでも結構なんですが、お考えをお聞きしたいと思って。
【安浦主査】これは辻井先生か上田先生に、まずお話を頂きたいんですけど。
 では、辻井先生、お願いします。
【辻井委員】一つは、フォース・パラダイムと言った人たちが、データからのサイエンスというのも結構重要な役割を持ってますよということがかなり出てきたんだと思うんですね。だから、データからボトムアップ的にモデリングする手法というのと、それから、シミュレーションみたいなやつをうまくくっつけていかないとだめなんじゃないかという動きは結構強く出ていると思うんですね。
 ただ、ポスト「京」を考えたときに、プログラム環境だとか、いろんな話が出てきたと思うんですけど、必ずしもポスト「京」で全てを、例えばデータサイエンスがやっているようなところまでカバーすべきかどうかというのは、これからの議論だと思うんですね。だから、デジタル・トランスフォーメーションの中でのサイエンスということを考えると、ポスト「京」が一つのネットワークの中の一つのハブとして機能していて、必ずしもポスト「京」全てが、ポスト「京」でデータサイエンスからリアルタイム処理まで全てやらないとだめということではないと思うんですね。
 ただ、うまくつなげておかないと、シミュレータだけが動くというだけでは困るでしょうという意識はかなり強くあるんだと思うんですよね。だから、ネットワークの中で動いてもいいとは思うんですけど。
【加藤委員】まさにその辺りのところは、この報告書の一つの非常に重要な結論というか、ポイントになると認識しているので、引き続きいろいろ教えていただきたいと思います。よろしくお願いします。
【安浦主査】多分、タイミング的に機械学習で、ディープラーニングが本当に使えるようになって、やってみたら、画像処理で物すごい性能が出ちゃったというところ時期的に偶然マッチングしたから、ポスト「京」でこの話が出てきている側面もあると思うんですけど、それはそう認識してよろしいですか。
 上田先生は何かコメントがございますか。
【上田副センター長】やはりスーパーコンピュータというのは、従前は流体力学などのシミュレーションがメインだったので、やはり関心のある技術者、研究者は限定されたと思うんですね。今、いわゆる最適化問題というのは大昔からあるんですが、その当時は、いわゆるNPハードか、そうでないかというのがポイントになった議論もあったんですが、もう既に多項式時間というのは、もう現実問題では何も使えない。つまり、リニアでも危ない。ほとんどコンスタントぐらいなレベルですね。そのようなアルゴリズムはまずないんですね。それはやはり試行錯誤でシミュレーションやることで、そのヒントを得るというのが割と機械学習と最適化論に結び付いて、例えばベイズ最適化などのブラックボックス最適化、つまり、目的関数は書けないけども、評価は可能なので次の最適観測点を探すことができる。これでNIMSだとかそういう領域でもかなり発展していると。そういうときにはやはりそのシミュレーションというのに基づいた解析というのが重要になってくるので、関心は非常に高い。
 もう一つは、御承知のように、深層学習というのがGPUを使わないと動かないということで、理研でもそのDGX-1という富士通と作ったスパコンを使わないといけない。そういう状況なので、我が国でもそのポスト「京」への関心は当然高まっているという認識だと思います。
【田浦委員】一部、加藤先生のコメントに対するリアクションということも含めて、コデザインとか、あとは昔のシミュレーションVS今のデータ科学ということに関してですけれども、やっぱりコデザインは割とターゲットとなるワークロードが一部に絞られているときには最適な解であるという一方で、やっぱり今の機械学習もそうですし、あと、ちょっと前だと、ゲノムとかその手のものもそうだったと思うんですけど、そもそも自分でコードを書いてられないと。いろんな人が日々開発しているものをどんどん取り込んでいなきゃいけなくて、なかなかコデザインといっても、上のソフトの方が非常にムービングターゲットなので、なかなかしにくい。
 コデザインは、いいところはあるんですけれども、やっぱりそれを繰り返して、余り世の中には広まらないプロセッサを作ってきたというのが歴史だと思うので、今回はArmで、その上のエコシステムということについてもかなり気を使って設計されているというふうに期待していますし、あとは、最近はコンテナ技術というので、ややこしいソフトウエアスタックをとにかくマシンの中に入れなくても、イメージという形で流通させれば、環境がいろいろ移せるということで、何となくそういう両者のいいとこ取りをするようなパスというのが解としては出てきているのかなという、そういう感じがいたしました。
【辻井委員】それともう一つは、AIの側からポスト「京」的なものに対する期待というのが高まっているんだと思うんですね。実際には、先ほどのNVIDIAの話がありましたけど、Googleの方もTPUというAI用のプロセッシングユニットを作っているわけですよね。彼らが出してくるソフトというのが、Googleのクラスタでないと動かなくなり出していて、日本のかなりの多くの研究グループというのが、計算リソースの上で太刀打ちができなくなってきていると言うんですか。
 だから、そういう意味では、特にパブリックセクターの方で、日本の大学の研究者なり、国の研究機関の研究者がGoogle、Facebook等々とまともに戦っていこうと思うと、それなりの大きな計算機リソースを使えるようにしないと勝てなくなってきていると言うんですか。それが日本の国の中で、まあ、ポスト「京」だけに頼るわけではないと思うんですけど、一種の計算機のある種のハイアラーキーがあって、ポスト「京」もかなり使わせてもらって、使える計算リソースを、強さというのを日本として上げないと、AIの方でなかなか勝てないんじゃないかという意識が出だしていることは確かだと思うんですね。それで、AIの側からのポスト「京」に対する期待が高まっているということだと思いますけど。
【安浦主査】はい。住先生。
【住委員】ポスト「京」はいいんですけど、日本の悪いのは、1か所にみんな寄ってくるという点です。これもHPCIとあるけど、日本には数多くの第二階層の計算機があります。だから、本当はもっとそういうところも強化してほしい。例えば産総研だって自分用のスパコン作ればいい。要するに、もっと多様な、それぞれの特徴を持つようなマシンをいっぱい作るような努力をしていかないとダメと思います。誰かが頑張ってポスト「京」を作ったら、そこにみんなが行って、うまいことやりたいという姿勢はよくないと思う。
 だから、今度の話でも、全部のテーマがポスト「京」の神戸のマシンに寄り添うべきではなくて、第二階層あるマシンをもっと強化をするということを同時に展開すべきだと思います。それぞれ特徴を持たせたスペックのマシンを展開して、全体として日本のいろんな分野がやっていくという、そういう方向性を取るべきだと僕は思います

安浦主査より閉会



お問合せ先

研究振興局参事官(情報担当)付計算科学技術推進室

電話番号:03-6734-4275
メールアドレス:hpci-con@mext.go.jp

(研究振興局参事官(情報担当)付計算科学技術推進室)