情報委員会(第27回) 議事録

1.日時

令和4年8月30日(火曜日)10時00分~12時00分

2.場所

オンライン会議

3.議題

  1. 第26回情報委員会(書面調査)の結果、プログラム評価について
  2. 総合科学技術・イノベーション会議による中間評価を受けたAIPの進め方について
  3. 研究DXを支える学術情報基盤の整備について
  4. その他

4.出席者

委員

安浦主査、相澤委員、奥野委員、小池委員、後藤委員、佐古委員、田浦委員、瀧委員、塚本委員、中島委員、長谷山委員、引原委員、深澤委員、美濃委員、八木委員、若目田委員

文部科学省

工藤参事官(情報担当)、河原計算科学技術推進室長、藤澤学術基盤整備室長、黒橋科学官、竹房学術調査官、松林学術調査官

5.議事録

【安浦主査】  それでは、定刻になりましたので、科学技術・学術審議会情報委員会の第27回会合を開催いたします。
 本日も、新型コロナウイルス感染症の感染拡大防止のため、オンラインで開催することにいたしました。今回は、報道関係者も含めまして、傍聴者の方にもオンラインで御参加いただいております。
 また、通信状態等に不具合が生じるなど続行ができなかった場合、委員会を中断する可能性がございますので、あらかじめ御了承ください。
 本日は、井上委員、川添委員、星野委員から御欠席との御連絡をいただいております。
 配付資料の確認とオンライン会議に当たっての説明を事務局よりお願いいたします。

【佐々木参事官補佐】  ありがとうございます。事務局でございます。
 それでは、議事次第に基づきまして配付資料を確認させていただきます。
 皆様、既にダウンロードいただいているかと存じますが、本日、議事次第が1つと資料1-1、1-2、資料2、資料3-1から3-3と資料が6つと参考資料が1から4まで4つ、議事次第を含めまして全部で11のファイルをお送りさせていただいているかと思います。
 何かもし現時点でお困り事や不具合などがございましたらお知らせいただければと思いますが、いかがでしょうか。
 今後も何かございましたら事務局までお電話で御連絡をいただければと思います。
 続いて、オンライン会議の注意事項を申し上げます。委員の皆様におかれましては、発言時を除き、常時ミュート、マイクをオフにしていただければと存じます。
 また、ビデオにつきましては、常時オンに、ビデオ開始、ビデオをオンにしていただければと存じます。
 もし会議中に通信状況が悪化するような場合につきましては、主査の安浦先生を除きまして、常時ビデオはオフにしていただければと思いますが、そういったことがない限りは皆様ビデオをオンでお願いできればと思います。
 御発言される場合には、Webexの手を挙げるボタンを押して御連絡をお願いいたします。
 安浦主査におかれましては、参加者一覧を常に開いておいていただきまして、手のアイコンが表示されている委員の方を御指名いただければと存じます。
 本日、議事録作成のために速記者を入れておりますので、速記者のためにも発言される場合にはお名前から御発言をいただければと存じます。
 何かトラブルがございましたら電話で事務局まで御連絡をいただければと思います。
 先ほどオンラインで御参加いただいていると御発言いただきました傍聴者の皆様につきましては、Zoomで御参加いただいているところでございます。
 以上でございます。

【安浦主査】  ありがとうございます。本日は3つ議題を予定しております。第26回情報委員会、これは書面調査で行いましたけども、その結果とプログラム評価について、それから、総合科学技術・イノベーション会議による中間評価を受けたAIPの進め方について、3番目は、研究DXを支える学術情報基盤の整備についてという3つの議題を予定しております。
 それでは、初めに、書面調査として実施いたしました第26回情報委員会の結果を報告いたします。資料1-1に基づきまして事務局より御説明をお願いします。あわせて本件と関連する分野別研究開発プログラムのプログラム評価についても、資料1-2に基づきまして事務局より一緒に報告していただきます。
 それでは、お願いいたします。

【佐々木参事官補佐】  ありがとうございます。事務局でございます。では、まず参考資料2をお開きいただけますでしょうか。
 書面調査の際に簡単に御説明させていただいておりますけれども、少しだけ背景を御説明させていただければと思いますが、こちら、令和4年7月8日の第81回の研究計画・評価分科会での資料を参考資料としてつけさせていただいておりまして、研究計画・評価分科会のほうで分野別研究開発プランを策定するというような進め方が示されているところでございます。
 こちら、下の「2.分野別研究開発プランの策定」という箱の部分を御覧いただければと思いますけれども、こちらにございますとおり、政策評価の体系に基づき、毎年度、情報委員会を含めた各分野別の委員会において、フォーマットに従いまして分野別研究開発プランの案を策定し、毎年度8月に開催される研究計画・評価分科会で各分野別研究開発プランを決定するというような手続が示されているところでございます。
 今回、最初の案につきましては書面調査で御確認いただきましたけれども、同じような形で、毎年度、分野別研究開発プラン、情報分野の研究開発プランについて何か更新、修正すべき点がないかについては、情報委員会の皆様に御議論いただく、あるいは御意見をいただくということを予定しているところでございます。
 この分野別研究開発プランの中において、「研究開発プログラムの単位を明確にする」と書かれてございますけれども、こちら、後半の説明にも関係しますので、少し触れさせていただきますと、研究開発プログラムの定義については、参考資料の3でつけさせていただいているところの2ページ、6ページ、7ページ辺りを御覧いただければと思いますが、一言で申し上げさせていただきますと、一定の目標の下で実施される研究開発活動のまとまりを研究開発プログラムと定めているところでございます。
 情報分野におきましては、研究開発活動のまとまり、委員の皆様御承知のところかと存じますが、1つの事業として定めているところでございますので、事前にお示ししているプランにおいても、1つの事業を1つのプログラムとして設定させていただいているところでございます。
 資料1-1を御覧いただけますでしょうか。こちらが情報分野の研究開発プランでございまして、先日の研究計画・評価分科会において議論いただいて、特に修正なく決定しておりますので、こちらが今年度確定した情報分野の研究開発プランでございます。
 「1.プランを推進するにあたっての大目標」については、文部科学省の施策目標8-3に書いてございますけれども、こちらの概要のとおりの大目標を定めているところでございます。
 2-1から2-4まで、4つプログラムを設定しているところでございまして、先ほどお伝えさせていただきましたとおり、事業を単位としてプログラムを設定させていただいているところでございます。
 ページをおめくりいただきまして、2ページ目でございますが、こちら、上位施策を書くところでございまして、ここには第6期の科学技術・イノベーション基本計画の主に該当する部分について抜粋してここに記載させていただいておりまして、該当する目標についても、こちら、下で抜粋をさせていただいているところでございます。
 おめくりいただきまして、3ページ目でございますけれども、こちらで、情報分野の研究開発プランの中のプログラムと研究開発課題と呼ばれるものの関係をここの一覧で示させていただいているところでございまして、上の部分でプログラムの一つ一つにアウトプット指標、アウトカム指標を定めているところでございます。これらについては、行政事業レビューシートなどで定めているものを参考にこちらで設定しているところでございます。
 下の線表の中におきまして、これまで研究開発課題の評価として見ていただいていた研究開発課題とプログラムの関係について示させていただいておりまして、基本的に1つの課題ごとに1つのプログラムとなっておりますけれども、プログラム(4)のHPCIの構築につきましては2つの研究開発課題がその中に含まれているというような関係になっているところでございます。
 4ページ目以降につきましては、プランのフォーマットとして研究開発課題ごとに直近の研究開発課題評価を行ったときの概要の部分、どんな事業なのかといった概要の部分を、既存の資料として固まっているものがございまして、それを添付するという整理になっておりますので、4ページ以降、そういった既存の資料を添付させていただいているところでございます。
 資料1-1につきましては以上でございます。
 続きまして、このプランに関係して、プランの中で定めたプログラムについてプログラム評価を試行しますというような予定にもなっておりますので、こちらについても併せて、関係しますので、御説明をさせていただければと存じます。
 参考資料4を御覧いただけますでしょうか。こちらは令和4年7月8日の研究計画・評価分科会において決定された文書でございまして、第11期の期間においてプログラム評価と言われるものを一度試行するということを書いているものでございます。
 少し下に行っていただいて、「1.評価の進め方」についてでございますが、プランにおいて定められた研究開発プログラムごとに、添付のフォーマットに従って、プログラム全体の状況を把握、モニタリングして、情報委員会から分科会に対して報告する、その際にプログラム全体や課題の進捗状況が分かる既存の数ページ程度の資料を添付するといったやり方が示されているところでございます。
 もう少し下に移っていただきまして、試行のやり方につきまして、「2.プログラム評価を行うに当たっての留意事項」でございますが、(1)のところ、2行目後ろのところから、可能な範囲で、全体を俯瞰した上での留意点や気づき、プログラムの進捗状況におけるコメントについて「プログラムの現状についてのコメント」欄に記入するといった方針が示されているところでございます。
 ここでフォーマットに移らせていただければと思いますが、3ページ目を御覧いただけますでしょうか。簡単に触れさせていただくだけでございますが、こちら、プログラム評価を試行する場合のフォーマットとして示されているものでございまして、1が大目標ということで、こちら、先ほどお示ししたプランの一番最初に定義しているものでございます。
 このようなフォーマットをプログラムごとに1枚、情報分野ではこのフォーマットを4枚つくるということが予定されておりまして、2のプログラム名と概要については、それぞれこちらのプランで定めているものをここに転記するという形でつくる予定でございます。
 3の(1)、プログラム全体に関連する指標及びその状況については、アウトプット指標、アウトカム指標というものがございますが、これらは行政事業レビューシートを今後、文部科学省で今年度まだ公開しておりません、今後公開予定でございますが、そちらでこれらの指標の状況について書いているところですので、そちらを参照して作成できるものでございます。
 (2)の個別の研究開発課題に関連する指標及びその状況についても、少し下に下りていただいて、プログラムごとにその中に含まれる研究開発課題が幾つかあると。基本的にHPCIの構築以外については1プログラム1課題でございますけれども、こちら、目的・概要ですとか、課題の実施期間・体制、あるいは予算額とか翌年度要求額、さらに指標、測定指標、成果指標、活動指標、あるいは、インパクト、アウトカム、アウトプット指標といったものを書くところがございます。これらについても、既存の行政事業レビューシートですとか、あと、少し下に下りていただいて、下から2つ目、「基本計画等への貢献状況」という欄もございますが、こちらについては、研究開発課題の評価の中で上位施策に対する貢献状況という欄がございますので、そちらの内容を転記する形で作成することができるものでございます。
 4ページ目の一番下の「4.プログラムの現状についてのコメント(任意)」というところがございまして、こちらが先ほどお示しした追加するところでございまして、分野別委員会等として進捗状況におけるコメントがある場合は記載するとなっているところでございます。
 「5.参考」も、客観的に、自動的にといいますか、入力していけるような情報を入れるような欄となっているところでございます。
 参考資料4の最初のほうにお戻りいただければと思いますが、今御説明したように、このフォーマットの中でほとんどの部分については、事務局のほうで、行政事業レビューシートですとか既存の研究開発課題の評価の結果を使って、作成、状況をお示しすることができるところでございまして、先ほどお伝えしましたけれど、2の(1)のところにございますとおり、情報委員会の皆様には事務局で整理したものを見ていただいて、全体を俯瞰した上での留意点や気づき、プログラム進捗状況におけるコメントについてコメント欄に記入するといったことを予定しているところでございます。
 少し上のところ、「2.プログラム評価を行うに当たっての留意事項」の上4行ですけれども、このプログラム評価の試行については、11期、今期の中で一度実施することとされておりまして、その後当面委員会ごとに隔年で行うと。今、情報委員会、11期でございますが、1期ごとに1回ずつ行うということが予定されているところでございます。
 11期の試行の結果については、今期の最後にまとめて、進め方の提案を含めて次期に申し送りを行うこととするというような方針が示されているところでございます。
 2ページ目の(4)の1)を御覧いただければと思いますが、プログラム評価における利害関係者についてということで、1)のところを読ませていただきますけれども、情報委員会においては、各プログラムの趣旨や性格に応じてあらかじめ利害関係となる範囲を明確に定めることとする、利害関係を有する可能性のある者を評価に加える場合には、利害関係の内容を明確にし、名簿に記載するといった方針が示されているところでございます。
 これらを踏まえまして、情報委員会でのプログラム評価の試行のやり方について整理させていただいたものが資料1-2でございます。資料1-2を御覧いただけますでしょうか。こちら、1と2ということで、試行的実施の進め方と、先ほど委員会ごとに定めるとなっていた利害関係者の範囲についてこうしたらどうかということで事務局としてお示しさせていただいているものでございまして、1については、先ほど御説明させていただいたとおりでございますが、事務局で行政事業レビューシートですとか既存の課題評価の結果の対応箇所を明示させていただきまして、フォーマットのこの部分はここを参照することで作成できますといった情報を整理させていただきます。それに基づいて、特に指摘すべきコメントがあれば、4の「コメント(任意)」の欄のところに記載するというような形で試行することを想定しているところでございます。
 2の利害関係者の範囲につきましては、試行的実施の中では、状況をモニタリングする、状況を把握するということが主だとされておりまして、課題評価の場合には施策実施の当否を判断するということをやっているところでございましたけれども、そういったものではなくて状況をモニタリングするもので、事務局が整理した情報に基づいて、必要に応じて気づきや進捗状況に対するコメントを付すということがフォーマットの中で求められておりますので、これは研究開発課題の評価のときとは少し異なって、下に(1)、(2)と書かせていただいているとおり、自ら利害関係があると判断される方ですとか、情報委員会の中で利害関係があると判断された者、そういった方だけ利害関係者として定めるという範囲にしてはどうかということを考えているところでございます。
 このような方針で今期のプログラム評価の試行をやらせていただければと思っておりますが、何か御意見があればいただければと思います。
 説明は以上でございます。

【安浦主査】  ありがとうございました。
 ただいまの事務局からの説明につきまして御質問や御意見ございましたら、挙手にてお知らせください。深澤委員、お願いします。

【深澤主査代理】  深澤でございます。1点教えてください。ここに表示されているのはあくまでも試行ということかと理解しております。試行した結果をどうするのかということについてお教えいただけますか。来年は少しまた試行した結果を考慮して変更するとか、あるいは途中でも何か変えることがあるのでしょうか。

【佐々木参事官補佐】  ありがとうございます。事務局でございます。先ほど参考資料のところで触れることが十分できていなかったかと思いますが、今期中に一度試行ということで、ここでやってみた結果、実際に試行してどんな結果が出たのかということを研究計画・評価分科会に報告するとともに、進め方についても提案を受け付けているような形になっておりまして、それらを踏まえて、同じやり方でやるのか、あるいは新しいやり方でやるのかといったところが、研究計画・評価分科会のほうで今期中に議論される予定であると承知しております。

【深澤主査代理】  どうもありがとうございます。

【安浦主査】  基本的には、研究計画・評価分科会のほうで取扱いについては議論されるということでございます。よろしくお願いいたします。
 ほかよろしいでしょうか。それでは、次の議題に移りたいと思います。これは前回も少し御議論いただきましたが、総合科学技術・イノベーション会議による中間評価でAIPの進め方について御意見をいただいております。その件に関しての今後の進め方を議論するものでございます。資料2に基づいて事務局から説明をお願いします。

【神部参事官補佐】  参事官補佐の神部より御説明させていただきます。資料2を御覧いただければと思います。
 AIPプロジェクト、ここで対象としますのは理研AIPセンターのプロジェクトでございます。理研AIPセンターのプロジェクトにつきましては、先ほど安浦主査から御説明ありましたとおり、本年3月にCSTIの中間評価を受けております。このCSTIの中間評価というのは、情報委員会で行った中間評価のやり方をレビューする形のものとなっております。今回、CSTIから中間評価でいろいろ御指摘を受けまして、前回、5月の情報委員会にてCSTIで受けた指摘事項にどう対応していくべきなのかといったことを御意見頂戴したところでございます。その意見を踏まえまして、文科省として今後どういうふうな進め方で行っていくのかといったところを本日御説明させていただきたいと思っております。
 ページ番号1を御覧ください。CSTIから受けた指摘事項のレビューでございますが、CSTIからは4つ大きく指摘を受けております。
 まず1つ目でございますが、情報委員会としっかり対話をして対応を検討していくことということがございます。
 2つ目が、情報委員会での中間評価において指摘もされました理研AIPセンターの新たな戦略やビジョンというものを明確にした上で、具体的な指標策定や定量的な評価を行っていくべきということ。
 3つ目としましては、新たな戦略やビジョンを明確化していくに当たりまして、上位施策、具体的にはAI戦略が該当しますが、AI戦略に対して理研AIPセンターがどういうふうに貢献していくのかといったことを明らかにしていくこと、その上で、日本のAI研究開発の研究力にどう貢献していくのか、世界をどうリードしていくのか、そういったことを明らかにしていくべきだといったことが言われております。
 最後、4つ目でございますが、事前評価、これは理研AIPセンターの事前評価において、CSTIから御指摘いただいたところでございますが、他省庁との連携や雇用環境についてもしっかりと取り組んでいくことといったことが言われております。
 こういった観点を踏まえまして、我々としては今後の対応を考えていく必要がございます。
 2ページ目を御覧いただければと思います。2ページ目が5月の情報委員会にて委員の皆様からいただいた御意見をまとめたものでございます。
 まず最初のところにつきましては、主にどういった指標がよいのかといったところで御意見をいただいております。例えばソフトウェア・ライブラリの公開であったりとか、2つ目でいいますと、海外の学会だけではなく日本の学会も重要であると。
 あと、3つ目でございますが、プレスリリースやYouTubeの公開、視聴者数等も重要な指標であると。
 また、世界におけるAI研究開発の新たな潮流という意味では、新たな概念や言葉を生み出していく、そういったことも検討すべきではないのかといった御指摘もいただいております。
 一方、5つ目のポツでございますが、こういった指標も非常に大事ではございますが、ただいたずらにKPIを増やすのではなく、やはりしっかりと上位施策への貢献、そういったところを明らかにした上で指標を固めるべきだといった御意見もいただいております。
 以上を踏まえまして、我々としましては、2つの段階に分けて検討を進めていきたいと思っております。
 まず1つ目としましては、理研AIPセンターの上位施策(AI戦略)への貢献、位置づけを明確にした上で、その上でどういった貢献をしていくべきなのか。その結果、我が国のAI研究開発をどう牽引していく、世界の潮流をどうつくり出していくのか、そういったことをまずは整理していきたいと思っております。
 さらに、こういったことを整理した上で、いただいた御意見を踏まえまして、評価していくためにどういった指標がよいのかといったことを検討するといった進め方がよいのではないかと考えているところでございます。
 3ページ目を御覧ください。AI戦略への貢献という観点でございますが、AI戦略におきまして、理研AIPセンターにはここで書かれているような内容の貢献が求められています。
 まず1つ目は、「AI戦略2019」において、理論研究を中心とした革新的な基盤技術の研究開発で世界のトップを狙うこと。
 「AI戦略2021」におきましては、ビッグデータ収集ができない分野でも適用可能な機械学習技術や、深層学習の理論体系など、先端的な研究課題に取り組むとともに信頼される高品質なAIの実現を目指すことが記載されております。
 さらに、今年改定されました「AI戦略2022」におかれましては、社会実装の充実に向けた目標の1つとしてAIの信頼性の向上が挙げられているところでございます。
 こういった内容を踏まえまして、事務局としては、AI戦略への貢献ということで、一つ大きな方向性としては、信頼されるAIのために理研AIPセンターが貢献していくといったことが一つ重要な方向性として示せるのではないかと考えているところでございます。
 続きまして、4ページ目を御覧ください。一方でCSTIの中間評価とは別の流れではございますが、信頼されるAIにつきましては、AI中核3機関、理研AIPセンターと産総研、あとNICTでございますが、この3機関についても連携をしていくことというのが今政府の中で検討を進めているところでございます。
 背景としましては、もともとAI中核3機関におきましては、従前より連携をしっかり行っていくことが求められておりました。そういった背景を踏まえまして、内閣府、総務省、経産省、あと文科省を加えまして、この3機関の連携を行っていくに当たって共通の目標を掲げていくことが重要ではないのかというような議論をしております。その中で、共通の目標として「AIの信頼性の向上」というものが一つ柱として掲げられるのではないかといった議論をしているところでございます。
 これを踏まえまして、理研AIPセンターにおきましても、AIの信頼性向上のためにどういった取組ができるのかといったことを整理した上で、この3機関との連携を今後考えていくといった流れが考えられているところでございます。
 以上を踏まえまして、まとめでございますが、5ページ目でございます。繰り返しにも少しなりますが、前回の情報委員会での御指摘を踏まえまして、まず理研AIPセンターとして上位施策(AI戦略)への貢献をしっかり整理すること。その上で具体的にどういった指標がよいのかというのを考えていく。こういった2段階のアプローチで進めていきたいと考えております。
 AI戦略への貢献という意味では、信頼される高品質なAIというものを一つ大きな柱として、これにどういうふうに理研AIPセンターとして貢献していくのかといったことを整理していきたいと考えております。
 その上で、最終的に、日本の研究開発をどのように先導していくのか、さらには国際的なプレゼンスの拡大をどのように上げていくのかといったことも踏まえまして指標の検討をしていきたいというふうな流れで今後作業を進めていきたいと考えているところでございます。
 事務局として考えている今後の方向性は以上でございます。御意見を頂戴できればと思います。どうぞよろしくお願いいたします。

【安浦主査】  ただいまの事務局からの説明に対しまして御質問や御意見ございましたら挙手にてお知らせください。奥野委員、どうぞ。

【奥野委員】  奥野ですけれども、今の資料ですが、上位施策に対するところにフォーカスを絞るというのは、それは十分分かりますし、信頼されるAIもいいと思うんですけれども、例えば産総研のAIセンター、あるいはNICT等でみんなで寄ってたかって信頼されるAIばかりにフォーカスを絞られても、それは困るのであって、そういう中でも文科省としての理研AIPセンターとしては、さらにもっと基礎的なことをやっていただくとか、そういうことを何らか明示する必要はないのでしょうか。

【神部参事官補佐】  ありがとうございます。信頼されるAIという1つの方向性でございますが、この中でも、一言で信頼されるAIといっても非常に多岐にわたるテーマがあると考えております。
 さらに、信頼されるAIに向けましては、もちろん応用研究なども進められますが、理研AIPセンターとしましては、これまで進めてきた基盤的な研究開発、さらに理論を中心とした研究が、主にこのテーマへの貢献として重要な位置づけだと考えてございますので、信頼されるAIというものを一つ掲げた中でも、文科省として理研AIPセンターとしてはやはり基盤的なところ、さらには基礎的なところ、理論的な研究、そういったところが主な貢献になると考えてございますので、そこでしっかり特徴や強みというのは出していけると考えております。

【奥野委員】  分かりました。

【安浦主査】  それでは、瀧委員、お願いします。

【瀧委員】  瀧です。今の信頼される高品質なAIに関して続いて質問なんですけれども、今のお答えの中にも、非常に広範囲にわたるというのがありましたので、逆に言うと、信頼されないAIというものを皆さん研究はしていないと思います。
 ですから、今やっている研究自身はほとんど信頼されるようなものを目指してやっているはずなので、ここの指標の決め方によって、やはりこの3センターの方向づけが非常に制限されることになるかもしれませんので、それについては早く決めていただいて、例えばこの委員会でもそれがいい指標になっているかどうかを議論する必要があるのではないかと思います。
 以上です。

【安浦主査】  ありがとうございます。事務局、何か御発言ございますか。

【神部参事官補佐】  ありがとうございました。瀧先生がおっしゃるとおりで、高品質なAIを目指すのはある意味AIを研究開発進める上では必然になってくるところでございますが、じゃあ、どのように高品質なAIを実現していくのかという、そのアプローチにつきましては、やはり戦略性を持ったりだとか、あとは強みを生かした進め方、研究開発課題を設定していくといったことが必要になってくると思われます。
 その中で、いろいろなアプローチや多岐にわたる研究課題の中で理研としてはどういったところをやっていくのかをまず整理していく必要があるのかと思っております。
 その上で、先生御指摘のように、指標というものは、やはり内容を限定というか、つながっていきますので、そういったところも御意見いただきながら、検討、設定をしていきたいと思いますので、どうぞよろしくお願いいたします。

【瀧委員】  はい。

【安浦主査】  今、奥野委員、瀧委員から御指摘ございましたように、信頼されるとか、高品質とかいう言葉の定義自身、理論的なバックグラウンドをどのように置いて、何をもってトラストと言うかという、そういった話は当然理論的基礎の問題に関わってくるので、その辺りがおそらく理研AIPセンターが中心となって進めていく課題の1つになると思います。理研AIPセンターと情報委員会がよく意見交換をするというのがCSTIからの御要望の中にもございましたので、この辺りを議論させていただきながら、理研AIPセンターからも御意見いただいた上で、またこの委員会で、必要であれば杉山先生に来ていただくということもあり得ると思いますけれども、議論をさせていただければと思います。
 瀧委員、よろしいでしょうか。

【瀧委員】  はい、よろしくお願いします。

【安浦主査】  相澤委員、どうぞ。

【相澤委員】  ただいまの話題に関係するところで1点だけ。3ページのところで、信頼されるAIのためにどのような取組を行い、今後どういった方向性で研究開発を行っていくかということで並べて記載してありますけれども、信頼されるAI自体は、ただいまのお話でお伺いしたように「AI戦略2022」、つまり今年度の戦略の話である一方で、今後の研究開発の方向性はもう少し長期のビジョンが必要ではないかという気がいたしました。今年度の上位施策への貢献について検討することは重要だと思うのですが、AI戦略というのは来年度以降も、最先端の研究を見据えつつ立てられていくものなので、現時点でのまとめと今後に向けた方向性は分けて検討するという見方も重要ではないかと感じました。
 以上です。

【安浦主査】  貴重な御意見ありがとうございます。この辺りも、理研AIPセンターとの打合せの中ではぜひ真剣に議論していかないといけないポイントだと思います。長期的な方向性に関しては、多分研究の先端分野で研究されている方から見えていることと、それから少し離れたところから、必要性、あるいは見えるものというのは少し違うと思いますので、その辺りのすり合わせをこの委員会を通じて行いながら、中長期的な戦略というものも議論していきたいと思います。どうも貴重な御意見ありがとうございました。
 事務局から何かございますか。

【神部参事官補佐】  ありがとうございます。御指摘、大変貴重な御意見ありがとうございます。まず理研AIPセンターとしましては、事業自体が、全体10年間のプロジェクトなので、まだ残り4年間ございます。そういった意味でまず、当面という意味ではこの4年間でどういった研究開発をしていくのかというところが一つ整理すべきこととしてはございます。
 一方で、4年間で全てが終わるというわけではなく、さらに、今の理研AIPセンターのプロジェクトの次を見据えてどういった研究を進めていくべきなのかということも見据えながら今回の検討を進めていく必要があると思っていますので、そういう意味では当面やるべきことと、さらに中長期的な観点も含めて整理をしていきたいと思います。

【安浦主査】  相澤委員、よろしいでしょうか。

【相澤委員】  どうもありがとうございました。

【安浦主査】  貴重な御意見ありがとうございました。ほかによろしいでしょうか。
 では、本件はこういった形で事務局と理研AIPセンターで議論をさせていただいて、またその結果をこの委員会に御報告し、必要であればこの委員会で議論をさせていただくという形で進めたいと思います。よろしくお願いいたします。
 それでは、続きまして3番目の議題でございます。研究DXを支える学術情報基盤の整備についての議論に移ります。本日は、京都大学の引原委員と東京大学の田浦委員に御講演をお願いしております。
 まず引原委員から研究DX推進の観点から、研究のライフサイクル全体における課題、必要な人材、体制について、京都大学や引原委員御自身が取り組まれておられることを中心に御発表いただきます。その後で田浦委員からmdx(データ活用社会創成プラットフォーム)の現状と課題について御発表いただきたいと思います。
 この2つの御発表を踏まえまして、25分程度、議論をさせていただければと思いますので、よろしくお願いいたします。それから、その議論の後にいわゆるポスト「富岳」のFS、次世代計算基盤に係る調査研究の状況について事務局から報告いたします。
 それでは、引原委員、どうぞお願いします。

【引原委員】  御紹介いただきました京都大学の引原でございます。資料の提示をよろしくお願いします。ありがとうございます。
 本日は、お示ししていますこのタイトルでお話しさせていただく機会をいただきまして、どうもありがとうございます。御礼申し上げます。
 本情報委員会は、過去に学術情報委員会が所管しておりました大学図書館に関わる事項についても扱うことになっておりますけれども、しかしながら、残念なことに本委員会で大学において図書館関係に関わっている委員は深澤先生と私、恐らくこの2人であろうと思っております。そういう状況で、オープンデータの議論におきまして幾つかの点で危惧される点がございます。例えば、本委員会ではオープンデータポリシーの議論がなされておりません。それでお互いの認識が共通化されているかどうかというところが少し疑問もございます。
 そういうことも含めまして、各大学の現場、実験系や人社系、あるいは図書館の現場から見ますと全く実態が伴っていないということもございます。そういうことがありますので、京都大学で今取り組んでおりますことに基づいて、御依頼のようにお話をさせていただきたいと思っております。よろしくお願いします。
 では、次のページお願いします。釈迦に説法で申し訳ございませんけれども、その上で、本日の議論が発散しないように前提条件を幾つか示したいと思います。
 この図は、学術情報の変化について示しております。時間の経過とともに左側から右側へ進んでいると思ってください。過去において情報は紙に固定されているというのが、書籍あるいは書類、文書と言われるものなんですけれども、それによって公共化されてきたという流れがございます。
 それで多様な知があるわけですけれども、それが図書館へ集積されていって、図書館がその補完と継承を担っていったということは御存じのとおりでございます。
 大きな変化は、1400年代のグーテンベルクの印刷機があって、その次の大きな変化というのは1990年代の電子図書館構想に至ります。電子図書館も当初は、保管、保存というのが主でしたけれども、御提案された長尾先生等は、それが既にネットワークで相互利用されることは当初から意識されて進められてきております。
 電子化が進み、情報が書籍というものから離れまして、1冊、2冊という冊の単位から、ネットワーク上のアイテムの数、あるいはセグメントの数、そういうものに変化していっているわけでございます。これは知識というものが多様化したということもありますけれども、分解して使えるようになったということでもあります。
 そのシフトがさらに完全形ではない新たな情報の流入を生んでいて、そこに大きなジレンマが生じております。アーカイブの確保は必須なわけですが、アーカイブに基づいてエビデンスをとって研究される人社系では当たり前のことですけれども、新たにキュレーションされた情報の入手に追加の経費が必要になってきている。そういったものが求められて商品化されたものが出てきているというのが現実です。ジャーナル問題がまさにそのとおりでございますけれども、これに対してオープン化という戦略が、グリーンな、研究者の民主化活動として提案されたというのが根本でございます。
 ですので、オープン化というのはそもそもそういう流れにあるということを理解していただく必要があるかと思います。
 一方で、電子資料や画像は紙から離れた情報ですけれども、それはつくられた同時性、時間に対する同時性や同一性というものの制約がかなり外れて来ております。従いまして、データとしてクロス利用されていく、あるいは論理だけが使われるという、そういった状況が現状としてあります。さらにそこに研究データが加わってきている。これが学術情報の変化の概要でございます。まずこの状況にあるということを御理解いただいて、お話をさせていただきます。
 次のスライドをお願いします。これは研究の前提条件です。これも釈迦に説法で申し訳ないですけれども、基礎研究の創成というのは個人の能力に頼っているわけですけれども、基礎的成果が見出された後に研究が展開したり成熟したりしていきます。そういう過程を経ていきます。一般に改良型の研究、プラスアルファ、プラスベータという研究は論文として通りやすいですし、特許も取りやすくなります。そういうものが論文のインパクトを与える数のソースになっているということでございます。集中的に誰かが引用されていくということがあるわけです。
 そこがよくイノベーションという言葉で議論されまして、イノベーションにつながる成熟というのがありますが、そのイノベーションというのは経済的視点であって、研究自身のものではない。研究のイノベーションではなくて、別の、産業化等のイノベーションであるので、展開から成熟の過程というのは本来ならそういう指標が入るものではないと考えています。
 それと同時に求められている既成理論の破壊というか、パラダイムシフトと呼ばれ、そういう変革も求められるわけですが、その方法論というのは今のところ見受けられてはおりません。
 ですので、今日お話しする視点というのは、あくまで科学技術としての基礎研究からの展開、それから成熟として集合知が広がっていくという、左のほうのところになると御理解ください。
 もう一つ前提として次のページをお願いします。基礎研究にフォーカスしますと、古典的な研究活動というのが書き上げられるわけですけど、この図はそういうものでございます。多くの場合、研究の資料やノウハウというのは研究者に秘匿されていまして、それを個人、グループが検証して、その中で既存の結果と比較して検証していくということがなされています。それで研究のリテラシーとして論文作成、投稿、出版という作法が遂行されます。最終的に学会出版、商業出版を介して公開される。
 これが古典的な研究活動で皆さんが認識されているとおりだと思いますが、これを自由意思で行えるかどうかが一般的に学問の自由とか研究のオリジナリティーの維持という認識と重なってくることでございます。ですから、研究者の感覚的にはこの活動を維持するということは非常に重要なことであるということが言えます。
 一方で、古典的な流れは、下に書いておりますが、課題として属人的で共同研究が難しいとか、あるいは透明性が欠けているとか、論文が認められていく過程で研究者による学会という集団が固定化してしまうというような問題も生じてしまいます。その結果、学会自身が固定化することでパラダイムの見直しが起きないということも生まれてしまいます。
 研究データの秘匿の扱いというのは、客観的な研究公正の評価ができませんので、いわゆる神の手問題というような問題が生じてしまいますし、タコツボ化によって研究者自身の成長とかリテラシー教育の欠如というのも課題として生まれてしまいます。同時に図書館の活動の在り方にも大きな影響を与えるのが古典的な意識の研究活動です。
 今申し上げた3つの点を認識いただいた上で今日の視点に移りたいと思いますので、よろしくお願いいたします。
 では、次のスライドお願いします。研究のライフサイクルとデータマネジメントのライフサイクルというのが言葉としてあります。情報系の研究者の方は、左側のCyber上で仕事をされているわけですが、研究データのライフサイクルを見たら分かりますように、いわゆるデータ化されたものがどこかから入ってきて、それを回していくというのが研究データのライフサイクルです。
 一方、右側にありますようにPhysicalと書いておりますけれども、多くの研究者、ウェットであるとか、そういうものも含めて、研究、フィジカルケースのデータですね、この話を考えますと、基礎研究のほとんどが右側のフィジカルの部分でして、そこにオープンデータの概念を高飛車にぶつけるということは非常に難しいことだということがお分かりいただけるかと思います。
 というのは、接点が真ん中のところであって、左側のループを回すために右側の活動を修正するということは、そのライフサイクルからすれば非常に難しい形になります。しかしながら、今のオープンデータの議論は、多くの場合、左の中に右からデータが入ってくるという議論の図式が、欧州でも、アメリカでも、あるいは日本でもかなりなされています。本当にこれで研究データが回るのかという議論はなされていないというのが私の理解でございます。
 ですので、融合のために、境界領域の研究者とか、あるいは図書館職員にもっとこういうふうになりなさいという要求は出てきます。しかしながら、それをもって右側のループが回るわけではないということは明らかです。
 ですので、作業者に指示をするような構図というのは、研究のライフサイクルを見た意味での研究データの運用の在り方としてはよろしくないのではないかと考えています。
 これは多分に自分の経験にもよるわけですけれども、以前に医療工学をやっていたときに、医学系の先生方からこうしなさいと工学に要求は来るんですけれども、その要求が非常に高飛車なというか、工学的には無理なものというか、そういうような経験をして、なかなかプロジェクトが進まないということを若いときに経験したことから考えますと、何が足りないかということにも関連してこのように書かせていただいております。
 要するに、主業務、お互いの主業務をリスペクトして、自分の側で評価するという構図ではなくて、一緒に回っていくということが求められているのが研究データのオープン化ということのほとんどですので、そういうところに視点を移す必要があるであろうというのが私の考え方です。
 ですので、両方のプロセスを熟知する人こそが駆動力になるというのが現実に起きていることです。
 次のページをお願いします。実際にフィジカルの側の環境について見ますと、フィジカルは何もしていないかというと、そんなことはなくて、フィジカルの現場でも、アグリゲーター系ですけれども、どんどん主体になって既に研究者の研究のライフサイクルを回すような支援ツールはほとんど整っています。
 つまり、データとしてのそれぞれのステップとしてでき上がってきているわけです。それをいいとこ取りするというのではなくて、この回し方を再開発する必要があるわけです。そのときに、研究者に新たなコスト、要するに、ここを変えなさいといって新たなコストを要求するのではなくて、それぞれのやり方で進める中でよりよいシステムに落ち着かせていくということが現場では求められます。あるいは抜けているところを補っていくというのが必要なわけです。
 研究のライフサイクルを回すこの矢印、この絵で言えば矢印の部分にはいろんなフェーズがありますけれども、この矢印を回す駆動力が必要になります。研究のDXという言葉がありますけれども、当たり前ですが、これらのツールを使いこなすことではなくて、データを共有化する。上位にデータを置いて、共有化したものの中で各プロセスを切り出していくという考え方のほうに変えないと動かないであろうということが言えます。
 研究の現場では研究者が研究のライフサイクルをモチベーションの創出から論文出版まで単独で行っています。新たな方法論があるからデータを渡しなさいというのを各フェーズで言われたとしますと、それは当然研究者としては受け入れられないというのが容易に想像できるかと思います。それが今の状況です。
 次のページをお願いいたします。それでは、改めて、大学における研究のライフサイクルの分析をしております。この図は学術会議の課題別委員会で私が分析して作成したものでございます。この図は、さらにそれを修正してここの委員会のものに合わせています。
 研究開発が今どうなっているか、研究のライフサイクルがどうなっているかということを示しているわけですが、先ほどの前提条件で申し上げましたように、研究のライフサイクルにイノベーションやパラダイムシフトという概念はなくて、これらのそれぞれのステップ、プロセスを回していくことであって、別の評価を入れてこれを変えるということはあり得ないということです。
 大きなフェーズは4象限に分かれていまして、第2象限というか、左上のところにモチベーションがございますけども、モチベーションから始まるところに、研究のデータの基になるデータ管理、それから研究データの運用が右側に行きまして、それから下に下がって、研究者育成、研究リテラシーです。それから左に行って論文流通という、この大きなフェーズがあるということです。
 これらを詳細に説明させていただきますが、研究はモチベーションから始まります。左上の真ん中、境界、軸上にあるところですけれども、ここから実験・計測、あるいはデータ処理をして、検証・思考に進むわけです。この過程を残すことが客観的な研究公正のエビデンスと言われていまして、かなり今この圧力が強いわけです。研究公正に対してこの部分をオープンにしなさいと圧力をかけます。それが非常に研究者にとっては負担になっている事実があります。
 というのは、これを切り分けて、ステップ毎に本当にできているかということになります。頭の中でそれぞれいろんなものを組み合わせた中でやっていますから、研究公正としてこの部分を切り出したものが本当にエビデンスとしてあるかと言われるような紋切り型の言い方ではここはなかなか処理できない部分です。それはほとんどダークアーカイブされていて公開しない。最終的に論文が出てくるまでは公開しない部分として秘匿されて蓄積されていきます。これはどの研究者にも大前提です。
 この理解が分野によって大きく異なっているということが、実際の研究現場でデータというものへの意識の共通化を難しくしています。研究者のオープンデータに対する意識の乖離というのもこの部分で生んでいるということは現実にございます。
 ですから、何もしなくても研究のプロセスを進めれば研究公正が担保されるという形が不可欠となります。すなわち、ルールができたからこれに従って出しなさいということはあり得ないのです。
 次、データの取得後ですけれども、右上です。データ取得の確認後、理論とか数値計算等でキュレーションがなされます。これは研究側の分野にもよるかもしれませんが、実験、数値計算、理論のいずれか2つが一致しなければ成果としては成立しないというのが基本原則ですので、その原則に従うかどうかの過程です。それらを経て論証に至ると。論証によって一般化がなされる。
 データ駆動というのがここに大きく入ってくるわけですが、従来だったらモデルをつくってそこにデータで検証していくわけですけど、そうではなくてデータ駆動によってモデル化過程を飛ばしたような形とかいうような検証もありますし、データ駆動によってデータパラメータの絨毯爆撃をすることによって、かなり領域の広いところまで、本来使われなかったところまで拡張できるかどうかの議論などがなされます。一般化への手がかりとしては非常に重要なツールです。
 ですから、今のデータ駆動の議論というのはここのところで非常に重要になってくるということが分かります。
 次に、下へ行きまして、研究のリテラシーですけれども、これは論文作成の作業と一致するわけですが、残念ながら我が国の研究者というのは論文作成のスキルを標準的に教育されていません。学生の間に教育されたという、そういうコースというのは、最近でこそありますけども、今、研究者として活躍されている方々がその教育を受けたということはほとんどないかと思います。私もそうです。留学中に習うということはあるかもしれません。ですから、指導教員による直接指導とかPIによる指導、現場指導などがほとんどになっています。
 この過程が非常に問題でして、研究者育成の重要な部分なのですけれども、研究者倫理とともに大きく関係しています。ですから、ここでリテラシーの部分がある訳ですが、ただ、なかなかここのところに踏み込めていないのが現状です。
 ちょっと話を戻しますけど、研究者が議論を経て投稿先を決めるということをやったら、最初に行うことが研究のプライオリティの確保です。研究のプライオリティというのは非常に研究者にとって重要なわけです。誰が最初にやったかというタイムスタンプが非常に重要なわけですが、その1つが、今、皆さんもよく意識されていますプレプリントです。プレプリントというのは何も査読されてないから意味がないのではないかという議論がなされますし、情報の方々ですと、プレプリントよりも前にカンファレンスペーパーというものに意味があるというようなことをおっしゃいます。要するにプレプリントなわけです。ほかには特許というのもあります。昔は特許をわざと申請することによってタイムスタンプを取っております。
 プライオリティの確保というのは最重要課題ですが、プレプリントは1991年に高エネルギー物理の分野で論文のやり取りで研究者同士がアイデアの出現をお互いに確認してオープンに検証するという、コミュニティが生んだシステムです。研究のコミュニティと合致しているわけですが、ヨーロッパでもアメリカでも研究のコミュニティがかなり崩壊しています。そういう意味では、ネット上にコミュニティを確保するという意味でプレプリントというものが重要視されているということが言われています。
 有名どころはarXiv.orgです。このプレプリントが一番歴史があるわけですけれども、プレプリントサーバーで論文査読を受ける前に公開してプライオリティを確保する。査読期間中にアイデアを取られたりすることを避け、また修正する機会を得られる。これは御存じのとおりです。この仕組みを知らず、現実に私も3回程論文をとられています。査読中にそういうことが起きてしまうということが、有名出版社、学会系出版社でも起こり得るわけです。
 ですから、ここでプライオリティを確保するということが重要です。現在ではこれは例えばRoyal Societyとか、IETとか、最近はIEEEとかが利用を推奨するようになっています。長い間、私はここのプレプリント、arXiv.orgのボードメンバーとして分野を広げることをやらせていただいたんですけれども、その必要性というのが今はバイオ系に広がっていることはご存知と思います。BioRxivなどがそうです。
 日本でもJxivというプレプリントが立ち上がりました。Natureとかがこれはあんまり意味がないのではないかと言っていますけれども、そんなことはなくて、重要なのは出版社側の意識ではなくて、研究者としてプライオリティを確保してもらえるということが重要であるということを認識していただければと思います。先ほど申し上げましたけれども、重要なことはタイムスタンプの確保ということです。
 それで論文投稿をします。査読のやり取りを経て論文が出版に至るわけですが、それが左下になっていますが、この過程も公開されているケースがございます。後で申し上げるかもしれませんが、査読過程も今では全てオープンになっている。誰が何を言ってどう答えたか、それに対してさらに査読はどうなったかというのも全部オープンになっている。ですから、不当な査読を避けるという動きが既に実施されています。
 機関リポジトリでもオープンアクセスに供しつつあります。出版されたものが機関リポジトリからオープン化されます。一言言いますと、グリーンオープンアクセスというのが研究者にあまり伝わらないのは、お金が入ってオープン化すればどこでも一緒じゃないかと、そういう意識が生まれてしまうわけですが、それは大きな勘違いであって、オープン化の意味は、オープンにした側ではなくて、それを読める人側の意味です。ですので、APC払ってオープンにしたらもうリポジトリは要らないという認識は勘違いでして、検索ツールというのはそんなものではなくて、マイナーな雑誌ではあまり意味が無いのです。
 ですので、オープン化してもアクセスがかかって引用されるようなところに置かないといけないと。そのためには、多様なチャネルでオープン化していくということが研究者にとっては非常に重要だと理解できます。
 そういう意味で、プレプリントも、現実の論文も、機関リポジトリからのオープンアクセスというのも重要です。
 オープンアクセスであれば、必ずそのエビデンスを求められますので、そのためのデータのオープン化という流れに進んでいきます。こういう流れが一巡なわけです。
 例えば京大のリポジトリというのが、KURENAIというのがありますが、コンテンツ数では世界の第4位に位置づけられています。その上にあるのは、スミソニアンとか、NASAとか、とんでもないところや、1か所国を挙げたリポジトリとなっています。その結果、京大の機関リポジトリに載せますと、Google Scholar等の検索にかかりますので、その結果、Citationが平均で2上がるという調査結果も出ています。それは客観的な事実です。
 ですので、この様に多様な試みをすることを維持することが研究者にとってかなり利があるということが分かるかと思います。
 ところが、図書館系の方々も、研究者も、あるいは情報系の方々もそうかもしれませんが、オープンになっていればそれは一緒なんだと主張されます。理想的にはそうなんですけれども、そんな甘いものではなくて、やはりネットの在り方というのをちゃんと分析してやっていかないと、そこには戦略が入らないということになります。
 同時にAPCによるオープン化の経費の問題、それからハゲタカジャーナルの問題というのは、ジャーナル問題への対応と同時にここで非常に重要になりますので、この流れを、この論文流通を研究者に取り戻して、ジャーナルが読めない人にも公開するという原点の考え方に基づくことが非常に重要であろうと思っております。
 そして出版された結果ですけれども、これがオープン化されて、次の研究のオープン化を促すことにつながっていきます。
 今、リポジトリでは、京大の場合はですけれども、研究データの公開もしていますし、DOIの付与もしています。出版社の要求のデータの提出にはリンク先の提示だけで大丈夫なようにしていまして、データを出版社に取られるということに対しても防御策を打っています。
 シュプリンガーネイチャーとかエルゼビアがデータを置くということを要求してきますが、それに対して公的な機関リポジトリはきちんとした対抗手段を持っています。
 今NIIでつくられていますGakuNin RDMは本来そういう目的が最初にございます。ですので、日本唯一の認証サーバーという扱いなのですが、今や出版社とかは認証サーバーという考え方を少し下げていまして、論文1本1本に対してエビデンスは機関リポジトリでも十分であるということが分かっています。
 次のスライドをお願いできればと思います。この研究のライフサイクルを、研究データを扱う際に、データの投入だけでは駄目だということを申し上げたと思いますが、それだけでは研究者の支援はできません。研究データを管理運用するだけではなくて、研究者と並走してこのサイクルを回すということを考える必要があります。
 これは京都大学が検討中の例ですけれども、組織と人のデザインの一例として挙げております。研究データを研究のサイクルに並走する形でフローを合わせていっています。研究開始からデータシェアまで、上半分をデータ管理として扱い、研究リテラシーからオープンアクセスまでをオープンデータ、オープン化という考え方で扱います。このフローを回す支援組織として今考えているのがデータ運用支援基盤センターという仮の名前ですけれども、こういうものをつくり上げようとしています。
 このセンターには京都大学の情報環境機構、それから学術情報メディアセンター、それから図書館機構、その他の部局のセクションが機能協力するという形を取って、今まで縦割りになっていたものをきちんとここに張りつけていって、フローを流す機能をつくり上げるということを計画しています。
 これは図書館機構で以前やった機能化ということとそれの拡張した形になっています。サイバーだけでなくてフィジカルという意味では、最近コアファシリティの実験施設を各大学で準備するようにという指示が出ているわけですけれども、そういうものも在り方としてこの中に張りつけていくということを考えております。生身の研究者がいる環境で本来の研究の在り方にシステムを並走させるということが負担を減らすということにほかならないと思っております。
 今申し上げましたように、その間を動かす人がオレンジ色のところで必要であるというのが組織としての主張ですけれども、高度専門職の方々、今まで高度専門職であったんだけども、役割分担として明確でなかった方々を配置していくということが重要であろうと考えます。技術系技官の方々も、この研究はどう回っていくかということを理解し、情報系技官の方もどう処理するかと、図書系の方々もどう処理するかということを理解して回していくということが重要で、その中で若手の研究者が駆動を体験しながら研究育成されていく、リテラシー教育されていくと。そういう流れがつけば、それは一番よい形になるかと思います。
 効果といいますと、大学内を説得ができる必要がありますので、下2つ書いておりますけども、これはお読みください。とにかく今まで縦割りであったものをきちんと機能させるというのがこの試みの主旨で、こういう提案をしています。学内的には賛同を得られまして、今これの予算申請とか人の配置をどうするかという議論に入ろうとしています。
 ここにありますように、以前の委員会の報告で問題提起しました情報系の方々が例えば図書系に丸投げするような議論があったりしますし、そのスキルが足りないというような意見が出たりしますが、本来それぞれが専門職としてやっているスキルを生かさずに別のものに変えろというのは、これは大きな間違いでして、やはりそのスキルを生かさなければ研究のライフサイクルをきちんと回せないということを認識していただく必要があるかと思います。そのシステム提案としてこれは出しております。
 さらに研究データポリシーの考え方に関しまして、このように関係の部局とか人全ての流れを考慮してつくり上げる必要がありますので、大学において研究データのプラットフォームをつくり上げるということは、この流れのポリシーを、研究データのポリシーを各大学にフィットした形でつくれないと本当は回らないということになります。私は内閣府でガイドラインを作らせていただきましたが、国立研究開発法人とかの非常に分野を集中したところでは適用できると議論していますけれども、各大学では、分野、あるいはそれぞれの個性に合わせた在り方であるべきだということをその答申の中に記載しているんですが、なかなかそこが伝わらずに、今は決まったものを従いなさいという動きになってしまっていることを非常に残念に思っています。
 本当にこういうシステムができ上がりますと、それぞれ大学で分野間で連携し,複数大学で連携していくということができると思います。そういう流れというのは、例えば計算機センター等の話なんかにも共通する話ではないかと思いますし、それぞれが最適化することで、大学が動かなくなっているものをきちんと流れをつくるということで、フレキシビリティを高めることができるだろうと期待しています。
 次のスライドお願いします。結果として、先ほど申し上げましたデータ運用支援基盤センターの創設ですけれども、大学としての予算要求はしているわけですが、認められるかどうかは別として、こういうものが京都大学の中で認識されて支援をいただくという体制ができたということは非常に大きなことだと思っています。特に高度専門職の在り方というのがこの提案の中できちんと議論されるようになったということもありがたいことだと思っています。
 当然この中で学術情報メディアセンターを介して、NIIの認証サーバーとか、それから、後でお話ありますけど、mdxの話とか、海外とかのリンクはきちんとしたノードを介してやる。ローカルにもHPCはもちろんあるわけですけれども、そういうものとかローカルなmdxのような汎用計算機を置くというようなことも、この流れを明確にすることによって、学内の研究者に了解を得た形でやっていくことができると思います。今までやはり学術情報メディアセンター等がHPCを置いていても、学内の人たちが必ずしも利用できていないという実態の原因はどこにあるかというと、やはりそこが見えていないということもあります。そのことにもきちんと対処できるような形で考えています。
 当然GakuNin RDMとかは、全国の大学に散らばっている、散らばってしまったと言うべきでしょうか、防災とか、地球物理とか、宇宙物理とかいうような分野の連携とかが非常に重要だというのは認識しております。あるいは、医療系のビッグデータの解析など、非常に重要な取組です。
 ところが、個々の大学から見ますと、なかなかそことは乖離しているという実態を、御存じのとおり、理解して動く必要があるということです。このような理由から、ここに示すプラットフォームをつくろうとしています。
 学内的に大きなところは、情報系と図書系という全学組織がひとつマージした形でプロジェクトを組もうとしておりますが、この人のやり取りというのも非常に重要なことであろうと考えております。
 URAもここには参画していただいていますが、現在、京都大学のURAも改組の段階でして、そこをどういうふうな形で入っていくかというのはこれからの議論になると考えています。
 残りは、研究のライフサイクルを私が自分の研究で検証してみたというものです。この部分は後で御覧いただければと思いますけれども、次のページお願いします。やはり先ほどのライフサイクルの各ステップでどういう人が必要かというのをきちんと検証していきました。それが例えば左から右へのこういう人が必要です。
 次のページお願いします。実験データの実験モデルから、それからプロトタイプのときにはこういう人たちが必要であるというような話です。
 次のスライドお願いします。例えば一般化するときに、キュレータあるいはデータサイエンティスト、ドクターを持っているような人たちが参入してくることが必要。それから、ライブラリアンが何をするかということも検証していって、自分がライブラリアンとしてやりました。そういうことで動いています。あるいは予算申請はどの段階でやるのが必要かというようなことも検証してみました。
 次のスライドお願いします。さらに、これが一巡じゃなくて二巡目をして回っていくときに、予算申請とか、データライブラリアンがどういう支援をするかというようなことを踏まえて、どこでデータがストレージされるかということも検証しています。それらを経て、実際に足りないところがいっぱいあります。ですので、その次のページでございますけれども、先ほど示しましたオレンジのところ、こういう段階の人たちが必要になるということが分かっております。
 ですので、先ほど申し上げました体制は絵空事で机上の空論をやっているわけではなく、実際回してみて、二巡、三巡回して確認しているわけですけれども、分野的には広げないといけませんが、それによって何が足りないかというのが非常に明確になっています。上側だけでは駄目、下側だけでも駄目、その間につなぐ人たちがきちんと育たなければ、研究のデータを研究のライフサイクルと一緒に回すことができない。そういう人たちを育成していくということが非常に重要であると考えたという次第でございます。今現在こういう取組をしております。
 最後お願いいたします。オープン化という取組ですけど、結局今日申し上げたのは、研究者自身の意識の改革なわけですが、研究意識を変えるためライフサイクルを変えろということは非常に無理な話でして、それは研究自身の基礎研究をやめなさいということに匹敵します。ですので、それを進化させるためには、フローを回す中でその意義を皆様方に理解していただく必要があるということです。自然に環境が用意されていって、本来の研究活動の中で集中できる環境をつくることによって研究公正が自然に得られて、さらには戦略を明確にしていくということができるということが望まれます。
 以上のような取組を京都大学でやっている取り組みでございます。
 長くなりましたが、以上でございます。

【安浦主査】  引原委員、どうも示唆に富んだお話をありがとうございました。時間の関係もございますので、議論はこの後の田浦委員の話の後にまとめて行いたいと思います。どうもありがとうございました。
 それでは、引き続きまして、東京大学、田浦委員からmdxの現状と次世代学術情報基盤への一考察ということで御発表お願いします。田浦委員、よろしくお願いします。

【田浦委員】  ありがとうございます。東京大学の情報基盤センター長をしております田浦と申します。また、後で後半ちょっと出てきますけれども、共同利用・共同研究拠点のネットワーク、JHPCNというものの総括拠点長もさせていただいています。そういうことで本日こういうお話をさせていただきます。
 話の内容ですけれども、まず本題のmdxは一言で言ってデータ活用のための計算基盤というふうに位置づけております。その必要性、背景などについて簡単に、御存じのことも多いと思いますが、御説明させていただいた後、mdxの紹介と現状の御説明をさせていただきます。
 先ほど申し上げたJHPCNという拠点としてどういうふうにmdxを位置づけて取り組んでおり、今後取り組みたいと思っているかという話をさせていただいて、あとは、この後少し次世代計算基盤という話がこれからあると思いますけれども、その一角として少し議題に、議論に入れていただく材料にもなるかなと思って少し細部までさせていただきます。
 まず背景、大きな社会的背景、これは私があまり述べるほどの見識もないんですけど、皆さんのほうがよく御存じと思いますが、Society 5.0という社会的なゴールがあったり、第6期科学技術・イノベーション基本計画の中には、今日ももう既に出てきましたけれども、新たな研究システムの構築、オープンサイエンス、データ駆動型研究などの推進ということがうたわれております。
 また、最近は大学研究力強化委員会というところで研究力強化の話をしていただいていますが、コアファシリティやオープンラボなどの共用するシステムですとか、そのために、共同利用・共同研究拠点、ある意味そういうことをこれまでもやってきましたけれども、その活用というようなことが重要だとうたわれております。
 もう少し情報基盤というプロパーの話をしますと、NIIのResearch Data Cloudというのが本格的に始動して、今、エコシステムという計画が始まっていたり、さらにこの後も出てくると思いますが、次世代の計算基盤をこれから議論していくと、フィージビリティスタディというのが始まるという、そういうタイミングにあって、これら全てがデータ活用のための基盤というものが必要だということが一つの共通理解として広がっているところだと思います。
 ここからしばらくのスライドで、もう少し現場目線といいますか、研究者目線、あるいは情報基盤整備というものをこれまでやってきた情報基盤センターのような組織の目線で少し必要性について述べさせていただきたいと思います。
 まず1つは、これまでスパコンというものを利用していた分野が、計算科学、大規模シミュレーションといったような分野、あるいはゲノムはワークロード的には少し違いますけれども、そういうところがあって、それぞれ独自に大規模な計算基盤、スパコンを調達してきたんですけれども、やはりそういうことをそれぞれの分野で大規模化とか、高度化とか、いろいろ変化が激しいところにそれぞれが対応するというのは難しくなっています。分野ごとに情報基盤の大規模化、高度化に対応するのが難しくなっているという背景があるかと思います。
 2つ目は、今日、先ほどちょうど引原先生がおっしゃっていただいたことですけれども、これらの情報基盤、大規模な計算基盤を提供するという役割はそれらの分野には果たしてきているわけですけれども、非常に裾野の広い、求められている分野にすべからく提供できていると言えるかというと、そんなことはやはりないと思います。従来、スパコンはおろか、いわゆる情報技術活用というところからも既に縁遠かったような分野をはじめとして、データの蓄積、あるいはそれを有効利用する、特にAIが非常に汎用的なツールとして使われていくという中で、それらが重要な分野というのは非常に広く広がっていて、そういう多くの分野に使われる情報基盤というのは必要なんですけれども、これまでのスパコンを中心とする学術が用意してきた情報基盤がそれにきちんと応えられているとはなかなか言えないという状況があります。
 理由は、一部は利用制度、敷居が高いような、応募するときにいろいろ研究のプロポーザルが必要だとか、そういうこともありますが、それらはかなり改善しつつあると思います。「富岳」、フラッグシップであっても、ファーストタッチというような、かなり敷居の低いプログラムはできているところではあります。
 では、こうして敷居を下げていけばそれで問題解決かというと、そんなことはなくて、やはり一部は計算機環境、そういう環境を提供するに当たっての技術的な問題。根本を探っていくと、究極的には重視する利用目的、どういうワークロードを重視するかという、そういう問題に行き着くと。これは最後のほうに少しだけお話しさせていただきます。
 こういったフィーリングというか、感覚というか、センチメントを持っているのは我々だけかというと、そんなことはありませんで、これはUSのほうで、主にここに並んでいる方々は、これまでHPCとかすごくやられてきた方々ですけれども、そういう方々が2021年度に書かれたホワイトペーパーなんですが、そこにもDOEやNSFのスーパーコンピュータというのはスモールコミュニティにしかアクセスされていないというような問題意識が書かれています。じゃあ、コマーシャルクラウドがあるじゃないかと言うんですが、アクセスはできるんだけれども、研究とかディスカバリーに必要なコーディネーション、これは具体的には利用者サポートとか、コミュニティづくりとか、そういうことを言っているわけですけれども、そういうことができるとはとても言えないということで、ちょうどmdxのようなものが、少し我田引水的な解釈になるかもしれませんが、必要だということがうたわれております。
 先ほど申し上げた広い分野にリーチ、使われていないというところが、単に情報技術にある種あまり精通していない方という、それだけであれば、そこはアウトリーチとか教育で何とかできるところかもしれないんですが、もう少し問題は深いと思っていまして、やはりエキスパートの方、特にAIとかやられている方がスパコンとか「富岳」を使い倒しているかというと、なかなかそうも言えないというところがあると。そちらは少し問題が違っていまして、やはり彼らは進化の速いオープンソースを使いこなしている。そこの使いこなすということがなかなか画一的なスパコン環境ではしにくいと。1つのソフトを入れるにも物すごく苦労しないといけない。自分のマシンであれば簡単にできることが、共用の環境でいろいろ制限があるのでできないということで、いろいろ利用可能な範囲とか生産性が著しく損なわれて、AIとかのエキスパートにもあまりいい環境だと思われていないというような状況があります。
 表面的にはいろんな機械学習フレームワークとか、Jupyterとか、そういう環境を即座に用意できるかと。私はこのフレームワークが欲しいと。そのためにはこのバージョンのCUDAが必要とか、そういうところに適用できるかというのがたった今よく見られる問題でありますが、やはりより本質的なのは、そういうものはこれからも変化していくと。それにいかに早く追従できるかということかと思っております。
 こういう話に対して、商用クラウド利用が解決策かと。例えば同じお金を使うでも、商用クラウド利用の予算をつけるというのが解決策かということが考えられなくはないんですけれども、それは少し考えてみるとやはり違うということが分かると思います。コストというのが非常に表面的には分かりやすい話で、個々の研究者が払わなきゃいけないお金、あるいは、全体として投資の合計額を積み上げていったときに、じゃあ、こっちに流すのが正解かという話もあります。この次のスライドでお見せします。
 あとは、海外クラウドベンダが圧倒的なシェアをクラウドというと握っていますので、これをやってしまうと要するにお金もデータも全部海外へ流れるという図式になりますので、同じお金でもどこに流したいのかというところまで考えてもやっぱりここは考えるべきところだと思います。
 また、性能ということについても、HPCと両立する、ある程度の規模の並列計算というものと両立させようと思ったときに、なかなか商用クラウドでは制御が困難な要素がありますので、簡単に商用クラウドで解決することにはならないと思います。
 そして何よりも、先ほどの2枚目のスライドで申し上げたような、サポートとか技術の蓄積とかコミュニティの創成、それをやっていかなきゃいけないということで、ある意味、情報基盤センターというのは、共有の施設を利用してそういうことをやってきたということで、計算資源が使えるお金がどこかにあればいいという、そういう話ではないということです。
 こちらはあくまで参考ですけれども、仮にこういうような環境、例えば、今GPUで8枚刺さっているようなもの、これをとある大手のクラウドベンダで使いますと、1時間4,000円位です。1日に10万円、月に300万で、年間通すと3,600万円という、そういった値段になります。
 こういうGPUなしのCPUでも、1時間300円で、大体年に250万円ぐらいになります。
 mdxは後でお見せしますけれども、大体(a)のタイプが40ノードぐらいあって、(b)のタイプが368ノードぐらいあるんですけれども、それをまともにこのプライシングを当てはめますと、大体140億円とか、それ以上になります。これはストレージは含んでおりませんし、データを持ち出すためにお金がかかるというようなところも含んでおりません。
 mdxの場合は大体この規模のハードウェアと保守・運用・光熱費で大体6年間ぐらいで30プラス15億円程度という感じになりますので、国全体の投資としてもこれは意味のある投資の受け方だと考えております。
 そこでmdxなんですけれども、これは9大学2研究所、ここにあります9大学の研究所が共同で運営するというところを構想時から同意して、やはりこれまでとちょっと違った基盤が1つできればいいということではなくて、こういう環境を、協力して長い間育てていきたいというビジョンに基づいてこの機関が協力して始まっているものです。
 時間がありませんので、ここは少し省略しますが、簡単に使用感の紹介なんですけれども、このスライドだけ皆様のお手元にないものなので、ちょっとこちらを見ていただきたいんですが、ホームページから学認を使ってログインできるようになっています。これがプロジェクトの申請になります。ウェブ上で完結するような申請を書いていただいて、こちらマニュアルですけれども、認められたら、ユーザポータルというところから仮想マシンの管理ができるというようなインターフェースになっております。
 これは新しく仮想マシンを起動しているところです。起動後はもちろん普通のスパコンと同じようなテキスト、キャラクターのリモートログインでログインしていただくこともできます。
 それがこちらですけれども、今はJupyter環境をここで立ち上げて、ここでJupyter環境にログインしているというような状況です。
 これはこうやって計算結果の可視化から何からができるということでいろんな方に愛されている環境ですけれども、さらにGPUと、いわゆるこれはPyTorchというやつですけれども、機械学習のフレームワークを使って、この上で機械学習もできるというような環境になっています。
 また、ブラウザ経由ではなくて、普通のGUI、リモートデスクトップ環境をそのまま提供することもできておりますので、これまでのスパコンと比べてかなり自由度の高い使い方ができるという環境になっております。
 いわゆるスパコンとの違いですけれども、技術的にはスパコンは1つの単一の環境です。管理者が決めた単一の環境に全部のユーザがぶら下がるというものですけれども、仮想化環境、mdxは、個々のプロジェクトごとにテナントと呼ばれる閉ざされた環境を用意して、その中にユーザが張り付くと。こうして複数の異なる環境を同居させることができるというところが違います。
 ですので、利用モデルとしては、もちろんハードウェアは共有しているんですけれども、仮想マシンと仮想化されたストレージと仮想ネットワーク、これら全体つながったものが個々のプロジェクトに提供されるというものです。
 ハードウェアのスペックは、先ほども申し上げましたけれども、CPUが368ノード、GPUが8枚刺さったものが40ノード、それにストレージが1ペタバイト、16ペタバイト、10ペタバイトというようなスペックになっております。
 単独にこういうものが1台存在するというだけではやはり駄目だと思っておりまして、これは今後もこういう計算機がつながっていくというのが大事だと思っていまして、学認でログインできるのが1つでありますし、あとGakuNin RDMとストレージを連携させることができる。mdxの中のストレージがGakuNin RDMの1ストレージプロバイダというふうに使えるようになっております。
 また、これはクラウド環境ですので、環境の構築の自由度があると言うんですが、逆に言うと、それをしないといけないということなので、それを個々のユーザにやってもらわなくても済むような、ユーザごとに合わせた環境構築をサポートするための取組をいろんな先生に御協力いただいてやっていただいているというところです。
 また、非常に大規模、超低レイテンシが必要というようなワークロードだともちろん苦手なんですけれども、ハードウェアとして大体1ノードから400Gbpsぐらいのネットワークで、それのハードウェアに近い性能が出ているというようなことも既に実験していただいています。
 あとSINET、これは御存じだと思いますけれども、NIIの今やSINET6になって、ほぼ全県が400Gbpsでつながっている環境ですが、もちろんmdxもそれにつながっておりますが、それはmdxに別に固有のことではなくて、mdxと特に相性がいいのは、SINETが提供している広域のVPN、広域の閉域網というサービスです。mdxでは個々のプロジェクトごとに個別のVPNが定義されますので、個々のプロジェクトのユーザの都合で、私のテナント、私の環境を例えば自分の研究室とつなげたいとか、もしmdxみたいなマシンがほかにできたとしたら、そっちのテナントとつなげたいとか、そういうことができるようになって、SINET VPNとの連携が非常に有意義なものになると思います。
 さらに御存じのとおり、SINETではモバイルSINETというのをやっていただいていますので、データの収集のIoTデバイスをSINETのVPNに接続して、それをさらにmdxのVPNと接続して、データの収集から利活用までを1つの閉じたVPNの中で、ネットワークの中で安全に行えると、そういうような環境ができると思います。
 mdxの目指すものをまとめますと、研究データ管理という、これからの研究者の日常になるであろうもの、GakuNin RDMなどを使って行われる研究データ管理と隣接したデータ利活用環境というふうに一言で言って目指すものが表現できると思っております。
 そしてそれは多様な研究分野に多様な環境を提供できる。
 個々の分野で環境を持続的に提供できるかが不安なところに、もしこういう方向を国としてある程度コミットできたら、持続的な環境を提供できるということになっていくと思います。
 今、スパコンが5年後になくなると心配される方はほとんどいないわけなんですけれども、mdxはまだそこまでの地位というか、ステータスになっておりませんので、それができるということが今後重要かなと思っております。
 また、オープンなインターネットにつながれた環境ですね、これはこれから非常に重要なんですが、どうしてもスパコンだと、優先順位がちょっと違うというところから、これすらできていない場合があるということです。
 現在こんな感じでユーザ数が伸びていっております。2021年9月から利用を開始しているんですが、今、大体1年弱たったところでこんな感じになっております。ここに書いてあるのは、この後ちょっと述べますJHPCNという拠点のほうで使っていただいている課題の一部になります。
 mdxは拠点にとっても大事だと思っておりまして、委員の先生方はもう御承知と思いますが、共同利用・共同研究拠点といいますのは、個々の大学の枠を超えて大型の研究設備や大量の資料、データなどを全国の研究者が共同で利用するための仕組みです。現在100拠点ほどが認定されておりまして、我々はJHPCNという8大学がネットワークになった拠点を運営しております。正式名は長いんですけれども、思えば、学際大規模情報基盤という、大規模な情報基盤で学際的な貢献をするという精神は、10年以上前から変わらずやってきました。ただ、これまではスパコン中心で、高性能計算シミュレーション中心の分野だったんですけれども、2022年度よりデータ科学・利活用分野というものの募集を開始しまして、mdxも利用いただいているというところです。
 我々は、初心は13年前とほとんど変わってないと思いますが、それをデータ活用、データ駆動科学というところに広げていく。そのための必要な、より密着したユーザサポートというようなものをやっていければいいと考えております。
 最後に、次世代計算基盤に関する一考察ですけれども、本質的な目標というのは、スパコンであろうと、mdxのようなタイプであろうと変わらないと思います。
 1つは、規模の拡大。個々のユーザから見たときの規模の拡大が可能。つまり、1人で30だけ使ってずっと30使っているというのではなくて、1,000人で3万を共有したほうがいいと。時に自分は1日に1,000使いたくなることがあると。そういうことができるというのが重要ですから、大規模な環境を共有したほうが、資源を個々の研究室レベルでフラグメントさせるよりいいというのがこれまでやってきたことであるわけです。
 それに加えて、でも、それだと本当に1か所に集約すればいいという話になってしまいますが、それがなかなか全ての分野にリーチしていないという問題があって、それは本を正すと多様な使い方をサポートできていなかったということだと思います。
 一言で言うと、柔軟に環境が構築できて、自分で調達してしまえば面倒くさいこともなく簡単に動かせるというようなものが共有環境だと動かないということがないというのが大事だと思いますし、自分のこれまで積み上げてきたものとかオープンソースのソフトウェア資産が継承できるというところが大事です。
 それに加えて、我が国の技術の蓄積をするというところが非常に重要で、これはフラッグシップ開発のようなところでは特に重要視されているところです。
 これからは経済安全保障というような話も非常に重要視していかないといけない。
 最後に、ちょっと私の簡単な整理としましては、やはり両方に、当然それぞれの優先項目というか得意な項目があって、なのでどちらがいいとか、どちらが要らないとか、そういうことではないということです。ただ、長期的な課題として、単にこれまでと同じようにフラッグシップはフラッグシップで、たまにこういうのが出てきてというのではなくて、長期的な課題としてこういうことを両立させていくことが可能なのではないだろうかと。場合によりそれが我が国の独自に技術開発をすべきところだ、産学共創できるところではないかと。そのような視点を入れていただければいいと思いますし、そういう先の話を見据えつつ、次期計算基盤ではどう両立させるかというようなところをこの次から議論できていけばいいのかなと思っております。
 特に次期計算基盤とかフラッグシップの話になりますと、やはりプロセッサ開発をする、しないというような話が非常に中心になってしまいますが、FSの中にも入れていただいたような運用課題、運用技術、それは別な言い方だと、やはりユーザに直接どういう環境を提供するのかという、そういう視点で、その辺を重視した議論を少しFSなんかでもしていただければいいのかなと個人的には思っております。
 ありがとうございました。

【安浦主査】  田浦委員、ありがとうございました。それでは、大分時間がなくなってまいりましたけど、15分ほど、先ほどの引原委員のお話、あるいは今の田浦委員のお話に対して御質問や御意見を伺いたいと思います。
 まず八木委員、どうぞ。

【八木委員】  どうも八木でございます。非常に面白い話をどうもありがとうございました。
 まず引原先生にお伺いしたいのが、オープンデータでデータが回る全体の仕組みを作られてきたということと、それから、そのお話をされる前に少しおっしゃられたイノベーションとは違うというところの中で、データの知財としての扱い、また、場合によるとELSIの問題とか、多様な問題が含まれていると思うんですが、どういう形でこの上で今後表現していこうと思われているかということをぜひお聞きしたいということです。

【引原委員】  ありがとうございます。今の点は現代的な課題だと思っています。最近、研究のライフサイクルの中で、知財問題とそれからELSIの問題というのはありますけれども、それをやはり学内の組織として現状では持ってないと言えば持ってないわけですね。知財に関しては、TLOがありまして、そこで運営しているんですけれども、要請があったときに動いているというのが現実です。
 ですので、先ほどの実例で私自身が示しましたけども、それであったように、アイデアの段階からTLOとかが加わっていくということが重要であろうと考えています。
 ですので、URAあるいはTLOというのは連携しておりますので、その窓口を通じて常に並走していくというのが重要かなと思います。
 ELSIに関しては、これにまだ載せ切れてなくて、もう少し大きな問題のときにきちんと載ってきて、個別の研究者自身はなかなかそこまではまだ入り切れないんじゃないかなと思いますので、組織として窓口をまずつくれるかどうかというのを今検討しているところです。
 以上でございます。

【八木委員】  ありがとうございます。田浦先生にもお聞きしたいんですけれども、僕は画像屋なので、大量の画像データを扱うんですね。いつも我々のところはローカルにデータを置いているんですけれども、クラウドに置くと、今度、アクセスコストがあまりにもかかり過ぎて、それは金銭的にも時間的にもかかり過ぎて、なかなかスケールする世界ではないというのがあるんですけれども、その点、今のmdx上で大量のデータを扱う場合というのはどういう形で扱いやすい仕組みをつくられているのか教えていただけるとありがたいです。

【田浦委員】  この仮想基盤、仮想化ホストとともに、並列ファイルシステムが外におりまして、各プロジェクトからアクセスできる領域を払い出せるようになっております。
 ですので、もちろんクラウドに置いたときに出すのにお金がかかるとか、そういうことはここではありませんし、あとは、比較的、仮想ホストの数は少なくてもデータへのアクセスというのはある程度並列ファイルシステムで対応できる。

【八木委員】  そうすると、この全体を利用するときの利用料というのは、ストレージはあんまり考えなくてもいいんですか。

【田浦委員】  計算機のコストに比べたら比較的少ないと思います。もちろんゼロではありませんけど。

【八木委員】  ありがとうございました。

【安浦主査】  それでは、後藤委員、次お願いします。

【後藤委員】  後藤でございます。引原先生、田浦先生、非常に興味深い、大きなお話ありがとうございます。引原先生の研究ライフサイクルのお話の部分を田浦先生のこのmdxに掛け合わせると、実際どこがどう対応していくのかについてお聞きしたいと思います。
 特に一番は、引原先生からいわゆるデータエンジニアとか、いろんなサポートの仕組みが要るんじゃないかとの話があって、うなずきながらお聞きしましたが、その観点で田浦先生のmdxを見た場合に、どの部分にその辺りが必要になってくるという見方なのか。特に分散型にある拠点がさらにくっついている場合には、そういうサポート人材というのは分散のほうで何とかしてほしいという感覚なのか、それともさらに個別なのか、さらにもっと全体なのか、その辺りについて御見識、引原先生のほうからでも構わないんですけど、いただければと思いました。

【田浦委員】  ありがとうございます。引原先生の絵の中では、mdxの部分というのは、4つに分けた絵を描いていただいたうちの右上に一番深く関わっていて、あとはその1個前の段階の左上にも多少関わってくるという感じかと思います。
 それで、特にNIIのGakuNin RDMみたいなところでデータを管理するという、そこの日常のサイクルを国として全体としてつくっていくというところがあって、研究者は、日々そこでデータの管理をすると。そこで必要な共有をすると。そのときに、さらにデータ駆動の研究を回して、いろんなパラメーターをたくさん設定して、シミュレーションするとか、そういうところでこのmdxの計算基盤がお役に立つんじゃないかと思っています。
 人材育成のほうは、かなり本当に多岐にわたる人材が必要だと思いますので、非常に難しいところだとは思いますけれども、やはりmdxの、計算基盤寄りの、あるいはこれまで情報基盤センターがやってきた寄りの話としましては、やはりデータサイエンティストの部分とか、データエンジニアの部分、それにさらに少し大規模な計算が必要になったときの話ですとか、あとはデータのセキュリティとか、そういうところで、mdxのほうで必要な人材というものと重なってくると思います。
 引原先生の絵を見ていて、データキュレータみたいなところというのがどういう方が担っていけるのかというのは、私もむしろ伺いたいなというか、すぐにはないなと思っているところです。

【安浦主査】  それでは、引原委員お願いします。

【引原委員】  はい。田浦先生、ありがとうございます。おっしゃったとおり、右上のところで、今我々が考えているライフサイクルというのは、エッジにmdxと同じような環境があるということがあって、そこで処理して、さらには、方向性がつかめれば、田浦先生から御説明があった共同利用のmdxのほうに持っていって、大規模な計算をする。それを戻してきてキュレーションするかどうかという話になるかと思いますので、エッジとして考えていただくのがいいと思います。
 ただ、全体の中ではやっぱり研究者の全体のライフサイクルが支えられないということも理解していただく必要があるので、それは図書館に投げたら何とかなるというわけにはならないということです。よろしくお願いします。
 キュレーションですけれども、田浦先生が逆質問されましたけども、キュレータというのは確かに日本では難しいんですが、これ、分野によって全然感覚違って、博物学とかの考え方とかと、本当にデータのキュレーションというのは違っていまして、今回私自身は、同じ論理構造でデータを処理するところと別のところ、全然違うところで、裏側で研究している海外の研究者に対抗的に検証してもらうということをやって、結局それは裏表で一緒だという証明までして論文を出したという経緯がございます。そういうことが本当のキュレーションかなと思いながら今やっているところで、定義がもう一つ難しいかなと思っています。おっしゃるとおりです。
 以上です。

【安浦主査】  どうもありがとうございました。それでは、中島委員、どうぞ。

【中島委員】  中島です。両先生のお話、両方とも、プラットフォーム主体ではなくて研究活動を軸にした新しい試みと伺いまして、非常に勉強させていただきまして、ありがとうございます。
 引原先生に御質問なんですけれども、先生に最初に示していただいた研究ワークフロー、それからオープンサイエンスへの対応といったところは、研究活動、分野全体にかかるフローのように理解しているのですけれども、また先生に示していただいた京都大学における取組のワークフロー、インテグレーションについても、研究全体に係る汎用的なモデルになり得るのではないかというふうにも思ったのですが、一方で、今からなされようとしている取組については、理工系あるいはビッグデータを事例としたような取組にも拝見しまして、そういった分野に関わらないいいモデルになり得るものなのか、それともその間にはかなりギャップがあるのか、今後の展望、または感触等ありましたら伺えれば幸いです。

【引原委員】  引原です。御質問ありがとうございます。ライフサイクルに合わせたフローですけれども、これ自身は汎用的なものになると思っています。ただ、やはり文化が違うと言うとおかしいですけれども、多様な分野の中で、まだ全体の研究のプロセスが一般化されていない、リテラシー教育も含めてそこの部分が残っていると思います。それで、全ての分野でいきなりは難しいので、このシステム、オープン化のDXの実装ができるということを前提に学内の人文研とか予算要求とかで載せられるかどうかと考えてくださったりとか、アジア関係のデータを扱うところを考えてくださったりしていますので、実証を通してここをさらに深めていけるのではないかなと思います。
 実証のないままこれで行きなさいということをやりますと大概崩壊しますので、まず最初のループは、自分の場合で回してみたということです。おっしゃるように汎用化できると思いますが、まだまだそのためには間に入れ込む人、フローを流せる人が本当にどういう人かというのを訓練しながらやらざるを得ないのではないかなと考えています。
 お答えになりましたでしょうか。

【中島委員】  ありがとうございます。恐らく先進的な取組をどうやって裾野を広げていけるかというのがこの先にあろうかと思って質問させていただきました。ありがとうございます。

【引原委員】  ありがとうございました。

【安浦主査】  どうもありがとうございます。それでは、あと美濃委員と奥野委員、手が挙がっていますので、お二人お聞きしたいと思います。美濃委員からお願いします。

【美濃委員】  どうもいろいろ面白いお話ありがとうございました。特に田浦先生の話は、私がそうやれと言っているのを、なかなか理研内でやってくれないので、なぜできないのだろうと思っていたことなので、今日良い資料をもらったので、これを見て考えて、いろいろな話ができるかなと、実は頼もしく思っております。また、いろいろ御相談させていただければと思います。
 それで、引原先生の話ですが、データを出すところを横串にしようというのはすごくいいと思うんですけど、これはかなりの数の人が要りますよね。それで、これは絵に描いた餅にならないかというのを一番心配するのが1点。
 それから、オープンサイエンスというのはオープン化が目的じゃなくて、オープン化されたデータをどう使うかという話なんですが、その視点がこの絵にないというのは、個人の現場の話中心に書かれているので、多分書けてないと思うんですが、こういうデータ運用支援基盤センターみたいな、こういう組織がどういう形でオープンサイエンスを使うのをサポートするかという、その辺りに関してはどうお考えか、お聞きできたらと思います。
 以上です。

【引原委員】  御質問ありがとうございます。難しいことを聞いていただいたと思うんですが、まずオープンデータ、オープンサイエンスという考え方ですけれども、これ自身が、オープンサイエンスが、最近少し違うんじゃないかという意見が出ています。オープンスカラリーというか、学術研究のオープン化であって、オープンサイエンスというシティズンサイエンス的なところとはちょっと違うのではないかという意見も出ています。
 ただ、研究現場では全てオープン化というか、DXしていって、研究の重複とか、あるいはノウハウの伝承とかきちんとできなくなる状況を改善していかないといけないというのと、それから、次に備えて準備しないといけないので、こういう流れを考えております。
 ですので、オープン化という視点でその後どこへ持っていくかという話になったときに、この流れに矛盾するところがやはり出てくると思っています。そこを検証するためには、やはり学内のリアルな場所でやっていかないといけないというのが基本で、根本ですので、その辺は京大の事情に詳しい美濃先生はよくお分かりかもしれませんが、こういう共通認識を得られたことがまず重要と私は思っております。
 それで、実際に人がたくさん要るという話なんですけれども、現実にはどうなっているかというと、人の話は結局予算の話になると思うんですが、現実には1人の研究者と学生がひたすらぐるぐる回しているわけですね。その現実から考えればあまり理想的なもので人を配置してから、さあ動きましょうというのはあり得ないんじゃないかなと思っています。このスキルに長けた人たちを配置していくということが大学としては重要であるというのは、学内の委員会で今議論されて、理解を得ているところです。
 以上です。それ以上はちょっと言えないところでございます。

【美濃委員】  ありがとうございます。

【安浦主査】  ありがとうございました。それでは、最後、奥野委員、お願いします。

【奥野委員】  面白いお話ありがとうございます。引原先生にお伺いしたいんですけれども、このサイクル、オープン化という意味でも重要なんですけれども、もう一つ、スピードアップ、研究のサイクルをスピードアップさせるということが非常に重要なんじゃないのかなと思っておりまして、昨今、オープン化によって、先ほどのプライオリティの話がありますけれども、研究のスピードというか、そこの部分というのが非常に重要になっているんじゃないかなと思っています。
 そういう中で、先生のこのサイクルというのは、スピードという観点でどういうふうにお考えになっているのかということと、あとはプレプリントですね、arXivで、特に海外とかで実験ノートレベルのものをボーンと出してきて、取りあえず始めに唾をつけてしまうような、そういうような戦略できているようなこともかなりあるんですけれども、我々日本人は割と真面目で、そこそこちゃんとした形でというような形になっているんですけど、やはりこういうサイクルを回す中で、コンペティティブ、世界の研究のコンペティティブな部分というのも試行していただくとか、それに対する何らかの示唆というのは考えていただけるような状況なんでしょうか。

【引原委員】  質問ありがとうございます。難しい質問ですけれども。まずスピードの件に関しては、これは分野によって速さは全然違います。人社系とかの話を入れてしまうと、これは割とゆっくりした話になります。片やバイオ系ですと、こんなゆっくりしていなくて、途中から出版に入ってしまう、今おっしゃったような流れもありますので、これについては、やはり分野のポリシーに基づいてこれを決めないといけないと思っています。大学のポリシーでこれに従えというようなことはあり得なくて、分野のポリシーの中で、この段階で認証するから次のプレプリントに出していいよというようなコンセンサスが必要だと思います。それがステップを踏むことによってだんだん加速化していくと考えます。
 国際的な協調の話ですが、先ほどおっしゃったように実験ノート等の話、昔だったらログを研究室に置いておけば済んだものを、ちゃんと電子化してという話になっていまして、私自身が実験ノートの電子ノートを、そういうことでつくりませんかと言ったりもしたことあるんですけど、これはやっぱり分野に特化していまして、化学系とかはその辺はかなり進んでいて、バイオ系、化学系という分野は型にはまった形で共有化されていくという状況はあります。例えば私がいるような電気系とかだったらそんなの全然なくて、データが分からなかったらもう1回スイッチ入れたらよいというような話になってしまうわけです。
 だから、分野の違いがあるので、そこの部分が、やはり先ほど申し上げたように、ポリシーというのは大枠だけじゃ決まらないということだと考えています。
 ですので、エッジという、大学という場所でそこに合ったものをつくり上げることが分野としての在り方と整合が取れるのではないかなと思います。1回まとめてから整合を取るというのは難しいのではないかと思っています。
 以上です。

【奥野委員】  ありがとうございます。田浦先生にもお話をお伺いしたいんですが、また個人的にお伺いさせていただきます。

【安浦主査】  それでは、引原委員、それから田浦委員、貴重な話題提供をありがとうございました。研究DXとは何かという、かなり本質的な議論が今日はできたと思っております。まだまだ議論を続けたいことがございますけれど、時間でございますので、今日の委員会としての議論はここで打ち切らせていただきます。また必要であれば、次回等に引き続き議論をさせていただければと思います。
 それでは、事務局から次世代計算基盤に係る調査研究の状況についてという資料3-3の御報告がございます。事務局、お願いします。

【谷本参事官補佐】  事務局でございます。計算科学技術推進室の補佐をしております谷本から資料3-3に基づいて御説明をいたします。
 真ん中にあります点線で囲ってある部分に、昨年の8月に取りまとめました次世代計算基盤検討部会の中間まとめについて記載しております。矢印の右側に次世代計算基盤の在り方について記載しており、この在り方に向けて、赤字のとおり、調査研究(FS)を通じて実現可能なシステム等の選択肢を提案することが記載されておりまして、これを目的に調査研究(FS)を実施しているところでございます。
 その下の青い箱のところに、具体的にどういったことを行うのかを記載しており、例えば要素技術の研究開発ですとか、評価指標の検討ですとか、技術的課題や制約要因の抽出といったところを目的に行っているところでございます。
 これの右側にFSの実施体制の概略を記載しており、ここの一番下のところにシステム、新計算原理、運用技術と3つ記載をしておりますが、この3つを対象にこの6月、7月にかけて公募・採択を行ってきたところでございます。
 次のページに、採択結果も含めまして、FS事業の実施体制をまとめております。一番上にあります評価委員会のところで、公募の審査ですとか、事業全体の評価を行うことにしており、その下にあるPD会議で各採択チームへの指導助言ですとか、その下の運営委員会のところで各チーム間の情報共有を行っていくという形で進めていく予定でございます。
 採択されたチームは4チームございまして、システム調査研究チームとして理化学研究所と神戸大学、新計算原理調査研究チームとして慶應義塾大学、運用技術調査研究チームとして東京大学、この4つのチームを採択したところでございます。
 次のページに各チームの研究の概要を簡単にまとめてございます。まず、理化学研究所のチームですけれども、オールジャパンかつ国外ベンダーも含めた体制の下でデータ移動と計算を高度化・効率化して、幅広いアプリ分野に適用可能なシステム構築を目指すということとしております。
 また、神戸大学のチームでは、世界最高の電力当たり性能を実現している国産アクセラレータ技術等を活用しまして、高い実行効率を実現できるシステム構築を目指すとしております。
 また、慶應義塾大学のチームでは、量子ゲート型、アニーラ型の両方を対象に、量子コンピューティングとスーパーコンピューティングの融合計算の実現可能性を評価することとしております。
 また、東京大学のチームでは、多様なシステムが有機的に結合し、持続可能な次世代計算基盤の実現に向けた運用関連技術を調査することとしております。
 最後のページに、評価委員会とPD会議のメンバーを記載しておりますので、お時間ありましたら御覧いただければと思います。
 駆け足で恐縮ですが、御説明は以上でございます。

【安浦主査】  どうもありがとうございました。何かこの今の御報告につきまして御質問等ございましたら、お願いします。よろしいでしょうか。
 これは既に公表もされておりまして、研究チームそれぞれ準備にかかっていただいているというところでございます。田浦委員のmdxとも連携しながら、まだFSの段階ですので、次期のシステムをどうするかということにつきましては、FSの結果を見ながら、本委員会で将来的にまた議論をしていただくということになるかと思います。
 本日は、いろいろ話題が多くて、しかも引原委員、田浦委員から極めて本質的な研究DXの在り方に関する御発表いただきました。特に引原委員は、大学といういろんな研究をやっている現場で一体何を求めているのか、何をやらなければならないのかということを、実践的なある種の証明をつけて御提示いただいたと思っております。
 それから、田浦委員のほうには、共同利用のmdxを中心としたシステムの共有化の視点から、どういう形で今後、我が国の情報基盤をつくっていくかということに対する示唆に富んだ御意見をいただいたと思っております。
 今後とも、この辺りの議論を中心にまた本委員会の議論をさせていただきたいと思いますので、委員の先生方からこういう話も必要だというような御意見ございましたら、事務局のほうに連絡していただければと思います。
 それでは、事務局のほうに連絡事項等お願いしたいと思います。

【佐々木参事官補佐】  ありがとうございます。事務局でございます。次回の委員会の予定につきましては、また今後御連絡させていただきますので、調整に御協力いただければと思います。
 また、今安浦先生から御提案いただきましたが、事務局宛てに御連絡いただける場合は、1週間後、9月6日火曜日18時までで御意見いただけると大変ありがたいと考えております。
 以上でございます。

【安浦主査】  ありがとうございました。少し時間を超えましたけど、これで閉会させていただきます。話題提供いただきました引原委員、田浦委員には心から御礼申し上げます。どうもありがとうございました。

―― 了 ――

お問合せ先

研究振興局参事官(情報担当)付

(研究振興局参事官(情報担当)付)