情報委員会(第18回) 議事録

1.日時

令和3年6月30日(水曜日)15時00分~17時00分

2.場所

オンライン会議

3.議題

  1. 研究のDXの推進方策について
  2. その他

4.出席者

委員

安浦主査、相澤委員、井上委員、奥野委員、川添委員、小池委員、後藤厚宏委員、後藤吉正委員、佐古委員、田浦委員、瀧委員、塚本委員、長谷山委員、深澤委員、美濃委員、八木委員、若目田委員

文部科学省

橋爪参事官(情報担当)、三宅学術基盤整備室長、黒橋科学官、竹房学術調査官、池内学術調査官

5.議事録

【安浦主査】 それでは、定刻になりましたので、科学技術・学術審議会情報委員会の第18回会合を開催いたします。
本日も、コロナウイルス感染拡大防止のため、オンラインで開催することにいたしました。
今回の議事は全て公開でございます。報道関係者も含め、傍聴者の方にもウェブ参加いただいておりますので、御承知おきください。
また、通信状態等に不具合が生じるなど続行ができなくなった場合、委員会を中断する可能性がありますので、あらかじめ御了承いただきたいと思います。
本日は、引原委員と星野委員から御欠席という御連絡をいただいております。また、塚本委員が1時間ほど遅れて御参加の旨を伺っております。
まず、配付資料の確認とオンライン会議の注意事項の説明を、事務局からお願いします。

【上村専門官】 ありがとうございます。事務局でございます。まず、議事次第に基づき、配付資料を確認させていただければと存じます。
本日の配付資料は、資料1から4までございます。資料1が、田浦委員に御発表いただきます資料、「情報基盤センター群の取り組みとデータ活用社会創成プラットフォームについて」でございます。資料2が、美濃委員に御発表いただきます資料、「理研での情報系研究と研究DX」でございます。資料3が、若目田委員に御発表いただきます「データ流通に関する官民の取組みと学術データ連携の課題」でございます。資料4は、事務局から説明させていただく資料でございますが、「研究DXへの取組方針に係る前回の議論の整理と今後の取組方針」の案でございます。
皆様、既にダウンロードいただけていることとは存じますが、もしお困り事等ありましたらお知らせいただければと思います。では引き続き、オンライン会議の注意事項を申し上げさせていただきます。
本日は、通信の安定のために、委員の皆様は、御発表時を除き常時マイクをオフ、ビデオをオフにしていただけますでしょうか。主査の安浦先生におかれましては、常時マイクをオン、ビデオをオンにしていただければと思います。
御発表される場合は、「手を挙げる」のボタンを押して御連絡いただければと思います。安浦主査は参加者一覧を常に開いていただき、手が挙がったアイコンを表示している委員を御指名いただければと思います。
議事録作成のため、本日は速記者の方に入っていただいております。そのため、発言する際はお名前から御発言をお願いいたします。
トラブル発生時には、電話にて事務局の指定の番号まで御連絡をいただければと思います。
傍聴者の方にはZoomで御参加をいただいております。システムが不調の場合、後日公開する議事録を御覧いただければと思います。
以上でございます。

【安浦主査】 ありがとうございます。あとは、長谷山委員はそちらから御参加ですね。

【長谷山委員】 はい、出席させていただいております。よろしくお願いします。

【安浦主査】 よろしくお願いします。それでは、本日の議事に入ってまいります。前回に引き続きまして、研究のDXをどう進めていくかということで、研究のDXの推進方策について議論を進めたいと思います。
まず、今日はお三方にお願いしていまして、田浦先生から、情報基盤センター群、日本の大きな大学に置かれている情報基盤を、それぞれの大学で支えておられる、また地域の大学群に対してもいろいろなサービスを行っておられるお立場から、データ活用社会創成プラットフォームなどについてもお話しいただける予定でございます。
それから2番目には、美濃委員から、日本の代表的な大きな研究機関としての理化学研究所、ここにおける情報系の研究と研究DXについてお話をいただきます。
また、民間の取組をお聞きしたいと思いまして、若目田委員には少し御無理をお願いしましたけども、データ流通に関する官民の取組と学術データ連携の課題ということでお話をいただきたいと思っております。
それぞれ15分程度ずつ御発表いただきまして、簡単な質問があれば、その時お受けしますが、一応、御発表を3ついただいて、それから文科省側で考えているお話を少し説明した後に、皆様のいろいろな御意見、あるいは、かなり深掘りした御質問等をいただきたいと考えております。約2時間でございますが、よろしく御協力をお願いいたします。
それでは初めに、東京大学情報基盤センター長の田浦先生から、「情報基盤センター群の取組とデータ活用社会創成プラットフォームについて」という題で御発表をいただきたいと思います。
田浦先生、よろしくお願いします。

【田浦委員】 今日はこういうタイトルでお話しさせていただきます。全体的なことについてお話ししていると時間がなくなってしまうので、少し最近の取組でありますこのデータ活用社会創成プラットフォーム、このmdxというものなのですが、そこについてフォーカスしてお話しさせていただきたいと思います。
まず、最初に自己紹介なのですが、東京大学で、本務としては情報理工学系研究科というのをやっていますが、最近は専らこの兼務、東大の情報基盤センター長でありますけれども、8大学で一緒にやっております共同利用共同研究拠点のまとめ役ですとか、あとはここでもよく出てくるHPCI、特に大学で第2階層というのをやっていますので、それの取りまとめ役というようなことや、今日お話しする、9大学と2研究所で共同してやっておりますこのmdxというものについても全体の統括的なことをやっております。
研究分野はシステムソフトウエアということですが、本日の話と直接は関係ありません。
それで、この情報委員会でも、この下部の次世代の情報基盤の検討会でも、次世代の学術情報基盤という話がしばしば出てまいります。1つの柱は富岳Next、ポスト富岳というお話かと思います。もう1つ、あるいは話題としてはそれ以上に非常によく出てくるのがこのデータ活用のための基盤、データ基盤というお話であります。
学術的な、あるいは社会的な背景、これは先生方に御説明する必要はないといいますか、私が言っても釈迦に説法だと思うのですが、いろいろあります。一つ学問分野としてのデータ科学、その共通手法の大規模なデータ処理とか、機械学習やAIというものを共通手法としつつ、それがいろいろな分野と結びついて、データ駆動科学という新しい手法に基づいた分野をつくっていると。
なおかつ計算手法としても、従来の計算科学と呼ばれる、いわゆる方程式を基にした演繹的な計算方法というのと、このデータ科学、これは、要は観測データといかに合わせるかという、実際の観測されたデータといかに合う結果をもたらすかということで何かパラメーターを調整していくというような計算手法、その2つがうまく融合して、いろいろな分野で新しい潮流をつくっていると。
あと、社会的にはもちろんSociety 5.0、DXという、非常に広い言葉ですが、これはどこまでを意味するのか分からない言葉ではありますが、非常に重要視されていて、特にSociety 5.0は、データ活用ということに関しての社会的な負の側面ですとか、個人情報をいかにきちんと安全・安心して扱うかというようなことが課題になっております。
あと、学問やあるいはその活用方法そのものということではなくて、サイエンスのやり方として、オープンサイエンス、データ公開。これまで論文というものを成果として専ら公開したり、クレジットを得たりしていたものを、データをそもそも共有するということがイノベーションのためにも必要であるということや、あるいはそれは研究の不正防止というような観点からも重要であるというような潮流が出てきています。または、コロナ禍に始まったオンライン授業で、これは一面においては教育が進化したというような感覚を多くの人にもたらしていて、これからさらに教育においてもデータを利用する、ラーニング・アナリティクスというような分野だったり、あるいはオンライン授業をやって教育のデジタルコンテンツをうまく整備して利用していこうというような、いろいろな潮流が1つになって、データ基盤というものに対する期待、蓄積してそれを活用できる基盤というものに対する期待が高まっているということであります。
これはもちろん、第6期の科学技術・イノベーション基本計画にもいろいろな形で、言葉で表されていて、データ駆動型研究の推進ですとか、研究データの管理、利活用のための環境整備、あるいはインフラ整備、それを使った新しい研究コミュニティー環境の醸成というようなことで、いろいろと書き込まれているということです。
もう1つ、我々は従来から、情報基盤ということでは提供する立場にあって、そういうところから見た、もう少し現場近くの直面している課題、問題というようなところから少し掘り起こしますと、まず1つは、多くの分野で必要な計算やデータ基盤が拡大して、今やGPUでやりたいというようなことが必要だというようなことは、もう本当に非常に幅広く行われているわけなのですが、そういうレベルでもしかり、あるいはもう少し大きいレベルで、ある分野でのデータを整備するというようなときに、分野ごとに情報基盤を一から整備するというのは、どんどん困難で非効率になっていっているという側面があります。
ですから、それは共通基盤で本来応えていくべきものではあるのですが、これまで情報基盤センターあるいは国のフラッグシップスパコンで、そういう部分をきちんと満たせているのかというと、なかなかそうでもないという話がよく聞かれます。
あとは、分野ごとにデータ基盤を整備するという計画、これはいろいろあります。マテリアルでもありますが、計算については、活用するという部分の能力が足りないということがしばしばで、データを蓄積してそれを提供できるようにするという、そこ止まりと言うと少し言い過ぎかもしれませんが、活用というところにあまり焦点が当たり切れていないというところです。
活用するにはもちろん計算機が必要なので、それは従来の情報基盤センター、あるいはフラッグシップスパコンではないのかという話もあるのですが、次に述べますけども、なかなかそういう環境では、データ科学が必要としているような需要は満たせないという側面があります。
ですから、データはデータであって、計算能力は計算能力であって、別にあるのだけれど、そこがスパッとつながるかというとそうでもないという状況にあると思います。
ということで、計算能力もデータ蓄積も必要だということになると、これは今、環境をつくろうと思うと、柔軟にできるパブリッククラウド環境ということになるのですが、それは非常に高価で、ほぼ海外です。つまり、どうしても今、こういうものをやればやるほど、お金とデータが海外に流れていくという構図になってしまっているというわけです。
したがって、学術基盤としてパブリッククラウド相当の環境、あるいはそれ以上の環境というものを構築しないといけないのですが、オンプレのクラウド環境といいますか、仮想化された環境の導入というのは技術的なハードルが高くて、なおかつ国内ベンダーの蓄積も少ないです。スパコンの蓄積はもちろん何代にもわたってあるわけなのですが、こちらのほうが蓄積が少ないので、さあやろうと言ったらすぐできるかというと、そういうこともないという状況にあるのではないかと思っています。
全体を総合して、高性能なデータと計算を両方できる、一緒になった基盤、別々ではない基盤というのが必要ですし、あとは、個々の分野ごとではなくて分野を超えた共通基盤、これは整備のための効率という意味でもそうですし、いろいろな協働が始まるという意味でも、共通基盤であるということが重要だと思っております。
それを使っていくための共同利用共同研究のプログラム、これはコミュニティー創成に資するようなものが必要であり、NIIがやっているような研究データ基盤というものを含めたいろいろなシステム間の連携を前提とした基盤が、国全体の基盤が必要だという認識でおります。
そこで取り組んでいるのがこのmdxなのですが、具体的にはどういうものが、データ科学、データ活用のための基盤としては必要なのか、これまでのスパコンとどう違うのかという話を少し具体的に述べたのが、こちらになります。
個々のお話というのは、恐らく先生方がいろいろなところでお聞き及んでいるような話だと思います。1つは例えば、AIPの上田先生もよくおっしゃっているような、やはり違いをもたらしているのはソフトであるということ。非常に使いやすい機械学習フレームワークというのが普及することで、本当に誰でもAI、マシンラーニングができるようになったというような話がありました。
このような話というのは、もちろんスパコンでも別にできないことではなくて、環境を導入すると決めればできるわけなのですが、そういう必要とされている環境自身がどんどん速いスピードで進化あるいは変化していくことから、基盤側に突きつけられている問題というのは、非常にポピュラーになった後から重要だと認識して対応するというのではなくて、非常に機敏に、ユーザーごと、分野ごとに必要だと思ったものをどんどん導入していける、柔軟に構成可能な環境であるということです。
あるいは、ネットワークについても柔軟に構成可能というのが必要で、これはデータ科学のための基盤ですから、外とつながってデータを収集する、あるいはデータの処理のレギュレーションですね、セキュリティーあるいはプライバシー保護上のレギュレーションで、ここの外にはデータを持ち出せないというような制約を守りながら計算しなくてはいけないということで、ネットワークで、その場だけでつながってデータを処理するというような。ですから、環境とその外が柔軟につながっているという必要があります。必要に応じて穴を空けたりすることができるということです。
そういうことをやろうとすると、セキュリティーが問題になってくるわけなのですが、そこはきちんとユーザーごと、分野ごとに分離・隔離されたセキュアな環境をつくる。それによって、機密性の高いデータや、個人に由来するデータを処理できるという環境をつくっていくということです。
あるいは、データ科学でよく言われるのが探索的なデータ処理、いろいろなデータを本当に手軽に少し処理してみて、処理をする前の当たりをつけて、どうやってやればいいかということが分かったところで非常に重い計算が始まるという、その2つの段階がシームレスに移行できるような環境。
つまり、データを一生懸命見つけて、何かいろいろ探索的なことをやって、じゃあ本格的にやろうと思ったら、データを全てダウンロードしてスパコンに流し込んでというような、そういう二度手間が必要になるということはよろしくないということです。
以上を総合して、結局何をつくればいいかというと、別にそんなに驚くようなことではなくて、仮想化されたマルチテナントの環境、いわゆるAWSとかそういうIaaSと呼ばれるような環境です。
しかしそれは、今の日本の学術、学が提供している基盤ということに照らし合わせて言うと、一方ではデータを蓄積・共有はできるけれど、計算能力とうまく結びついていないという環境があり、一方では非常に高性能な計算環境だけれども、非常に一枚岩な、1つのスパコンという大きい環境で柔軟性に乏しいというのがあって、その2つの両方を満たすようなものが必要だという認識です。
そういうことで、データ活用社会創成プラットフォームというのはしばらく前から計画として進んでいまして、これはもちろん、今日お話しする話が全てでは全くないのですが、その中で、NIIや東大に先行して基盤の整備をするということが書かれており、また、この有識者会合でもって方向づけを行うと。その主査には安浦先生にもなっていただいているということです。
そのmdxというのは、ここに書かれているのは9大学2研究所ですね、8大学は共同利用共同研究拠点をやっている、ネットワーク型をやっている8大学、いわゆる7帝大プラス東工大で、それに筑波大、NII、産総研とが共同運営する、データ活用にフォーカスした高性能仮想化環境ということになります。
東大の柏Ⅱキャンパスで納入・稼働はされているのですが、残念ながら今、まだユーザー利用に向けて詰めの作業をやっているというところで、ユーザーインターフェースといいますか、どう入り口から入っていただいて利用に至るかという部分の詰めをやっているというのが今の段階です。もう間もなく、1か月2か月というオーダーで、世の中に御提供できるというつもりでやっております。
ハードウエアのスペックはこのようなところで、そんなに大型のマシンではありません。ふだんスパコンと接していらっしゃる方からすると、ややかわいいといいますか、小型のスパコン、中型のクラスター、そのような感じです。そのため、CPUだけのノードが368ノードで、GPU、両方とも最新の機種ではあるのですが、GPUが320枚です。8枚刺さったノードが40ノードで、ストレージが高速なものが1ペタ、大容量で16ペタ、外部と共有する10ペタで、合計で27ペタぐらいというような感じの、サイズ的には小型のスパコンという感じです。
ですが、何度も既にほのめかしているとおり、仮想化環境になっておりまして、この利用グループごとに占有の環境、自由にコンフィグできる環境を提供いたします。ホストももちろん自由にコンフィグできますし、ネットワークもほかのプロジェクトとは閉ざされている、VPNが提供されるということです。そのVPNをさらにSINETの先に、モバイルSINETまで含めて延長することができます。
なので、コンフィグでどこかとつながってくださいといったときに、この環境が全部一枚岩の環境だと、セキュリティー方針上非常に大きな議論にどうしてもなってしまうわけなのですが、個々のプロジェクトがほかと隔離されているということで、個々のプロジェクトに比較的自由に外との接続を許すことができる。かつ、フィールドのIoTセンサー等も含めてVPNで接続して、安全にデータを収集することができるという環境を提供できるようになっております。
そこで、このmdxというのは、サイズはそこまで大きくないのですが、やはりユーザビリティーということで、これまでの学術基盤の、一つイメージチェンジを図りたいと個人的には思ってやっております。
そのために、現在いろいろな人々が期待している使い方を広くサポートしようと思っていまして、いろいろな利用の深さ、コミットメントのレベルに応じて、非常に簡単な使い方であれば、本当にすぐにでも始めていただけるようなものから、少し独自環境を構築する、中規模なクラスター環境を構築する、あるいは、データを収集するためのプラットフォームやサービスをつくるというような、いろいろなレベル間の使い方をしていただけるようにしたいと思っています。
小規模なものとしては、KaggleやColabみたいに、ウェブ経由で即座に使い始めることができるようなものもあると思っています。中間ぐらいに、独自の環境を小型ですけどもつくるというようなものがあると思っております。
あとは、いわゆるクラウド風の使い方です。つまり、何か1つのジョブの実行時間が何十時間までと決まっていて、その時間が過ぎるとそのリソースは全部開放しなくてはいけないということではなくて、長時間、常時稼働させる、何かサービスを立ち上げっ放しにしておくというような使い方ができると思っておりますし、外部との通信も個々のテナントで制御可能、コンフィグ可能というような自由度があります。
あとは、こういうことを始めるに当たって、しっかりと将来的に拡張されていくようにつなげるということを前提とした設計で、これまでのいろいろな、GakuNinですとかGakuNin RDM、データ管理のためのシステム、こういうものとつながるということを初めから前提にしております。特に、GakuNinという認証のシステムとつながって、国内でGakuNinに既に加入しているような機関の人であれば、即座にサインアップすることができるというようなものや、GakuNin RDMと連携して、GakuNin RDM上からmdxのデータが見える、あるいはGakuNin RDMで見つかったデータを処理するのに、バインダーハブという機能を使って即座にmdxで処理が始められるというようなことを、NIIさんと協力して、今やっているところです。
時間がないので、個別のところは少し省略させていただきます。
mdxはこういうことの端緒にすぎないと思っておりまして、将来的にはGakuNin RDMからいろいろなストレージが見えるわけなのですが、まずその一歩として、このmdxが見えるようにしようと思っています。将来的にいろいろな大学のセンターのマシンやストレージがここから見えて、ここでいろいろなデータを発見して、処理したくなったら即座にどれかのマシンに、BinderHubみたいな機能で飛ばして処理ができるというような、全体がつながったシステムをつくりたいと思っています。
あと、この場で何度かランダム発言的には述べさせていただいたことを少し共有しておきますと、このmdxは今、本当に業者と詰めをやっているところではあるのですが、いわゆる総合評価入札ではきっとできなかったことだと思っております。
なぜできないかといいますと、総合評価入札というのは御存じのとおり、いわゆる製品化されたものしか提案できず、開札から何か月以内に納入という期間の短さがあって、結局お互いリスクが取れないということで、大学・業者とも、受け入れる側も納入する側も経験済みの領域でしか導入できないと。したがって、これまで非常に蓄積のあるスパコンみたいなマシンを、どんどん少しずつ拡張していく、進化させていくということはできるのですが、mdxぐらい違うものになると、なかなかこう踏み出せる思い切りはつかないというようなものではなかったかと思っております。
これは多機関連携(9大学2研究所)で、設計の議論から調達から運営までの経験を全て共有しながらやっておりますので、こういう今回の経験をほかへ波及させていくということができるのではないかと思っております。
最後に、これまで情報基盤センターは共通ディシプリンとして、計算科学というものをディシプリンとして、そのためのいわゆるスパコンを中心とした高性能計算機を提供して、情報系の分野では数値計算アルゴリズム、HPCが中心だったと思いますが、こういうものをデータ科学の領域、基盤というものに発展させていきたいと思っております。
以上で私の発表を終わらせていただきます。

【安浦主査】 田浦先生、どうもありがとうございました。いろいろな御苦労があることも言葉の端々に表れていたかと思いますけど、新しいデータ基盤を、特に学術研究のためのデータ基盤をつくるという取組に基盤センター群で取り組んでいただいたというお話でございます。
何か事実確認のような御質問があればお受けしますけれども、どなたかございますか。議論は後ほどやらせていただきます。よろしいでしょうか。
それでは、田浦先生、どうもありがとうございました。
次に、理化学研究所の理事の美濃先生から、理化学研究所における情報系研究と研究DXについての御説明をいただきたいと思います。
美濃先生、よろしくお願いします。

【美濃委員】 理化学研究所の美濃でございます。田浦先生の発表を楽しく、昔そういうことをやっていたといいますか、そういう立場にいたということで楽しく聞かせていただきました。
今、私は3年前から、ここで情報系の話をやってくれということで理研へ行きました。ここの中を見ていますと、やはり一番の強みは、データがたくさんあるということです。
私も知らなかったので、一応、理化学研究所の紹介をさっとやらせていただきますが、理化学研究所は1917年につくられた日本初の自然科学の総合研究所ですけれど、一旦民間になったり、いろいろな経緯を経ております。したがって、今は文科省の直下にいる特定独立行政法人ですが、文科省の共済組合からは放り出されているという状況で、私も共済組合をやめて、科学技術組合に入ってこちらへ来たというような話でございます。
それで、基本的には国の政策に沿った戦略的研究開発をするという組織でございまして、研究所の職員数というのは公式には3,500名、研究系3,000名、事務系525名なのですが、大体情報系は認証しますので、それで3,500人だと言ってやるととんでもない話でして、大学と同じように、ここを中心に裾野がずっと広がっているという状況でございます。関係者全てで1万2,000人おります。一応6,000人ぐらいはしっかり認証しようというシステムを入れたという状況でございます。
それで運営費交付金がざっと大体531億円ぐらい、あといろいろな補助金とか競争的資金を合わせて、1,000億には届かない、980億、990億ぐらいの規模でやっている研究所でございます。
理研の強みと理事長がよく言っているのは、大学にはない大型施設の開発と運用・共用ができるという話と、1研究室の規模が大きいので大型プロジェクトを実行できるということ。それから、研究支援が大学に比べてかなり充実していまして、研究するにはいいところだと言っております。
この研究所で何をやっていくかという話ですが、右側にありますように、理研というのはもともと戦略的な研究をするということで、戦略センターというのを、国が予算をつけてつくってくれています。それで2000年頃から、生命科学系を中心にかなり多くの戦略センターができています。
基盤センターで計算科学、「富岳」をやっているところ、それからSPring-8をやっているところ、それからもう1つ、バイオリソースといって、これは生物実験用の動物を全世界に供給しているセンターもあります。
戦略センターに、AIPと言われているAIの研究センターを抱えているということでございます。ただし、この情報系の2つのセンターは補助金でありまして、理研の自由にできないという話もあって、何とか情報系のセンターをつくりたいということで、私は活動してまいりました。
その結果、やはり理研の中で情報技術をしっかりと高めていく研究をする、情報系の研究が必要だということで、結局、先端データサイエンスをするところ、これはもともと生命科学系にあったのですが、その部分が回ってきた。それともう1つは、ロボットの研究を始めようという話で、新たに始まったガーディアンロボットというところを取ってきて、そこに、いわゆるオープンサイエンスを進める基盤研究開発部門というのをくっつけて、情報統合本部というのをこの4月から立ち上げました。
基本的には理研内のいろいろな研究センターで、実は情報系の人がそれぞれのセンターにかなりいるのです。そういう人たちの連携をして、そういう人たちの技術向上を目指すというようなことを狙って、こういうセンターを立ち上げたということでございます。
それでめでたく、理研の体制図の中にようやく「情報」という言葉が入りまして、情報統合本部というのをつくったということでございます。
それで、その情報統合本部の一番大きな柱は研究データの公開ということで、文科省から若干お金を頂きまして、オープンサイエンス事業となっております。
私が来たときにICT戦略をつくったのですが、その中で、やはり研究情報というのはスパコンを提供しているだけではないだろうと。いろいろなことをしっかりと研究支援として支えるべきだということで、研究データを共有・公開しようとか、研究成果が蓄積、修正、公開、共有ができるような環境をしっかりつくりましょうということを戦略に掲げて進めてまいりました。
オープンデータといいましても、何をオープンにするかというのはやはりいろいろでして、実は3種類あるのではないかということで理研では整理しています。
1つは、プロジェクトでこういうデータベースをつくりましょうというプロジェクトがあります。FANTOMと書いていますのは遺伝子のヒトゲノム解析の結果のデータベースなのですが、こういうものをつくりましょうというプロジェクトとして推進するものですから、やった結果は公開するとことになります。
問題は真ん中、研究者個人が個別に公開するもの。これが、なかなかどこにあるか分からないということで、これを吸い上げる組織、あるいは、こういうものを探す組織をつくろうということで、理研内でコミュニティーをつくっております。
それから3番目は、いわゆる研究証拠データなのか研究データなのかよく分からないと。論文を出したら、それに対して、その実験を再検討といいますか、検証できるデータ及び環境を残そうというようなことをやっています。これは、理研がSTAP細胞でかなりたたかれたことで、これをしっかりやらなければいけないというので、中にかなりきつい規定ができていますので、この研究証拠データを論文と一緒に公開することによって、使いやすくして公開しようと。この3種類のオープンデータを理研では進めようとしています。
それぞれに関して、まず管理基盤をつくらなくてはいけないというので、これはNIIと協力しまして、基本的には、まず理研内に研究データのリポジトリをつくろうと。これは単に置き場所ではなくて、先ほどありましたように計算を提供するというところで、スパコンの予算を半分潰しまして、こういうデータ処理ができるようなマシンを入れようということで、ディスク容量、データ計算が、かなりできるようなものを入れました。ここに研究データを入れようと。同時に、当然boxみたいなクラウドサービスも含めて、ここの下に全部くっつけまして、計算が必要なものはスパコン、オンプレのクラウドに入れる。それで、もう確実に終わってしまったものはboxとかそういうところへ置いていくというような形でシステムを構成しています。
同時に、研究業績登録システムというのがないので、これをつくりましょうと。今さら、中で自分の発表したものを登録するようにいうのはかわいそうであるので、外部から多く取りあえず取ってきて、それを確認すると同時に、自分の発表した論文も文献がどこにあるか、これは置き場所がなければJAIRO Cloud、学会が取ってしまっていたら学会のURL、もちろん有料の場合は直接見られませんが、取りあえずここにあるよということを明確にするということです。それと同時に、研究データを一緒に入れて、この業績の後ろに研究データがどこにあるか、URLがどこにあるかというのをしっかりと登録して、これをもって研究評価をしようとしています。
したがって、どれぐらいオープンにしたかというのが見えるようなKPIを今、つくろうとしているというところでございます。
もう1つは、これだけしても別に検索できないだろうということで、理研メタデータベースというものをつくりまして、これでもって研究データがどこにあるかということをやる。ただし、メタデータは1つの研究結果としては全然意味がありませんので、この辺は、特に生命科学に関しては国際的にメタデータをつくろうという活動をしていまして、その一部をここに連携して入れているということでございます。
同時に、理研内でデータポリシーを定めまして、そのポリシーに従って、何をオープンにするかというのを明確にしていくという話をしております。
そのために、このデータ、生命科学が一番強いので、生命科学データ共有開発ユニットというのを設置しまして、理研内から生命科学関係でデータを持っている人を集めて、その人たちのコミュニティーのような形でユニットリーダーを決めて活動しています。
同じように医科学、これは医療データで、個人情報もかなり響くものですけど、それをつくって、こちらも活動すると。あと物理学、化学、工学、この辺も今、つくれるかということを検討しているということでございます。
利活用データガイドライン、理研データポリシーというものをつくりまして、何を公開するかというのを各センターで決めてくれということで、ガイドラインを策定させて、今年度から、比較的データがきっちりと区別できるようになりましたので、それに従ってオープンに持っていくということをやっております。
そこで、国情研(NII)とは連携協定を結び、オープンサイエンスポータルというのをつくって、理研でどれだけデータをオープンにしているかを見えるようにしようとか、データの形式の標準化をしないと共用できない、あるいはリポジトリ整備のためにどういうふうにやったらいいかというのを、生命科学の分野で国際的議論に参加して、ある程度まとまったということでございます。このようなことをやりながら進めています。
これは例ですが、理研ではこれだけ、それぞれのセンターがいろいろとデータを公開しているという状況でございます。
今後どうしていくかという話ですが、研究データの作成・蓄積・利用のプロセスを見ていますと、やはり研究データを作成した人が、他の人が利用できるようにデータを整理せよ、メタデータを付与せよと言っても、インセンティブがない。ここをどうするかというのはやはり大きな問題でして、どういう形に持っていくのだろうと。
これは、機関の研究者が基本的にやるものです。研究データの蓄積・公開を個人でやれというのは絶対無理で、これはやはり研究機関が責任を持ってリポジトリを持つ。もちろん、コミュニティーであればそこへ入れればいいのですが、ないところも多くありますので、それを入れる。それから、データの維持管理をきっちりする。オープンクローズ戦略だとか。利活用期間というのはどれぐらいかという議論もしていますが、10年オープンにしておいたらいいだろうとか、あるいは10年以上要るデータもあるとか、今いろいろな議論が出ていまして、取りあえずアップデートしないと、単調増加でどんどんたまってきたらマネージができないということで、いかに削除するかも考えようというようなことをしています。
それから、研究データの利用は一般の研究者がやるのでしょうと。きっとオープンだからいろいろな人がいるでしょうということで、メタデータによる検索の機能を提供しましょうと。ただし、理研内でもやはり自分たちで研究データを利用して研究を進めないと意味がないということで、そういう分野を情報統合本部の中につくって、自分たちで公開したデータを中心に研究を進める人たちをつくっていこうとしています。
この辺のKPIをどうするかというのを、今年度から生命科学の人たちと議論して、世界的にも議論しましょうという話で、どういうことをしたら評価されるのかということを明確にしていきたいと考えております。
研究データの作成・収集のところですが、生命系の研究というのは仮説検証方式でやっています。つまり、こういうことが想定されるから実験で試そう、というような話をするわけですが、こういうふうにやられると、実はあまりデータは役に立たないという話があります。
例えば、普通の研究のプロセスというのは、最初に観測対象があって、観測装置でデータをつくるわけですが、一次データとして出てくるデータはあまりにもノイズも入っていろいろあります。そこで、最初に汎用的な前処理をして、ノイズ除去だとかクレンジングをして二次データにします。この二次データはまだ十分役に立つのですが、ここから、もう研究目的の処理に入っていくと、だんだん、仮説検証用の証拠データみたいになってくるので、一体どこのデータが役に立つのだろうということを考えないといけない。
理研の中で見てみますと、最初のほうのデータを取ったりクレンジングしたりするところは、どうもテクニカルアシスタントさんのような人たちがやっていることが多い。すると、この人たちを活用したデータのオープンということを考えられるのではないかという議論を、今、始めていまして、こういうところでデータを出してもらうと、本当に役に立つデータがいろいろ出てくる可能性があるという議論もしております。
後ろのほうは、研究初期、自分たちの目的のデータにしたら、あとはそこから研究活動をして研究データを出すわけで、この辺は論文成果として公開するのだから、それはそれでいいでしょうということで、できればこの前のほうのデータを何とかメタデータを自動でつけ、うまく公開できるようにすると、もっとデータが出てくるということを考えています。
蓄積・公開のところは、やはり研究データは発生した場所の近くで蓄積するのがいいだろうと思いますので、大規模な大学とか国研等の研究機関、大きなところは責任を持って自分たちでデータを維持管理しようと。
研究室任せではやはり全然駄目で、データは散逸しますし、中小規模の大学などはNIIなどが中心になってデータを持っていく必要があるのではないかということです。
それで、これをやはり使えるような形にしようとすると、研究分野の中核機関というのが要るだろうと。例えば生命科学に関しては理研がかなり中核になって、データフォーマットを決めたりメタデータを決めたり、いろいろな形の標準化を推進できると思うのですが、ほかのところはできないなと。
それで、材料科学分野はNIMSがありますので、そこに我々が協力するような形で、代表的な中核機関みたいのがあって、そこがデータのコントロールをして、実際のデータは大きな研究機関が持っている、もしくはNIIが持っているという形のほうがいいのではないか。そういう形で日本を階層構造にして、国際的にいろいろと連携していくというような形がいいのではないかと、今、考えております。
この中核機関で全部データを集めてしまうと、維持管理も大変で金もかかるということになりますので、その辺りも考えないといけないということです。
こういう話をしていると、NIMSもマテリアルズインフォマティクスも同じような考え方をしていることが分かってきまして、研究コミュニティーが、例えば大型研究施設とか大学等の研究機関がデータを持って、上はプラットフォーム、総本山と国分寺方式と言っていましたけども、そういう形でデータはやっていくのがいいのではないかと。そして材料はNIMSがやるけれど、バイオ・医療は理研か遺伝研がやりなさいというような、こんなスライドがあるよと言って紹介してくれる人がいまして、それを借りてきました。
また、研究データの利活用は、メタデータを利用した研究データを検索するということで、これは世界規模での連携が必要であると思います。
オープンサイエンスは、やはりデータを作成する研究者によるオープンデータの活用は容易であるので、データを作成した研究者はほかのデータも使って一生懸命研究していく必要があるのではないかということです。
また、もう少し考えると、研究所のために公開しているのではなくて、やはり科学と社会の対話というのが必要なので、シチズンサイエンスのようなものを中核拠点は進めるべきではないか。我々理研でも、実際に1つの細胞がどう動いているか、例えばリボゾームがどう動いているかというような映像がありますので、分かりやすい形で、特に高校生に提供するようなコンテンツができないかという議論も、始めているところでございます。
研究データ共有の大きな壁は、個人情報の問題が一番大きいということで、この辺りはうまくやらないといけないのですが、理研ではまず、自然科学を対象にして、マウスのような動物を対象にしたデータをまず公開していく。これが一番楽なので、まずここから始めますが、今年度から個人情報をどう扱っていって、いかに役に立つデータを公開するかという議論をしていきましょうということを考えています。
研究DXは、これより先に進むのですが、研究DXの元祖のような、オープンデータの元祖のような研究がこれでして、ヒトの一つ一つの遺伝子を解析しようというのを、いろいろな国が同じ遺伝子を解析しても意味がないというところから始まったのがオープンサイエンスの始まりです。ここは、人の遺伝子の機能や疾患を調べるのに大変役に立つ、ある遺伝子を働かないようにしたマウスをつくろうという話で、これはもう世界で協調して、国際会議をして、おたくはこことここのノックアウトマウスをつくりなさいというのを決めるわけです。それに従って各機関がそれぞれのマウスをつくって、それで情報を集めて、このマウスが欲しかったら日本の理研に行け、というようなことを国際的に分業しているというように、うまくできています。
これは自然科学でみんなが同じ対象を解析対象にしているということはあるのですが、国際協調が進んでいて、大変うまくいっています。こういうことも理研のBRCで一生懸命進めているということで、世界中が協力して1つの問題の解決を目指していくのだと。このようなときはデータ共有をするのが非常に重要で、サイエンスの研究を世界が協力して進めるのだというようなことをつくったことが、もともとオープンサイエンスの始まりです。
やはり、その本家みたいなところへ行くと、もうそんなものは当たり前ですよという発想されているのが面白いなと思っていました。
そして、ほかにどのようなことをやっているかというと、これはSPring-8のところなのですが、コロナで利用者が来られないから、こちらの職員が試料を入れて、あとは遠隔で実験ができるというようなシステムを開発したということで、遠隔でSPring-8を使って、データが出てきたのを持って帰って研究するということを、このコロナを機会に頑張ってやったということでございます。
これは、生命科学の実験がかなり質が要るということで、これを並列化してロボット化しようという取組です。細菌やウイルスであれば世代がどんどん交代しますので、自動で何世代も培養しながら、遺伝子がどう変化するかということを、今、コロナウイルスの変化、変異種が問題になっていますので、そういうことにつながるような研究を自動化してやろうというようなことをやっております。
これは加速器データに関する取組で、実はこういう大型科学では、研究DX、データ共有の意味があるという話です。理研の仁科の研究所というのがあるのですが、そこが加速器を持っています。ある目的で加速器を動かして実験するわけですが、センサーが大変充実してきたということもあって、一回実験すると多くのデータを取るのですが、本当にその中で研究者が使うデータというのを計ってみると、最大でも10%、ひどいときは0.1%しか使っていないということが分かりました。このデータを公開したら役に立つのではないかというような議論も今、しております。
これはただし、先ほどの一次データはすぐ出てくるのですが、装置の特性がいろいろあるので、その特性を入れて、ある程度前処理をしっかりしなくてはいけないというところがあって、これには学生1人で二、三年かかるというようなデータらしいのです。これを今後、どういう形で分かりやすい形で公開して、使っていないデータをいかに活用させていくか、今年からいろいろ議論していきましょうという話を今、しているところでございます。
こういう辺りで、データがたくさん出ているけれども、利用できる人数が、大型教室は限られていますので、この辺りでデータを出してあげると、興味ある大学、大きなところを持たなくても初期的な研究ができるので、そういう関係をつくっていくということが重要かと思っています。
長くなりましたが、データ共有による研究のDXというのは、これからどんどん進んでいくでしょうと。特に文系は資料の価値が大きいので、こういうことをする必要があるので、研究資料を共有すれば文系は学問の方法が変わるのではないかと言われます。我々のところでは、研究の効率化、自動化、遠隔化ということをやり出しています。
そして、この自動化のところで、もっとできるのではないか、データ計測から解析まで自動でAIで行い、次の解析結果もAIで評価して、次に何を実験したらいいか、できるのではないかというような話がありまして、かなり盛り上がっていたのですが、私はそのようなことは無理ではないかと言っていましたら、だんだんこの頃しぼんできまして、あまりそのような話はできなくなったのですけど、考えようによってはある程度、計測だけで終わらずに解析までやっていくというような自動化はできるかもしれないとは思っています。そうなったときに研究者が何をしていくかというのはしっかりと考えないといけない。
それから、やはり新たな価値を生み出すことが重要ですので、データ駆動科学というのは、仮説検証をすることに対して、異なる研究の方法論を提供しているように思いますので、いわゆる仮説検証のやり方を何か変えるきっかけになったらいいかと思います。しかし、やはりビッグデータのように目的を持って集めたデータを再利用しようとしてもかなり難しいところはありますので、そういうところをしっかりと考えてデータを集めないと、何でもデータを進めたらいいという世界ではないと思っております。
以上、理化学研究所でやっていることを中心にお話をさせていただきました。どうもありがとうございました。

【安浦主査】 美濃先生、どうもありがとうございました。
何か簡単な事実確認の御質問とかございますか。
先ほどの、AIで研究自動化の話はAIPでもやっているのですか。

【美濃委員】 いや、AIPではなくて生命系の研究室から出てきたのでびっくりしたので、そもそもAIに何ができると思っているのかというような議論もやり出して、それでも予算要求には行ったのですけど、さすがに通らなかったようです。
計測は自動化できると。そこでデータが取れるのだったらデータ解析も自動化できるだろうと、その辺まではよいと思うのですけど、その解析結果を見て、何が足りないかを考えて、新たな実験計画を立てて勝手にやるとまで言うので、それは無理ではないかというような話を、内部ではかなり喧々諤々やっていました。
まあ、そういう話がありましたという情報です。

【安浦主査】 瀧先生から手が挙がっております。瀧先生、どうぞ。

【瀧委員】 総合的で非常にまとまったお話をありがとうございました。1つだけ教えていただきたいのですが、メタデータの話が出ていたと思います。メタデータ、実験条件だとか実験環境とかは簡単に取れると思うのですが、その実験といいますか、その分野の特有な知見が入ったようなメタデータを、そのデータを解釈するための情報として今後つくっていく必要があるのではないかと思うのですが、その辺のところは今後どういう形で進められるのか、もう少し教えていただけるとありがたいです。

【美濃委員】 基本的に、先ほどのデータ生成といいますか作成のプロセスで、最初のあたりは比較的つくりやすいです。それから、だんだん後ろへ行くに従って、分野の特性が入ってきたメタデータになります。
したがって、今理研でつけている研究者の人々は、やはり分野ごとにそれぞれ対応しています。分野ごとにどういうメタデータが要るかという話は要りますので、これを我々が全部の分野やるというのはもう不可能というのが、見ていて現実でございます。
ですから、理研は基本的には生命科学分野だけ一生懸命頑張ろうと。ほかのところはほかの中核拠点が頑張ってよと。そのメタデータのセットをつくってもらったら、我々はそれをできる限りつけられるようにしましょうというような、ここは絶対に分散して、分野ごとにやらないとできないところだと思っています。
だから、それはやはり分野の人たちで議論してもらって進めていくということが必要です。情報系のように横串を刺して何かやれるというのは、最初のほうのところだけはできると思いますが、そこから先は無理だと思いますので、その辺はちゃんと研究者を巻き込んで議論していかないといけないところだと考えています。
以上です。

【瀧委員】 ありがとうございました。

【安浦主査】 それでは、美濃先生どうもありがとうございました。
では引き続きまして、今度は民間側からのお話として、若目田委員にお願いしたいと思います。「データ流通に関する官民の取組と学術データ連携の課題」ということでお願いいたします。
若目田委員、よろしくお願いいたします。

【上村専門官】 声が届いていないです。

【安浦主査】 では若目田委員には入り直していただいて、その間に文科省のお話をしていただいておきましょうか。若目田委員は後程お願いいたします。
それでは橋爪参事官、よろしくお願いいたします。

【橋爪参事官】 事務局で準備させていただきましたのは、前回の議論の要点をまとめたものと、その時点までの御議論を踏まえて、こういった取組を進めたらいいのではないかという、事務局での検討中の案でございます。
今映っておりますのが、前回までの議論のポイントをまとめたものの1枚目でございます。
まず、第6期の科学技術・イノベーション基本計画の中で、社会全体のデジタル化やオープンサイエンスの潮流を捉えて、研究そのもののDXを通じて、より付加価値の高い研究成果を創出していくということで、そのために、研究データ基盤の整備・高度化・持続的運営を行っていく、データポリシーの策定、実施を行っていく、必要な人材を確保していく、それから、高付加価値なデータ駆動型研究の振興を行っていくなどの方針が示されております。
こうしたことを実行していく上で、前回の御議論としていただいておりましたものが、この青の部分からになっております。
全体的な御議論として、研究のDXを進める意義としましては、2030年の大学のありようを想定した場合に、➀、②、➂、④の要素が非常に重要になってくるのではないかというお話がございました。
また、そのDXには、モード1として、デジタル化によって、主に効率性を向上させるような取組、それからモード2として新価値の創出までつながるものがあって、モード1も重要ではありますが、最終的にはモード2を目指すべきであり、そのための成功事例をつくり出していくことが重要というお話もございました。
モード2への取組に関しては、例えば、今コロナ禍の中で、教育分野でデータあるいはコンテンツの蓄積が進展しているので、教育分野を一つのケースとしてデータ駆動の研究を振興して、それをさらにほかの分野へ拡張していくということができるのではないか、また、研究としては、2つの形態の研究が、今、進展しているのではないかということで、1つはゲノム合成の研究など、コンピューティング環境を使ったDX的研究、それからもう1つは、研究のDXを実現するための研究として、例えばロボティクスバイオロジーのようなものが出始めてきているというお話もございました。
また、DXの効果を最大化するためには、研究、教育、事務作業、全体を含めて総合的に進めていくべきだというようなお話もありました。
2ページ目に参りまして、続きですけれども、人文・社会科学系の実験や調査のDXも非常に重要だというお話がございした。
このようなDXのモード2、モード1を進めていくために、それを支える研究データ基盤の構築が重要なわけでございますが、その構築に当たっては、ネットワークやリポジトリと一体的に基盤的なデータプラットフォームを整備していくことが重要で、それも技術面だけではなくて、非技術面、例えば、ガイドライン、人材育成、データ管理の手法等々も併せて両輪で取り組むべきだというお話がありました。
また、システムとしては、分野別リポジトリや機関別のリポジトリも含め、うまく共有・分散していくシステムとすべきではないかとのお話もございました。
それから、データ基盤が備えるべき機能として、ここにありますような6つの機能について、NIIの相澤委員から御提案がありました。
そして、DXを進めていくに当たりまして、データの蓄積・利活用を進展させることが重要であるわけでありますが、そのためのインセンティブが必要ではないかとの御議論もありました。
一つには、研究データの蓄積・管理・利活用に関するルールの整理、整備が重要。これは規制的な面というよりは、どうやってこれを進めていくのかというような指針、ガイドラインのようなイメージも含まれていたと理解しております。
それから、データ提供者が評価されるというようなメリットのある仕組みというものも重要だという御指摘もありました。
また、研究者が研究のサイクルを回していく際に、この研究データ基盤のシステム上の様々な機能が役に立つという工夫がなされると、皆にその研究データ基盤を使っていただけるのではないかというような御指摘もありました。
それから、結局は研究のDXというのは研究者の研究スタイルの変革というのが重要になってくるわけでありますが、これがなかなかに難しい点であって、単に呼びかけだけでは駄目で、先導事例を構築して、成功事例を公表して、研究者全体の動きとしていくべきである、また、インセンティブ・呼び水となるような研究支援も必要ではないかというお話がございました。
また、研究データの蓄積・利活用に関しては、単に研究・教育の分野だけでなくて、産学連携や社会での活用も含めて共有・利活用されるシステムまで発展させていく必要があろうというお話もありました。
3ページ目でございますが、その他の論点としましては、一つは人材の育成・確保でございます。前回はリサーチエンジニアとかデータエンジニアという名前での議論でしたが、ここではデータエンジニアと置かせていただいておりますが、そういう人材層が非常に重要で、キャリアパスの創出、あるいは待遇向上等の工夫を行うべきであるという点、それから、人材確保に当たりましては、有用な人材を派遣してくれるような仕組み、例えば知財の場合のINPITのような仕組みがあったらいいのではないかとか、クロスアポイントメントを進めることで、企業の人材を大学に派遣できるのではないかという御指摘もありました。
また、データエンジニアだけではなく、研究データをさらに使ってもらうように、データ営業的な活動を行う人材、あるいはデータヘルプデスクのような活動を行う人材、こうした機能をもつ人材も重要ではないかというお話もありました。
それから、もう1つの論点としては、運営体制等の強化でございます。人材の確保と裏腹の問題かもしれませんが、データ基盤のシステムをつくっただけではなくて、それを管理・運営していくことが重要であって、そのためには、それを行う人員が必要だという指摘でございます。
それから、現在NII、理研、それから大学の基盤センターで学術のネットワークやデータ基盤、そして計算資源というインフラの整備・運営等を担っていただいているわけですが、これら全体の体制の強化も中長期的な課題ではないかというお話がありました。
また、そうした情報基盤に関しては、競争的な資金での措置ではなくて、安定的な財源を確保していく必要があるというお話もありましたし、また、情報系のファンディング機能の強化が必要ではないかという御指摘もありました。
さらには、先ほど田浦委員からの御指摘もございましたが、インフラ、計算資源等を整備していく際に、単なる調達ではなくて共同開発のような仕組みを入れていくべきではないかということや、予算等の柔軟な執行等に関する御指摘もありました。
それから、最後でありますが、学会の活性化にも、研究のDXが役に立つのではないかというご指摘もありました。
以上、前回までの御議論を網羅的にまとめてみました。抜け、あるいは修正等ありましたら、事務局までお知らせいただければと思っております。
その上で、並行して事務局で検討中の取組の御紹介でございます。4ページでございます。
これまでの御議論の中で、全国的な研究データ基盤を早急にしっかりと構築していく、その内容を充実していくべきだという点と、併せていろいろなユースケースをつくってデータ駆動型研究の成果を出していくという点の両方を進めていくことが重要だとの御指摘が大勢の流れであったと理解をしております。
このようなことを踏まえて、我々としましては、日本の研究力の飛躍的向上を図るために、全国的な研究データ基盤の整備・高度化と、そうした研究データ基盤、さらにはSINETなどの先端的な情報基盤のさらなる活用を通じたデータ駆動型研究の拡大・促進、これらを両輪で支援するような機関を振興していってはどうかということで考えてございます。
ここにありますように、支援の内容としましては、全国的な研究データ基盤の整備・高度化ということで、各機関や各分野のリポジトリをしっかりとつないでいくという点、それから、全国的なデータ基盤として、研究者の方の役に立つような機能をしっかりと備えていく点、さらには、そのような高度化に必要な研究を行って、その成果をこの基盤に実装していく点、また、システム的な取組だけではなくて、ルール・ガイドラインの整備やデータマネジメント人材の育成などにも取り組んでいく点、これらの活動を支援するとともに、そうした情報の知見を有する機関が、新しいデータ駆動型研究を行おうとしている取組を併せて支援していくということで、情報分野の研究ポテンシャルと、各分野のニーズとをマッチングさせられる仕組みというのを構築していってはどうかということを検討してございます。
こうした案につきましても、先生方の御意見をいただければ大変ありがたく存じます。
事務局からは以上でございます。

【安浦主査】 どうもありがとうございました。
では、若目田委員に引き続きお話をいただきたいと思います。よろしくお願いします。

【若目田委員】 御迷惑をおかけしました。では私から、主に民間の目線で、データ基盤に関する課題認識をお話ししたいと思います。
まず、非常にベーシックな話になりますが、一番新しい総務省の情報通信白書を見直しましたところ、諸外国と比べて、日本におけるデータの活用は未だ遅れが顕著であることが数字的にも見えています。
理由としては、個人データに関してはパーソナルデータを扱うことによるインシデント発生のリスクと、その責任の大きさから企業が活用を躊躇している点が一番大きく、次がデータを取り扱う人材の不足です。
パーソナルデータ以外の活用状況に関しても、米国・ドイツに比べてかなり低いという結果になっています。これは、データのフォーマットのばらつきとか品質の確保といったデータの収集・管理にかかるコストの増大が理由に挙げられています。
学術データにも近いオープンデータに関する調査を見ても、「どのような種類のデータを利用しているか」という質問に関して、日本の企業は、「オープンデータは利用していない/利用を検討していない」とそもそも利用の選択肢に入っていないという回答をした企業が抜きんでて大きいという状況です。これは行政データに限らず、恐らく学術データに関しても、多くの企業は認知していないし、何かやるときの検討の対象に上がってきていないのではないかという仮説が浮かびます。
もちろん、そういう状況に関して、古くから官民データ活用推進基本法などでも課題認識され、その対応方針が示されてきましたが、最近では6月に閣議決定された包括的データ戦略においても、日本のデータ活用が諸外国に比べ遅れているという認識からスタートしています。一例として、データのサイロ化の問題も、スマートシティのようにエリア単位の活用であったり、あるいは一部の分野における活用であったり、一部の業界内の活用であったり、もしくはオープンデータやパーソナルデータといったデータ種別に分けた検討がなされている状況で、要は個々別々に実施されていて、スケールしていないというのが実情ではないかと理解をしています。
これは、知的財産戦略本部の資料における、「日本のデータ流通の阻害要因」についての資料ですが、知財本部としては、データ利活用に向けて、データに関わる権利のあり方や契約組織のデータガバナンスといったものに加えて、新たにデータ流通基盤に関するルール策定の必要性を述べています。これは先ほど示した包括的データ戦略にも掲げられています。データ流通の阻害要因に目を通しますと、企業だけではないのかもしれませんが、パーソナルデータの取扱いへの不安に加えて、自社の秘密とか、自分のノウハウなどが、他社に漏れることや共有されることにより他社を利することを嫌っている傾向にあるのかと思います。
先ほどお話しした包括的データ戦略ですが、データ連携基盤については、「プラットフォームの整備」として明記されています。プラットフォームの検討手順として、産官学によるデータ連携基盤として、「DATA-EX」という構想に基づいて、分野横断のデータカタログやAPIなどをどんどんローンチしていこうという方針であり、分野毎に分散するデータの連携にはコネクタというものを開発して接続していこうという計画が示されています。
ですので、学術データの検討に関しましても、民間もそれを活用するユーザーとなっていくという前提で考えますと、「DATA-EX」との連携や、共通ルールの反映は念頭に置いて進めていただけたらと思います。また、この重点分野に掲げられている部分――なぜこの重点分野になったかというところは、そのプロセスに関して少々疑問がありますが、重点分野と掲げられたからには、要は目的ドリブンで、学術データが貢献する部分も多々あると思いますので、全国的・統合的な研究データの活用を冒頭から折り込むべきであり、また、これらプロジェクトの実装の過程において、研究データ基盤の高度化や、ブラッシュアップを図ることが重要ではなかろうかと感じております。
「DATA-EX」の開発機能ですが、資料ではピンクの部分となります。これはSIP(戦略的イノベーション創造プログラム/ビッグデータ・AIを活用したサイバー空間基盤技術)で一部機能を開発したものを、この後説明する一般社団法人データ社会推進協議会(DSA)という団体が継続強化、運用する方向性が示されております。このプラットフォーム上で、データ取引市場や情報銀行等々のデータ政策を推進し、同時に、既に整備されているものも含め様々な分野間のデータを、それぞれのコネクタを通じて連携し、さらにグローバルの標準や諸外国と協調をしていく構想になっています。
一方、既に名前も挙がっていましたが、欧州データ戦略の「GAIA-X」に関しましても、既に具体的な構想が示され、日本でもNTTコミュニケーションズが既にコネクタを経由して「GAIA-X」上でデータの相互接続の実証をスタートしています。「GAIA-X」はクラウド基盤ではありますが、データ主権、透明性、相互運用性、トラストといったEUらしい概念をしっかりこの上で担保していこうというポリシーが基礎になっているところも特徴かと思います。
「DATA-EX」の今後ですが、今後は私も理事の一人ではございますが、DSAが運営することになります。DSAの会長でもある東京大学の越塚登先生が示された、「DATA-EX」の今後の課題認識がこの資料です。欧州は巨額な資金を投じて「GAIA-X」を推進することになっていますが、「DATA-EX」としてグランドデザインが完成した後、そこにきちんと予算を投入していって、持続的に強化、運営するための加速支援が必要と認識しています。デジタル庁には、その役割を担っていただきたいという要望もここでは申し上げています。
DSAですが、アカデミアや自治体等も含め現在約120の企業、団体が会員となっており、特徴としては特定の業種や領域ではなく、広く横断的な業種が会員となっている点で、この特徴を生かしながら分野間データ連携に関してリードすべく活動をしております。
「DATA-EX」のテスト環境やテストベッドは、一部既にDSAで保有しており、例えばFIWAREと連携するなど、既に実際にテスト・評価できる状態にあります。今後は、先ほどのSIPの分野間データ連携の成果物に加え、上に記載したようなコンポーネント群を開発し、かつ、既に分野ごとに存在しているデータ基盤に関しましては、コネクタを開発し、コネクタを経由して接続していく方針です。
次に、産学におけるデータ共有の期待について述べます。経団連では、Society 5.0に関してSDGsの達成にも貢献するという点を踏まえて、2018年に「Society 5.0 for SDGs」という形で、具体的な姿を例示しました。思えば、コロナ以前、かなり前から目指すべき社会の例示をしていました。
ポストコロナにおいても、基本ここに掲げているゴールは変わらないものと個人的には思っております。各領域の知見とデータを活用し、AIを中心に重点的に進化させていく戦略であり、各国のデータ覇権をめぐる争いの中でいうと、日本はやはり多種多様なデータ、特にリアルデータを中心に共有を図るべきであり、これができなければ恐らく、他に勝ち筋は無いのでないかという理解です。この産学含むデータ共有、AI活用についていえば、やはり国民の方々に理解をいただく、賛同をいただく、共感をいただく、このような科学技術の開発であるべきで、その為には、しっかりとしたポリシーを策定し、透明性を持って推進する点も重要かと思います。
経団連が掲げた、この「Society 5.0 for SDGs」の具体的な領域は9つあり、全て記載はしていませんが、一つ目に掲げた「Society 5.0時代の都市・地方」に関連していえば、「デジタルツイン」というキーワードに代表されるリアルデータの整備、公共空間の可視化という点で象徴的な姿です。以前、美濃先生とご一緒に、カメラ画像の活用の産学のルールの検討をさせていただいたことがございましたが、取得する画像データ活用の目的や、活用によりどのような社会貢献ができるのかなど、きちんと生活者に伝えながら集めていかなければ、デジタルツインは単なるおもちゃになってしまうので、この受容性の観点も非常に重要かと思っています。
次にエネルギー、いわゆるグリーン×データの領域ですが、今まさに重視していくべきターゲットになっております。グリーンというのは産業データだけでなく、消費者の行動変容という重要な目的を鑑みますと、当然パーソナルデータとして消費者の行動情報なども必要です。また防災・減災に関しては、自治体データの整備やオープンデータの拡大、さらにサプライチェーンに関するデータなど、要は観測データに留まらず、生活者の行動や産業活動のリアルタイムデータまで展望した取組が重要です。
一番下に、その他キーワードとして何点か示しておりますが、学問的にいえば計算社会学の領域、いわゆるソーシャルデータや、人、モノ、金などの動きを示す経済活動データなど、大量データから様々なことを導き出すといった活用をも重要であり、この点は民間も同じような思いを持っております。同じく、金融領域で注目されているオルタナティブデータは、今まで対象としてこなかった非金融データが実は投資判断に有用であるとされ、研究も進んでおります。
さらに、ドローンや衛星などを活用した、画像データに関しても、学習データとしての価値も含めその活用が注目されています。産学問わず、研究者の方々にとっても大量の画像データを学習データとして使いたいというニーズはありますが、写り込んでいる個人の画像のプライバシー課題が指摘されています。日本の競争力としてのAIの高度化に重要な一方、プライバシーや受容性課題への対応も考慮すると、個別のPOCや、研究単位、各社単位で細々とデータを集めるには限界があるとも指摘されています。これらも、産官学を挙げて、正面から取り組みコンセンサスを得ていくことが重要なのだろうと思います。
また、EdTech領域データについても記載しましたが、先日、名古屋市ではGIGAスクール端末における個人情報の取扱いについて議論となりました。タブレットとかパソコンを全生徒に配ることで、学習ログから様々なことが分析できるということは、AIの研究者から見れば宝の山に映るのかもしれませんが、教育データ活用も当初から適切なポリシーに基づき臨まなければ、せっかくの施策が停滞してしまいます。
また、最近着目されておりますのは、人のスキルや資格、経験などを蓄積、可視化することにより、人材の適材適所、人生100年時代の人材活用といった施策への活用で、民間においても非常に重要なターゲットになっておりますので、産学連携のテーマとしても着目いただきたいと思っております。
経団連は、AI活用戦略の中でも、やはりデータの重要性を提言しており、オープン化の促進、活用しやすい形としてのAPI化の推進に加えて、分野間のデータ連携、共有促進、学習済みモデルの流通、再利用の促進についても重要課題に掲げております。
これは情報委員会の第3回にプレゼンさせていただいた、「わが国の研究開発力強化に向けて」の提言です。「戦略と創発」への転換を求めたもので、破壊的イノベーションを求める創発的研究と、企業が中心的役割を発揮しある程度ターゲット、ゴールを決めて臨む「戦略的研究」の役割分担を提案しております。「戦略的研究」についても、大学や研究機関との連携は必須だと思っておりますが、産学一緒になって、生活者の理解を得る為の活動を行うことが重要と、以前も申し上げました。
最後に「産学におけるデータ共有課題」についてお話しします。既に、幾つかの点を申し上げてきましたが、民間データとの相互共有促進によって価値の最大化を目指していくことに加えて、欠かすことのできない研究者の方々が、データの取得や整備に関わる事務などに時間を取られ過ぎず、本来の研究に集中していただくために、効率化も重要な論点と思います。
それらを踏まえ、データ流通、共有に関する運用の課題を4点ほど、個人的な意見として申し上げておきます。これらも、ある研究機関と企業における個々のデータ共有の課題、特定の研究機関の課題ということではなく、協調領域として、産学で統合的に対応すべき要素が大きいのではないかと感じています。個人情報保護法改正への対応、適切な取扱いの推進、産学マッチング機会の創出、データ共有のプロセスの整備という大きく4つを掲げましたが、これらを通し、冒頭にお話しした課題、「民間企業はそもそも学術データの活用を想定できていない」ということの解決につなげることが大切です。
個情法改正の中身は説明しませんが、相応のインパクトがあると思います。民間は現在必死に令和2年改正の対応をしているのですが、学術研究分野に関しましては、令和3年改正により、大学も政府研究機関も基本民間のルールへ統合していくことになります。
特に学術研究目的の適用除外は、現在は一律に適用除外という形でしたが、安全管理等に関しては民間同様の取組が求められることになります。今後、共同研究ということも視野に置いて、産学連携した計画的な対応が求められますが、計画的に進めるべきと考えます。
経団連では、いろいろな会員企業の声に基づいて、今回の個人情報保護制度の見直しに関して、「民間事業者が適切に判断し、個人情報を活用できるよう、学術研究目的の判断基準を明確にすべきである」と提言しております。
お示しした資料は6月に公開されたばかりの資料ですが、「学術研究分野における個人情報保護の規律の考え方」として、個人情報保護委員会が公開したものですので、参考にしてください。
次に、課題の2点目です。こちらは法対応に留まらないプライバシー等へのガバナンス課題です。民間企業もリクナビ事案等を契機に、法遵守にとどまらずに、広くガバナンス体制を整備すべきとの課題認識で、経済産業省が中心になって、「DX時代におけるプライバシーガバナンスガイドブック」を公開しております。大学や研究機関も、先ほどの個情法の改定への対応に留まらず、このガイドブックに掲げられているガバナンスの体制整備を検討すべきではないかと思っております。
ガイドブックには、経営者が取り組むべき要件として、プライバシーガバナンスに関する、姿勢の明文化、責任者の指名、そしてポリシーと責任者を決めるだけではなく、きちんと推進するための十分な経営資源(ヒト・モノ・カネ)を投入することを定めています。
加えて、実践に際し重要となる点を具体的に示しています。例えば一つ目の「体制の構築」では、プライバシーの保護組織のあり方の例示や、内弁慶にならないように社外有識者に意見を求める体制を構築すべきといった点です。また、「運用ルールの策定と周知」、「プライバシーに係る文化の醸成」、「消費者とのコミュニケーション」、さらに「その他のステークホルダーとのコミュニケーション」として、直接のお客様だけでなく、取引先など広くサプライチェーン全体で信頼を担保すべきといった点などが書かれています。この点、自分はしっかりとやっていても、データを提供している先で事案が発生すれば、信頼を損なうという点では同じですので、産学連携の場合でも、連携対象となる研究機関と企業全体で信頼を担保すべきで、どちらかに弱点があってはならないものです。プライバシーガバナンスガイドブックは、バリューチェーン、サプライチェーン全体で、ガバナンスを行う重要性など、ぜひ研究機関においても参考にしていただきたいと思います。
もう1つぜひ参考にすべきケースとして、これは東京都が取り組もうとされている「東京データプラットフォーム(TDPF)」を紹介します。TDPFもまさにデータ連携基盤のひとつです。「東京都のデータを公開します」という従前のオープンデータ政策ではなく、東京都がデータ流通基盤となって、東京都の区市町村保有データや都民のQOL向上に資する民間のデータの流通の仲介をしていこうという取組です。
この取組のすばらしい点は、ユースケースの創出や事業者マッチング、会員を募るといった活用面だけでなく、事業開始に先立ち、外部有識者との議論、都民の意見募集などを通じポリシーの策定をしっかり行っているところです。データガバナンス指針、プライバシーステートメント、コンプライアンス指針、利用規約、情報セキュリティーポリシーなど、事業計画フェーズにおいてしっかり定めた上で、事業検討に臨むという点、今回の学術データ基盤の構想についても、ぜひ参考にしていただきたいです。
次に「裾野を広げた産学マッチングの機会の創出」についてです。そもそも企業がオープンデータとか学術データということに対して、活用の選択肢に入っていないのではなかろうかという課題は、実は根本の課題かと思います。そこで、先ほど申し上げたDSAでは、NIIの武田先生を委員長とした学術連携委員会を立ち上げました。まずは約120のDSA会員に対し、学術データのマッチングの機会を設けることを目的として、今後、会員向けセミナーやイベント、ワークショップ等を通じ、産業界に学術データの価値について理解を促進し、自社事業などへの価値を検討する契機にしたいと考えております。 まだまだ、取組はスタートしたばかりですが、民間側からも本件のような取組を通じ貢献をしていきたいと思っております。
「産学におけるデータ共有、流通プロセスの整備」について、NIIさんの取組を武田先生から聞き、参考にすべきと思った点がありました。実際に運営サイトを拝見しましたが、「情報学研究データリポジトリ」という取組で、研究者が各々自ら対応するには手間がかかる、民間企業とのデータセットの受け入れ事務に関する専任体制を整備されています。データセットを民間に登録してもらうための勧誘、条件交渉、審査、利用規約、利用申請フローの整備、さらにはマッチングイベントまで統括してやられているということです。
またデータ契約については、さまざまな条件や留意点が多く、試行錯誤の積み重ねによるノウハウ蓄積、集約をされていて、結果的に研究者の事務負担が軽減されるという点でも、重要な取組だと思います。横断的、統合的な研究データ基盤においては、このような仕組みが拡大、実装されたらよいのではと感じた次第です。
最後のまとめです。いままで申し上げました通りですが、個情法改正への対応について、令和3年度改正への対応は、これをよい契機として各研究機関も民間との共同研究を視野に置いた取組を進めていただきたいという点。海外研究機関とのコラボや外部委託等々に関しても、EUからもいくつか法規制が出ておりますので、グローバル動向もウオッチすること。
加えて、先ほどプライバシーガバナンスガイドブックの話をしましたが、研究機関のガバナンスの体制整備に向けては、基本は民間と同じ姿勢で進めていただくべきということ。また、「カメラ画像利活用ガイドブック」、「AI・データの利用に関する契約ガイドライン」などは具体的なユースケースごとに具体的な対応方法を実例として示しているが、残念ながら産学での共同利用や、産学間のデータ流通に関するユースケースがない状況です。例えばそれらケースをホワイトリスト的に公開していくのも有効と思います。
自身としても、マッチングの機会の創出と、産学データ取引のプロセスの整備などに力を入れていきたいという思いをお伝えして、私のプレゼンを終わりたいと思います。ありがとうございました。

【安浦主査】 若目田委員、どうもありがとうございました。
この後、総合討論に移りたいのですが、もうあまり時間がない状況ではございます。
皆様の御意見を伺う前に、前回の議論の中で、塚本委員から、後でメールで御意見をいただいておりました。それを塚本委員からこの場で御披露いただければと思います。
塚本委員、よろしいでしょうか。

【塚本委員】 どうもありがとうございます。前回、リサーチエンジニアとしてお話があった件なのですが、産学官の流動化も含めた情報系のキャリアパスの開発というのを、もしもこの情報委員会で一つのアウトプットにしていただけると、大変意味があるのではないかと思いました。
といいますのは、民間でもIT系はほかの業界に比べて非常に流動性が高く、従来はベンダーの中同士の移動でしたが、最近はDXの進展に伴い、かなりベンターからユーザー企業というのも増えています。こちらの科学技術・学術審議会の中の人材委員会でも、産と学の流動性については長く議論しておりますが、民から学へは結構あるのですが、学から民というのがあまり変わっていないのが現状だと思います。
必要なエリアですとかスキルとかが比較的可視化しやすく、しかもニーズも高いITのエリアで、産官学をまたがった流動性も含めたキャリアパスを描いて成功例をつくっていくことができると、ほかのエリアにも波及効果があるのではないかと気がしまして、コメントをさせていただきました。ありがとうございます。

【安浦主査】 塚本委員、どうもありがとうございました。
それでは、今日のお三方、及び文科省からの御発表に対して、御意見あるいは御質問等がございましたらお願いしたいと思います。
奥野委員、どうぞ。

【奥野委員】 奥野です。皆様、大変ありがとうございます。恐らく皆様、同じような意見を持たれているのではないかなと思うのですが、それぞれの先生方がそれぞれの機関あるいはそれぞれのお立場で仕組みをつくられているのですが、やはり重要なことというのは、本当に国の幹線道路を造って、あと、主流をしっかりと張るところだと思うのですが、やはりそういう意味では、省庁をまたいで、本当の上からの戦略というのを考えていく姿勢――それをデジタル庁が担われるのかどうかなのですが、あくまでこの委員会は文科省の部分ですので、アカデミアが中心になるかもしれませんが、やはり総務省あるいは経産省、また医療系は厚労省の、それぞれが同じような感じの似て非なる取組をされていますので、そこの統合化というのもやはり下から上に上げていかないと、出来上がったけれども結局またばらばらになっているというようなことになりかねないかなと思いました。
全体は各先生方のお話は本当に、言うはやすし、行うは非常に難しだろうと思いながら、すごく御苦労されて考えられているのだなと思いました。
以上です。

【安浦主査】 奥野先生、どうもありがとうございます。やはり、日本の弱い点ということにもつながっていくと思うのですが、これまでも、なかなか省庁の壁というのが破れなかったわけで、そういったところの本当の司令塔をつくると、いつも内閣府なども言うのですが、司令塔が司令塔になっていないという問題かと思います。
八木先生、その件で何か御発言ですか。

【八木委員】 今の、まさに奥野先生のお話は大変重要だなと思いまして、本当にいろいろなところがいろいろな取組をやっていますし、それこそ私どもも、まさにSociety 5.0でこの情報委員会が所轄する事業におきましても、パーソナルデータの、特に学術研究におけるデータを社会の中で二次利用しようという取組なわけで、ぜひ、いろいろな取組がつながるように、経団連でも計画していただけると非常にありがたいなと思いますし、全部がつながるべく、社会が一個になって日本が強くなることを私も期待いたします。

【安浦主査】 どうもありがとうございます。
それでは、小池委員から手が挙がっていますので、小池委員、どうぞ。

【小池委員】 ありがとうございます。2点ございまして、1点目は皆様と同じですけど、少し追加させていただきますと、例えば今の美濃先生のお話の、バイオ系のデータって理研さんも結構集めていらっしゃると思うのですが、何年か前といいますか5年以上前に、バイオサイエンスデータベースセンター(NBDC)を省庁をまたいでつくられて、ここにバイオ系・医療系のデータを集めていきましょう、みたいなことをやっていたと思います。
そういうことをやっていたけれども、それがしっかりと推進し切れていなくて、ここにみんな集めましょうとなかなかならない。ならない理由は、インセンティブがなくて、その時に、ファンドを出すときに、必ずそこに、このファンドはここに入れてください、みたいな推奨みたいなことを入れたのですが、それでもなかなか進まなかったかなと思います。
ですので、少なくともリサーチファンドを出すときには、もう少し強要という、お願いぐらいですとなかなかやってくれなかったので、ある程度条件づけしていく。その次に、一回データを入れなければ次のファンディングのときには少しプライオリティーが下がるとか、何らかのインセンティブになるようなものも設計しないといけないフェーズかと思っています。
特に、医療系・バイオ系って割とNIHやNCBIとかのデータベースがリッチなので、あそこを見ていますと、NIHのファンディングをもらった時点でアーカイブのところができて、実験が終わって論文がパブリッシュされるとそこにデータが入ってくるように、もうファンドがもらえた時点でもうIDがつくみたいになっていました。あのぐらいの勢いでないとデータが集まってこないのではないのかと思いますのが1点目です。
2点目は、この次が企業の観点での話ですけども、先ほど若目田先生からいろいろと示唆に富むデータをいただいたのですが、多くは、もう少し分野ごとに分けていくと、多く、データを使ってビジネスをするかどうかみたいな話になってくると、eコマースとか、ヘルスケアとか医療とか、割と偏ったところで大きな事業展開になっているのではないのかと思っていたのですが、ちょっと私の認識が間違っているかもしれません。
そう考えたときには、もう一つは社会の受容性というのがあるのかと思っていて、今、例えば法律にのっとって何かデータを使ったとしても、たたかれることってないことはないのです。BtoBの場合は大丈夫で、BtoBの場合は工場内のデータのデジタル化みたいな話であれば何ともないですけれども、BtoCになってくると、誰のデータかみたいな話になって、一応同意を取っているかもしれないけれど、知らないうちにクリックしているみたいな具合で同意を取っていたりすると、その後なかなか、それを使ってビジネスにしたときに、何か起こったとき、何か世論が違う方向に向いてしまうとたたかれるようになるのではないかと思います。データを使ってビジネスをすることで、皆さんがより豊かな暮らしになるということに対する社会的コンセンサスを得るというところも、同時にやっていかないといけないのではないのかと思います。
以上でございます。

【安浦主査】 どうもありがとうございます。
今、小池委員から法的な話も出ましたけども、非常に、これ自身も大きな問題だと思います。
今、後藤厚宏先生から手が挙がりましたので、後藤先生、どうぞ。

【後藤(厚)委員】 後藤厚宏でございます。今日は非常に良いお話を伺いまして、勉強になりました。ありがとうございます。
文科省さんからの資料4、これも大事なところがまとまっていると思います。特に4ページにありますデータの管理機能や加工・追跡機能のように、しっかりデータのインテグリティを守る、それからコンフィデンシャリティーを守る、ここがしっかりとしていないと研究が全部ひっくり返ってしまいますので、先ほど美濃先生のお話にもありましたけど、まさに共有するデータこそ、きちんとインテグリティ管理ができないといけないというところを強調したいと思います。
次に、3ページ目の人材育成と確保の点でございます。これは一番大事だと思っているのですが、確保となりますと、どこから確保するかという話でございまして、もう少し言うと、海外の人材等をどう考えるのか。
実際、大学の研究機関には海外からの研究者がたくさん活躍しております。特にデータエンジニアリング系の人材となると、海外への期待も高いわけでございます。
一方、私も別の戦略本部などで議論をしていますと、経済安全保障の議論が出てくるため、難しいかじ取りをしなくてはいけないところでございます。産業界は今、経済安全保障に動いております。だから、それとすり合わせをするという意味では、文部科学省系の動きについても、人材、特に海外の人材をどう考えているのかというところは、早めに作戦を練っておかないといけないと思います。面倒くさい御提案で申し訳ないのですが、お伝えいたしました。
以上です。

【安浦主査】 どうもありがとうございました。非常に重要なポイントだと思いますし、先ほども、政府がまとまって旗を振るという話とか、若目田委員が言われた、産業界がまとまってという話と、安全保障の問題とはかなり機微な関係にあるのではないかと思います。その辺も、何らかの形でこの議論のまとめに反映していく必要はあると思います。
続いて、後藤吉正委員からも手が挙がっていますので、後藤委員、どうぞ。

【後藤(吉)委員】 後藤でございます。先ほどの、研究の成果で出てきたデータを共有化するためにはいろいろなインセンティブを働かせる必要があるという御指摘はもっともだと思います。その際に、ファンディングの仕組みを使ってという御指摘もありました。1つの有効な方法ですが、どこまでできるかを、よく検討、研究した上で進めていく必要があると思います。慎重な対応や突っ込んだ議論をお願いしたいと思います。
以上でございます。

【安浦主査】 ありがとうございます。
どうぞ、八木先生。

【八木委員】 人材育成の話が出たので、私が非常に感じていることを話します。今、Society 5.0の事業の中でもAIの人材育成を推進しているわけですが、きっちりと体系的にAIを教えようとすると、それなりにコストがかかります。そのコストを企業が本当に出すかというと、企業の方針によってかなりばらつきます。
人材を育成するためには、やはり社会人をいかに教育し直して、情報社会の中で活躍できる人材として成長させるかが極めて重要で、その時に企業をうまく支援する施策があったほうがいいのではないかと思います。
第四次のスキルとかで、個人がやった場合には半額補助という制度があります。一方で、企業の場合にはそこまでの金額ではないです。より企業が参画しやすいような制度設計がうまくできると、企業も積極的に社内教育をできるのではないかというのが、今、実際に自分がやっている中で感じている問題意識です。ありがとうございます。

【安浦主査】 どうもありがとうございます。この情報委員会の中で、企業のある意味でコストの分担までどこまで踏み込めるかというのは難しい部分もあるかもしれませんけど、今後、議論はしていきたいと思います。
長谷山先生、わざわざ東京までおいでいただきましてありがとうございます。御意見どうぞ。

【長谷山委員】 ありがとうございます。終了時刻が近づいているようですので、手短に発言いたします。前回、第17回の資料3でも説明がありましたが、本日、田浦先生のお話の中にもあったように、我が国の大学を含む研究機関は、研究だけでなく教育も、SINETとNIIのデータ基盤に頼っている現状があります。
予算の工面の仕方で基盤の運営に影響を与えることは、それを利用する大学が、不安定な中で研究・教育を行っていることになります。基盤を長期にわたって支え続ける予算の確保や、利用者側とアプリケーションをつなぐ基盤センターの在り方についての検討も含めて、常にこの委員会から働きかけていく必要があると思います。
以上、本日の資料4「研究DXへの取組方針に係る前回の議論の整理と今後の取組方針(案)」の議論③の補足として発言させていただきました。

【安浦主査】 長谷山先生、どうもありがとうございます。今、先生がおっしゃったことは、本委員会の一番正面からやらないといけない部分だと思っておりますので、また、最後のまとめの文章をまとめる中で、いろいろと御意見等いただければ幸いでございます。よろしくお願いいたします。
美濃先生、何か御発言ございますか。

【美濃委員】 個人情報の問題がやはり一番大きくて、これからデータと言ったときに、理研でも見ているのですけど、自然科学・防災とかに対するデータと同じぐらい、やはりもう個人データというのは、すごく、これから研究データを含め、多くなるのが目に見えています。
そこで、個人情報の扱いで大体萎縮するといいますか、法律ではやってもいいと書いてあることまでいろいろ制限されるということがあるので、この辺り、ぜひメッセージとして、この辺まではやっていいいうことをどこかで決めないと、グレーゾーンがかなり大き過ぎて、みんな自己規制で厳しいほうへ倒れている。何かあったとき誰が責任を取るのかという話をされると、経営陣になってしまうと、やはり駄目だという話をしてしまわざるを得ないので、個人情報の扱いというのもしっかりやらないと、研究データの共有・利活用というのはなかなか進んでいかないのではないかと非常に懸念しておりますので、その辺りも何か、もしできるのであれば、議論をしていただければいいかと思いました。
以上です。

【安浦主査】 ありがとうございます。この辺の話は、極めて多岐にわたる問題と向き合わないといけないので、今回のまとめにどこまで書き込むかは、次回以降、少し議論させていただきたいと思いますけど、この委員会がメインになるか、あるいはほかの政府機関が中心になるかは分かりませんけど、とにかく早く、そこはクリアに答えを出していく必要があるのだと私も思います。
もう時間が来てしまいましたので、ほかにも御意見を伺いたいところではございますけども、今日のところはここまでにしていただきまして、もし御意見等まだございましたら、事務局にメール等でいただければ、次回のときにでもまた少し御紹介をさせていただきたいと思います。
今日までのお話で、1つは、今の美濃先生のお話にもありましたけど、人間に関するデータ、個人に関するデータに近いものと、自然科学の加速器から出てくる、もう無限に近いような細かいデータで、本当に使えるかどうか分からないような自然現象のデータまで、データと言ってもいろいろあると。その中間ぐらいに、ゲノムとかを含んだ生命現象のものがあるのかもしれませんけど、そういうものに対して、それぞれどういう議論を、分けて議論したほうがいいのか、まとめて議論すべきなのか、その辺が一つクリアになってきて、理研さんでやられていることが一つはヒントになるのではないかと思います。
それから、こういう問題を日本の中で学術情報基盤として、研究DXを支えるものをつくっていく上で、3つのファクター、すなわち制度とかルールとか、そういったものをきちっと国民まで理解していただくという意味合いで確立するというのが1つ。それから、それを実際に自動化していくツール、システム、そういったものをどういうふうに構築し、誰がインセンティブを取ってつくっていくかという道具の問題。3番目に、その道具の開発・運用に当たる人材、あるいは個々の分野ごとにやはりカスタマイズしていかないといけないという、美濃先生のお話にもありましたけど、そういったところで働く人材の供給をどうしていくのか。大きく分けてこの3つぐらいに集約できるのではないかと思いますけども、その辺を中心に、また次回以降、議論を続けさせていただきたいと思います。
今日は時間が少し延びましたけど、3名の委員の先生方から非常に奥の深い内容のお話が伺えたかと思います。
本日の議論はここで打ち切らせていただきたいと思います。
それでは、事務局から連絡をお願いいたします。

【上村専門官】 ありがとうございます。事務局でございます。本日は御議論いただきましてありがとうございます。また、御発表いただきましてありがとうございます。
まだ御意見をいただけるところもあるかと存じますので、こちらは一旦7月2日、今週の金曜日までに事務局へメールでお送りいただけますでしょうか。
次回の情報委員会ですけども、8月の上旬から中旬に今、予定させていただいているところです。皆様に調整させていただいているところでございます。
先ほど主査からありましたように、今の議論をしているところのまとめ的な部分、あとは、事務局からも本日御説明はさせていただきましたが、そこの事業等に関してのさらなる議論といったところが次回の議題にはなるかと存じますが、その辺りをこのひと月ぐらいで、また皆様の御意見をまとめていければと考えているところでございます。
閉会の前に、明日、7月1日付で事務局の橋爪が異動となりますので、ここで御挨拶をさせていただければと思います。

【橋爪参事官】 時間が押している中で恐縮でございます。本日は、先生方には貴重な御意見を多くいただきましてありがとうございます。7月1日というタイミングで、事務局では私、橋爪と、それから補佐の出口と、2人異動することになります。私は内閣府に、出口は文科省の中で異動となります。
それぞれ、着任から数えると私は2年を超えていまして、出口は2年でありますけれど、まさにコロナ禍が起こって、情報分野をめぐる状況が本当に大きく変わるときに、前の期も含めまして、情報委員会の先生方に御指導いただきながら、この分野の仕事に関わらせていただけたということは、本当に得難いものであったと思います。力不足の点も多々あったかと思いますが、先生方の御指導の下で、何とかここまで来られたと思っております。
今日、また、こんなにエキサイティングな議論が続いている中で代わるということは、本当にもっともっとここに関わりたいという思いを持っているところではございますが、後任も着任いたしますので、引き続き、変わらぬ御支援、御協力を賜れば大変ありがたく存じます。
今後、仕事の内容は変わりますけれども、今や情報の分野は全ての基盤でありまして、ここで学んだ情報の力というのを、どんな仕事に関わっても忘れずに、また皆様のお力を引き続きお借りしながら取り組んでまいりたいと思いますので、今後ともどうぞよろしくお願い申し上げます。本当にありがとうございました。

【安浦主査】 橋爪参事官、本当にありがとうございました。内閣府に異動されるということですので、ぜひ、先ほどから話題になっています司令塔が一本でなくてばらばらになっているというのを、内閣府からぐっとまとめて、この委員会でここまでやっていいよというのを内閣府から出してもらえれば、ここで一生懸命まとめますので、ぜひ今後ともよろしくお願い申し上げます。
皆様、橋爪参事官に謝意を込めまして拍手を送りたいと思いますので、御賛同いただければと思います。どうもありがとうございました。(拍手)

【橋爪参事官】 ありがとうございました。

【安浦主査】 それでは、以上をもちまして、本日の情報委員会は閉会とさせていただきます。少し延びまして、御迷惑をおかけしました。どうもありがとうございました。次回も御出席のほど、よろしくお願い申し上げます。

―― 了 ――

お問合せ先

研究振興局参事官(情報担当)付

(研究振興局参事官(情報担当)付)