基礎研究振興部会(第11回) 議事録

1.日時

令和5年6月21日(水曜日)16時00分~18時00分

2.場所

オンライン開催

3.議題

  1. 生成系AIによる研究DXの加速について
  2. その他

4.出席者

委員

観山部会長、佐伯部会長代理、有馬委員、小泉委員、合田委員、齊藤委員、品田委員、辻委員、長谷山委員、前田委員、美濃島委員

文部科学省

研究振興局長 森晃憲、研究振興局長担当審議官 奥野真、研究振興局基礎・基盤研究課長 西山崇志、研究振興局 参事官(情報担当)参事官補佐 廣瀬麻野、研究振興局基礎・基盤研究課 課長補佐 春田諒、研究振興局基礎・基盤研究課 融合領域研究推進官 藤井典宏

オブザーバー

国立研究開発法人科学技術振興機構 研究開発戦略センター 嶋田義皓フェロー、国立研究開発法人科学技術振興機構 研究開発戦略センター 福島俊一フェロー、オムロンサイニックエックス株式会社 牛久祥孝プリンシパルインベスティゲーター

5.議事録

【観山部会長】  それでは、定刻になりましたので、ただいまより、第11回科学技術・学術審議会基礎研究振興部会を開催いたします。
 本日の会議ですけれども、本部会運営規則に基づき、公開の扱いにいたしたいと思いますので、御承知おき、お願いいたします。
 まず、事務局より、本日の出席者と議題の説明など、お願いいたします。

【藤井推進官】  事務局でございます。文部科学省基礎・基盤研究課融合領域研究推進官の藤井でございます。どうぞよろしくお願いいたします。
 まず、本日の委員の出席状況について御案内申し上げますけれども、現時点で13名中10名の委員に御出席をいただいております。上杉委員と城山委員におかれましては、本日は御欠席の御連絡をいただいております。また、美濃島委員におかれましては、用務の都合上、少し遅れての御出席となる旨、御連絡をいただいております。
 また、本日は、議題(1)の関係で、国立研究開発法人科学技術振興機構研究開発戦略センター(CRDS)より、システム・情報科学技術ユニットフェローの福島俊一様、同じく嶋田義皓様にも御出席をいただいております。また、同じ議題(1)の関係でございますけれども、オムロンサイニックエックス株式会社より、プリンシパルインベスティゲーターの牛久祥孝様にも御出席をいただいているところでございます。
 続きまして、配付資料の御確認をさせていただきます。資料は、議事次第の配付資料の一覧のとおり、事前にメールにてお送りしておりますけれども、欠落などございましたら、画面越しに手を挙げてお申出いただけたらと思います。途中でお気づきになりましたら、御連絡をいただければと思います。
 続きまして、本日の議題について、説明をさせていただきます。事務局の基礎・基盤課長の西山から、よろしくお願いいたします。

【西山課長】  本日の議題でございます。議事次第を御覧いただければと思います。生成系AIによる研究DXの加速について、本日は集中して御議論をお願いしたいというふうに思っております。前回、第10回の部会から引き続きの議論になりますが、本件、数回にわたって議論をお願いしたいと思っております。文部科学省が、今後、生成系AIの開発力強化の関係で取り組むべき課題・内容について、議論を深めていきたいと思っております。
 本日、大きく三つの御説明・プレゼンを御用意しております。まず、文部科学省のほうから、政府全体におけるAIに関する議論・検討の状況の共有でございます。5月26日にAI戦略会議において論点整理が行われておりますので、その関係を含めて、政府全体における動きについて共有したいと思っております。
 二つ目は、JST/CRDSからでございます。生成系AI・基盤モデルについての基礎的な研究課題についての調査報告、また、基盤モデルが科学研究に与えるインパクト、ポテンシャルについての調査の報告でございます。
 三つ目は、オムロンサイニックエックス株式会社、牛久様からの御発表でございまして、ムーンショット型研究開発事業の目標3で、「人と融和して知の創造・越境するAIロボット」のテーマで、研究者とAIが融和し、2050年にノーベル賞級の研究成果を生み出す世界を目指す研究ということで、現在進めておられます。本日は、その内容の御紹介をお願いしております。
 これらを踏まえて、今後の取組について、御議論をお願いしたいというふうに思っております。
 以上でございます。

【藤井推進官】  事務局からは、以上でございます。

【観山部会長】  ありがとうございます。
 それでは、議事に入りたいと思います。まず、議題(1)、生成系AIによる研究DXの加速についてです。資料1-1については、今ありましたとおり事務局から、資料1-2と資料1-3については、CRDSの福島俊一フェローと嶋田義皓フェローから、資料1-4については、オムロンサイニックエックス株式会社、牛久祥孝様から、御発表をお願いいたします。それぞれの御発表が終わるごとに、委員の皆様より御意見をいただければと思います。
 まず、事務局より、資料1-1について、よろしくお願いします。

【春田課長補佐】  それでは、基礎・基盤研究課、春田のほうから、資料1-1に基づきまして、国の検討状況について、御説明をさせていただきます。
 1ページおめくりいただきまして、2ページ目でございますが、政府全体といたしましては、AI戦略会議というものが立ち上がり、ここで、いわゆるAIに関する論点について、議論、取りまとめがされてございます。そのAI戦略会議の下に関係省庁の課長級等で議論を行うAI戦略チームというものも組成され、実質的な議論等については、こちらのAI戦略チームのほうでたたき台等の議論がされてきたというふうな形になってございます。
 AI戦略会議については、これまで2回開催をされてございまして、第1回目が、議事としては「AIを巡る主な論点」についてということで、AIの利用や、懸念・リスク、開発について、それぞれ議論がされているといったところでございます。この論点を踏まえまして、AI戦略チームのほうで、第1回、第2回、第3回、第4回を開催いたしまして、その後、AI戦略会議の第2回が5月26日に開催され、「AIに関する暫定的な論点整理」といったものが取りまとめられているといったところでございます。この論点整理を踏まえ、さらにAI戦略チームのほうで、第5回、第6回、第7回が開催されているところでございます。
 それでは、続いて3ページ目、「AIに関する暫定的な論点整理」について、御説明をさせていただきます。こちらについては、5月26日に公表されたものでございまして、主に三つの柱から成っているものでございます。「はじめに」「基本的な考え方」「主な論点」という、三つの柱で構成がされてございます。その中でも、「主な論点」については、「リスクへの対応」「AIの利用」「AI開発力」及び「その他」という形で、四つの項目に整理がされているところでございます。
 「はじめに」の部分につきましては、生成AIの登場は、幅広く生活の質を向上させる歴史的な契機となる可能性といったところが述べられてございまして、その波及の先については、様々なところが考えられているというところでございます。さらに、この契機を物にするため、政府は、企業・研究者が存分に活動できるインフラ整備を行うべきとされているところでございます。
 「基本的な考え方」のところにつきましては、国際的なルール構築に向けた主導的役割を発揮すべきであるといったことや、リスクへの対応と利用に関する環境整備を進めるべきであるといったものが述べられてございます。
 「主な論点」のところでございますが、まず、「リスクへの対応」でございますけれども、AIの開発者・提供者・利用者が自らリスクを評価し、ガバナンス機能を発揮すべきであるということに加え、AIの透明性や信頼性を確保することが重要というふうに書かれているところでございます。
 「AIの利用」に関しましては、AI利用を加速するためのデータ連携基盤の構築や事業環境の整備、政府機関が一体となった生成系AIの利用可能性を追求すること、さらには、幅広い世代が生成AIの恩恵を享受できるよう、スキル、リテラシーを身につけることが大切などが挙げられているところでございます。
 続きまして4ページ目、本部会に関して重要なところとなります「AI開発力」について、より詳細を御説明させていただきます。「主な論点」ではAI開発力に関しましても記載がされてございまして、「AI開発力」も、基本的考え方、計算資源、データ、従来型ではない開発促進策、この四つに大きく分けられて考え方が述べられているといったところでございます。
 基本的考え方に関しましては、AIの研究成果がAI以外の分野の研究開発の加速に寄与することはほぼ確実であるということが述べられており、そのため、AIに関する基盤的な研究力・開発力を国内に醸成することが重要というふうに書かれているところでございます。こういった研究力・開発力を醸成するに当たっては、計算資源とデータの整備を行うことが最も重要というふうに書かれているところでございます。
 計算資源に関しましては、国内の開発需要に比して計算資源の供給量は圧倒的に不足しているといったことを認識した上で、政府が十分に計算資源に対する支援を行うべきというふうにされているところでございます。さらには、世界で計算資源の獲得競争が生じており、政府も関与した上で、可及的速やかに計算資源の整備・拡充が必要というふうにうたわれてございます。
 データのところにつきましては、公的機関が保有するデータについて様々な機関がアクセス可能となるような仕組みを構築すべきというふうに書かれているところでございまして、さらには、AIの利用に大きな期待があるものの課題を抱える分野のデータを整備し、その分野に変革をもたらすAI開発を促進すべきというふうにされているところでございます。
 最後の従来型ではない開発促進策につきましては、開発に関わる組織が、まずはしっかりと最先端をキャッチアップし、その中で技術を磨き、高度な開発能力を持つ人材を育成し、最終的には国際的な競争力につながるような支援を行う必要があるというふうに記載されてございます。このため、計算資源やデータのほか、オープンに利用可能な基盤技術等を提供する環境を整備し、世界からトップ人材が集まり切磋琢磨できる研究・人材育成環境の構築や産学官の基盤開発力の強化を進めていくことが期待というふうに結ばれているところでございます。
 続きまして5ページ目、こちらの暫定的な論点整理を踏まえまして、政府全体として「骨太の方針」や「新しい資本主義実行計画」にどのように記載がされているかといったところを御説明させていただきます。こちらに関しましては、先ほどの暫定的な論点整理の内容を踏まえ、AIの最適な利用や、計算資源・データの整備・拡充など、AI開発力の強化を図るといったことが書かれているところでございます。「新しい資本主義のグランドデザイン及び実行計画」ではより詳細が書かれてございまして、速やかに生成AIに関する基盤的な研究力・開発力を国内に醸成する必要があることや、計算資源の整備・拡充を迅速に進めること、AIに対するニーズが大きい分野のデータを整備することなどが記載されているところでございます。
 最後に、「総合イノベーション戦略2023」における記載でございますが、6ページ目の一番下に書かれているとおり、基本的には「AIに関する暫定的な論点整理」を踏まえた内容が先ほどの新資本主義計画と同じような形で書かれているといったところになってございます。
 私からの政府の検討状況に関する説明については、以上でございます。

【観山部会長】  ありがとうございました。
 ただいまの説明に対して、委員の先生方から御質問や御意見ありましたら、どうぞ。
 有馬先生、どうぞよろしくお願いします。

【有馬委員】  御説明、ありがとうございました。ここで意見を述べてどうなるのか分かりませんが、1点だけ、とても不満なところがありまして、4ページ目に従来型ではない開発促進策とあって、そこの「まずはしっかりと最先端をキャッチアップし」というのはいかにも従来型なのですけれど、こういう分野で最先端をキャッチアップするためにトップの人材が来るということはまずないはずなので、これは考え方を変えていただくほうが良いのではないかなと思いました。要するに、今の最先端と、キャッチアップというか、違うところを探してリードするという、少なくともそういう感じじゃないと人材も集まらないし、結局、うまくいかないのではないかなと思った次第です。でも、これは単なる御説明なので、特に異議ではございません。
 以上です。

【観山部会長】  ありがとうございました。
 事務局のほう、何かありますか。

【春田課長補佐】  有馬先生、ありがとうございます。まさに、おっしゃるところ、御指摘のとおりというふうに感じてございまして、そのため、この部会においては、生成系AIをいかに基礎科学・科学研究に使っていくかといったところについて、特に重点的に御議論いただければというふうに考えているところでございます。

【有馬委員】  ありがとうございます。

【観山部会長】  小泉先生、どうぞ。

【小泉委員】  小泉です。ありがとうございます。今の有馬先生の御指摘はそのとおりで、日本は後から追い抜こうという作戦は難しいと思うので、みんながやってないところ、世界がやってないところはどこかというのを狙って攻めていくしかないと思っているところは、有馬先生がおっしゃるとおりだと思います。あと、人材育成というところも、そういった方面で人材育成をしっかりしていくというところをしていかないといけないというのは、有馬先生がおっしゃったとおりだと思います。
 僕のほうから、1点。これは全てにおいて法制度的なところが結構効いてくると思うのですね。あれやりたい、これやりたいといっても、個人情報保護法とか、それをどういうふうに扱うか、仮名加工情報はどう扱うか、匿名加工情報はどう扱うか、そういったところの議論と一緒に、法制度改革が必要なら必要で、法律上、特に個人情報保護法の扱いとか、その関連法規をどういうふうに扱うかというところの専門家も一緒に入らないと、ピュアなサイエンスという観点だけで話してしまうと、結局、データは使えないということになってしまったり、横連携、例えば、病院のカルテ情報とか、個人のヘルス情報とか、そういったものをどういうふうにつなげていくかとか、そういったところには必ず、法制度的な話、弁護士さん、法規の専門家が必要なので、そういった方の議論も一緒に入れていただくのが絶対必要ではないかなと思ったところです。その辺があまり書かれていなかったので、気になったところでした。
 以上です。

【観山部会長】  ありがとうございました。
 これについても、事務局、何かありますか。

【春田課長補佐】  ありがとうございます。小泉先生のおっしゃるとおりというふうに認識をしてございまして、この生成系AIが様々な分野、基礎科学や科学研究において使われる場合においても、AI倫理に関する面のしっかりとした検討を併せて行っていく必要があるというふうに認識をしてございます。特に、データの取扱い、その著作権やオーナーシップ、さらには個人情報に関する取扱いについては、しっかりと検討をした上で研究開発においての利用も進めていかなければいけないというふうに認識をしてございまして、この点は今後検討を進めていければというふうに考えているところでございます。

【観山部会長】  ほかにいかがでしょうか。
 齊藤先生、どうぞ。

【齊藤委員】  市場に任せないという雰囲気をすごく感じるのですけれど、それはどういう御議論があったのかなあと思いました。非常に多様性がある中で、今は生成系AIが何を指しているかもちょっと不明なのですが、今の拡散モデルですとか、LLMとか、そういうものはあまり予想していなかった大きな進展なので、いろいろな研究がある中でどこが花開くか分からないという状況で進展してきたという研究です。戦略をつくって進めるということが難しいので、ある程度、市場に任せる領域は必要だと思うのですが、計算資源ということをかなり強調されていたので、多分、市場に介入することになるのではないかと思うのですけれど、その辺、どういう御議論があったのかということをちょっと情報共有していただければ、より理解が深まるかなと考えております。よろしくお願いします。

【観山部会長】  事務局、いかがですか。

【春田課長補佐】  齊藤先生、ありがとうございます。私の説明のトーンがあまりに計算資源のところなどを強調した形になったので少し誤解を与えるような説明になっていたかと思いますが、資料の3ページ目の「はじめに」というところに書かれてありますとおり、基本的には、齊藤先生がおっしゃられた、市場にいる企業・研究者が存分に活動できるインフラ整備を行うべきという形で、こちらの論点、主なものとしてはまとめられているところでございます。なので、様々な市場のアクターが活動できるようになるための環境整備をまずはしっかりと行うべき。その中でも、計算資源やデータに関しては、日本はまだ不十分であるところがあるので、そこについてはしっかりと政府として進めていくべきところがあるであろうという形で、今回、この論点整理はまとめられているところでございます。なので、基本的には、民間などの活力をしっかり活用できるような形で政府は環境整備を行うべきといったところが主なポイントという形になっているところでございます。

【齊藤委員】  ありがとうございます。共通計算機を造るという意味なのでしょうか。

【春田課長補佐】  政府全体といたしましては、様々な機関が活用可能な大規模な計算資源というものを整備すべきではないかということで、検討が進んでいるところでございます。

【齊藤委員】  これはかなり市場に介入することになるのかなという感じはいたします。

【春田課長補佐】  そうですね。そこのところについては、本件を担当している省庁のほうについても、いわゆる民業圧迫との関係性はしっかりと注意しているというふうに伺っておりまして、そういうところは民業を圧迫しないような形で何かしら整備を行うということで考えているというふうに伺っているところでございます。

【齊藤委員】  ありがとうございました。

【観山部会長】  ほかにいかがでしょうか。
 長谷山先生、どうぞ。

【長谷山委員】  長谷山です。民業圧迫の話とは少々異なる視点で、同じ部分について質問させていただきます。世界では生成系のAIで群を抜いて勝ち組がいるわけですが、ここで書かれていることを実施すると、勝ち組になれるのでしょうか?それとも別な領域で勝ち組が生まれてくるのでしょうか?もし、このような仮定であれば、その根拠は議論の際にどのようなものがあったのでしょうか。

【観山部会長】  事務局、どうですか。

【春田課長補佐】  議論において、私のほうで正確なところは押さえられてないかもしれませんが、いわゆる圧倒的にリードしている企業、プレーヤーが世界にいるといったところは認識した上で、他方で、日本における経済安全保障などを考えた場合に、こういった技術そのものを持たない国ということが日本としてあり得るのかというところが少し議論されたというふうに認識しているところでございます。

【長谷山委員】  ありがとうございました。今まで様々なハイパフォーマンスな基盤をつくるということに公的な資金が投じられて来たと理解しています。そこからイノベーションが生まれて、世界で、先ほどの勝ち組のような1番になったものを、今すぐに思い浮かべることができません。それは私の知識不足かもしれませんので、その場合はお詫びいたします。もし、私と同じように思い浮かばない方が多い場合は、イノベーションを生み出すということが本来の目的となるように設計する必要があると感じています。基盤をつくることが目的になり、そこで終わってしまい、今までと同じことの繰り返しにならないよう願っています。
 以上です。

【春田課長補佐】  長谷山先生、ありがとうございます。まさにおっしゃるとおりでございまして、アプリケーションをしっかり意識した上でこういった基盤的な技術を保持するといったことが重要かと認識してございます。

【観山部会長】  ほかにはよろしいですか。
 どうぞ。

【前田委員】  北大の前田です。私も今の長谷山先生の御意見はすごくもっともだなと思ったのですけれども、それと関連するかはちょっと分からないですが、ChatGPTとかバイオ系のインフラのAlphaFoldとかっていうのは、IT企業がかなり膨大なリソースを使って開発しているわけですけれども、そういったものに対して、結局、ChatGPTにしてもアーカイブにテクニカルノートが出ているだけとか、あと、AlphaFoldも『nature』誌に論文が出てますが、研究リーダーは良いと思うのですけれども、そこの後ろについている20人くらいの著者の人たちというのがいて、そういう人たちというのは、学術界だと研究のオリジナリティーが問われてしまうので、そうすると、なかなか評価されないという中で計算リソースの基盤をつくったとしても、アカデミアで、プログラマーのようなコントリビューションをする人とか、データ整理のコントリビューションをする人とか、そういった人たちというのを確保しても、その人たちはそういう業務だけに当たってしまったら、その次のポストというのはなかなかアカデミアでは見つからないという状況だと思うので、その基盤をつくったとしてもなかなか、それを完全に使いこなしてやっていくというところにそれだけではつながらないのではないかなというのをすごく思いました。ここについて何かあれば、お願いします。

【観山部会長】  事務局、何かありますか。

【春田課長補佐】  前田先生、ありがとうございます。前田先生の御指摘のとおり、基盤モデル及びそれを活用した生成系AIというものを作成するに当たっては、単純なる研究のみならず、いわゆる開発要素、エンジニアの要素が多分に入ってくるというふうに認識をしてございます。こういったエンジニアリソースをどう確保し、さらに、それに関わった方々がその後のキャリアパスをどういうふうに描くことができるのかということに関しましても含めて、検討をしっかり深掘りしていく必要があるというふうに認識をしてございます。

【前田委員】  ありがとうございます。

【観山部会長】  また後で、この後の発表の後でも、振り返ることができるかと思います。一つは、今、圧倒的に群を抜いている勝ち組がどうやってつくったかというのをフォローすれば、いろいろな問題が浮き彫りになっていくのかもしれませんけれども。
 ありがとうございました。
 続きまして、CRDS、福島俊一フェローと嶋田義皓フェローに御発表をお願いいたしたいと思います。どうぞよろしくお願いいたします。

【福島フェロー】  JST/CRDSの福島と申します。よろしくお願いいたします。「基盤モデル・生成AIに関する基礎研究課題」という観点から、お話しさせていただきます。次2ページ、お願いいたします。
 JST/CRDSは、いろいろな分野の俯瞰調査や戦略提言を行っております。私自身は、もともと産業界で長年研究開発に携わり、約7年前からCRDSにてAI分野の俯瞰や戦略提言を担当し、このページに示すような報告書をまとめ、戦略目標や、CREST、さきがけ、RISTEXなどにつなげてきているという立場の者です。次3ページ、お願いいたします。
 既に何度かお話に出ていますけれども、基盤モデル・生成AIについて軽く振り返りますと、ChatGPTなどの対話型の生成AIは、与えられた入力に対して、その続きを統計的に予測して、応答として返す。例えば、「昔々」と来たら、「あるところに」と続けるといったことを基本的にはやっているだけで、意味をきちんと理解したり、論理的な組立てをしたりして応答しているわけではないという点は、一応押さえておきたいと思います。次4ページ、お願いします。
 今回の私からの発表の趣旨を簡単にまとめておりますけれども、既に御承知のとおり、対話型生成AIは非常に汎用性があって、人間の知的作業全般にいろいろな変革をもたらします。これは、日本にとっては、生産性向上や産業・経済の活性化といったところの期待がありますし、経済安全保障や科学研究の国際競争力といった面からも重要な位置づけになるということから、政策面の議論もいろいろなされています。基盤モデル・生成系AIは、アメリカから提供されているものを活用している状況ですが、様々な産業に応用して活性化していくという話や、国産基盤モデルをつくっていくといった話が、産業界での動きや国の政策の議論が進んでいると認識しております。
 こういった状況で、基盤モデルの後追い開発や応用開発だけでよいのかといった指摘が聞かれると思いますが、それにとどまらずに、その先の新しいAIモデルの研究開発で先行することを考えていきたいというのが、私の発表での一つのメッセージになります。深層学習をここでは第3世代AIと呼びますが、それを超大規模化した基盤モデルは言わば第3.5世代と考えていて、次の第4世代AIに向けた基礎研究にきちんと取り組むべきではないかと考えております。そのために、新たなAIモデルの研究開発や、それを人間や社会の価値観と整合させていくというAIアライメントにもきちんと取り組む。そういった中で日本の強みを生かすようなポイントもきちんと押さえていく。さらに、それがAI駆動型科学にもつながっていくというように進めていくのが良いのではないかと考えております。5ページ、お願いします。
 具体的な取り組みの説明に入る前に、社会的な価値や政策的な着眼点をこのような表にまとめてみました。細かく全部をご説明する時間はないので、最初の二つだけお話しします。産業界では、様々な産業において知的作業が効率化・自動化されて、それによって産業が成長・活性化することが期待されるわけですが、望ましくない展開としては、人材不足で低迷してしまうとか、活用が広がっても収益を上げるのは海外企業だけといったことが考えられます。また、このあと議論される科学研究では、科学的発見の新しい道具となって、人間の限界を超えた科学的発見の可能性を広げるとか、研究開発のスループットが向上するとかが見込まれ、それによって日本の研究力や競争力が高まることを期待したいわけですが、出遅れて競争力に結びつかないとか、海外のサーバのほうに知見やデータが流出してしまうといった、望ましくない展開も考えられるわけです。技術発展はさらに進む中で、望ましくない未来は回避して、望ましい未来を実現するために、政策的な手をいろいろ打っていくということになるかと思います。その中で、今日は、赤字で示した、強い基礎・基盤を生み出す研究開発の重要性を取り上げます。次6ページ、お願いします。
 では次に、基盤モデル・生成AIに関する研究開発課題ですが、様々な研究開発課題があるので、その全体像を一枚にまとめてみました。これは結構重要なポイントなのでざっと御説明します。横軸は左側が実務的なもの、右側が学術的なもので、縦軸は下が共通基盤で上が応用個別として配置しておりまして、真ん中の一番下の基盤モデル構築技術から時計回りに順にご説明していきます。基盤モデル構築技術は、まさに基盤モデルをつくる、そのために大規模な計算環境を用意するというものです。その左の基盤モデル運用技術は、基盤モデルは1回つくって終わりではなく、定期的に運用していく、それがビジネス的にも成り立つように、収益もきちんと取れるような形で、継続的に運用できるようにするというものです。それらがベースになるものの、基盤モデルは冒頭でも述べたように、基本的に先を予測しているだけなので、数式計算や物理的な処理や論理推論が苦手といったところがあるので、それを外側にプラグインとして用意して、連携して使うといったことが行われています。そういったものを組み合わせて使って、どんな手順で問題解決につなげていくかというのが、基盤モデル周辺拡張技術です。
 それらが用意されてAPIを通して使う形で基盤モデルの応用開発がいろいろ進められているというのが基盤モデル応用開発(API利用)になります。ただし、汎用的な基盤モデル1個で非常に専門的なことまですべて済むわけではありません。いろいろな分野固有基盤モデル開発・活用が進みつつあります。プログラミングの分野はかなり実践が進んでいますし、この後議論される科学研究向けの基盤モデル、これは、前回、マルチモーダル基盤モデルと言われていたものですが、各分野のいろいろな知識やデータをうまく組み合わせて活用していく必要があります。
 さらに、それの信頼性・安全性をきちんと確保するためのAIアライメント研究。それから、著作権やフェイク対策などを含めた、利活用時の問題対処もきちんと押さえていく必要があります。その上で、現在の基盤モデルだけではなくて、その先の次世代AIモデル研究として、基盤モデルの高性能化やメカニズムの理解を進めたり、あるいは、人間と大分違う仕組みになっているので、人間の知能の理解からいろいろヒントを得て高度化していったりといった取り組みが含まれます。また、新しいモデルができると、それ向けのコンピューティングといったものも新たに必要になってくるでしょう。基盤モデル・生成AIの研究開発では、全体としてこのような取り組みが必要になってくると考えています。次7ページ、お願いします。
 いまご説明した全体像を二つに分けています。左側の3分の2は、既に活発な取組が国際競争の中で進んでいて、走りながら迅速に手を打っていくべきタイプのものと思います。一方、特に右側の三つ、縦1列は、基礎研究として重点的に取り組むべき課題と考えています。下から1、2、3と番号をつけていますが、これについて、この後、説明していきたいと思います。次の8ページ、お願いします。
 次に向けた基礎研究ですが、今の基盤モデル・生成AIの問題点を、ここでは三つにまとめました。一つ目は、既に御承知のとおり、極めて大規模な計算資源を必要として、1回学習するだけで億円規模の計算費用がかかるという問題です。一方で人間の脳は20ワットで動いているといわれており、このあたりまだまだ改善の余地があります。二つ目は、生成AIは基本的に予測をしているだけなので、論理推論・論理構築が苦手で、また、サイバー世界、頭の中で考えているだけなので、実世界操作に弱いといった問題です。三つ目は、Hallucination(もっともらしくうそをつく)とか、フェイクをつくれてしまう悪用の話とか、著作権その他、いろいろELSI的な問題が指摘されています。しかも、なぜ高い性能が出るのか、今はそのメカニズムが明らかになっていないということもあり、この辺りを解決していく必要があります。それには、基盤モデルのメカニズム理解も必要ですし、人間の知能の理解がいろいろ進んできたところからヒントを得るといったことも融合して、人間や社会との親和性が高くて、高性能で安全・エコな次世代AIモデルを生み出すという方向性を目指そうというわけです。そのため、先ほどのスライドの右1列の三つの研究開発課題①次世代AIモデル研究、②そのAIアライメント研究、③それらを適用したAI・ロボット駆動科学の変革、が重要になってくると考えた次第です。最初の二つに関しては私から説明して、三つ目の科学の変革に関しては嶋田のほうからお話しします。次9ページ、お願いします。
 一つ目の次世代AIモデルの研究ですが、これまでのAIのアーキテクチャー、基本的な原理の発展を見ると、第1次ブーム、第2次ブームの頃はルールベースで基本的には記号処理を中心に研究されていました。これらをここでは第1世代・第2世代と呼びます。一方、第3世代とここで言っているものは、機械学習、深層学習を指していて、第1・第2世代とは異なるパターン処理のAIです。ただ、ボトムアップなパターン処理だけでは限界があるというのが徐々に分かってきて、記号処理をうまく融合していくことが必要ではないか考えられるようになってきました。ところが、ある程度その研究が盛り上がってきたところに、第3世代を非常に巨大にしたら結構いろいろできてしまうことが示されて、これが今ホットな基盤モデル、第3.5世代だというわけです。しかし、先ほどお話ししたように、いろいろまだ問題があることから、やはり第4世代を目指すべきではないかと考えています。次10ページ、お願いします。
 具体的な研究開発事例ですが、これが決め手というわけではないのですがいろいろな取組が進められつつあります。詳しくご説明する時間はないので、左側の二重過程モデルだけ簡単にご紹介します。これはノーベル経済学賞を受賞したDaniel Kahnemanの『ファースト&スロー』という本で有名ですが、状況を知って行動するとか反応するというような即応的な思考がシステム1と言われ、しっかり考えて返すといった熟考的な知能はシステム2と言われています。それで、従来の深層学習はシステム1に相当します。それに対して第3.5世代の基盤モデルは、言語的な処理ができてシステム2に少し入ってきていると見られていますが、論理推論・実世界操作など、まだカバーし切れてないところがあって、人間の知能がカバーしているところまでいくにはもう一発展要るというような認識です。
 右側の発達・創発モデルというのは、徐々に認知機能や言語を獲得していくといったところのモデルです。このような面の研究もいろいろ進んできています。次11ページ、お願いします。
 それらを並べてみると、基盤モデルというのは、人間が一生かかっても読めないような量の情報を学習していろいろできるようになったというわけで、人間離れした強力な道具だと言えます。道具としてはこれからも非常に活用されていくと思いますが、人間の知能という面から見ると、大人の思考パターンに近い二重過程モデルとか、子供が発達していく過程でいろいろ学んでいく発達・創発モデルも含めて、メカニズムを解明したり、融合させたりしながら、次へ発展させていくということが必要になってくるのではないかと思います。メカニズムが分かってきますと、先ほどの基盤モデルの問題の解決につながっていくと思いますし、同じ効果をもっと小規模・エコなシステムで実現するとか、新たなソフトウエア・ハードウエアの開発とか、そういったところにもつながるというふうに考えています。また、実は、認知発達ロボティクスは、日本発の研究領域で、日本がリードしている部分ですし、脳とAIの融合といったところも結構力を入れて取り組まれていますし、ロボットにつながるといった面でも、いろいろ日本の強みを生かしていけるような分野ではないかと考えています。次12ページ、お願いします。
 関連していろいろな動きがあるので入れておきましたが、細かい説明は省略します。国産基盤モデルは産業界で開発が始まっているので、産学連携で取り組むとか、大学の研究室単独でこういったものをつくっていくのは難しい状況なので、共同利用施設として整備していくとかが、この分野の基礎研究推進のために重要だと思っています。次13ページ、お願いします。
 次は、二つ目の研究開発課題として挙げたAIアライメント研究についてです。基盤モデルに関するELSI的な問題として、Hallucinationとか、フェイクとか、プロパガンダとか、著作権とか、いろいろな問題が指摘されています。そこで、人間・社会の価値観にAIを整合させるAIアライメント研究も一緒にやっていくことが重要です。ここに「3つの切り口」と書きましたが、基盤モデル自身を倫理的にしていくという話や、生成AIを使ってプログラミングせずにAIとの対話でシステムをつくるようになったときに品質をどう確保するかという話や、そもそもAIは100%保証できない、いろいろ悪用するような悪い人間もいるというような中で、人間とAIの共生社会においてどうリスクを低減していくのかという、ちょっとメタな話も含めた取り組みが重要になってくるのではないかと考えています。次14ページ、お願いします。
 AIの信頼性を確保するための取り組みは、日本のAI戦略の中で以前から“Trusted Quality AI”を掲げて、結構力を入れてきています。産業界・学術界とも結構頑張っている領域なので、さらに強化していくと良いと考えています。
 次の15ページが最後です。基盤モデル・生成AIにはまだいろいろな問題があるということに対して、ここに示した三つが基礎研究課題として特に重要だと考えていますし、日本の強みや日本の戦略を伸ばす方向性になるのではないかと考えています。
 私からはここまでで、次に、嶋田の発表を続けてよろしいでしょうか。

【観山部会長】  どうぞ。

【嶋田フェロー】  JSTの嶋田です。どうぞよろしくお願いします。
 そうしましたら、「基盤モデルとAI・ロボット駆動科学」というところで、少しだけお話しさせていただければと思います。2ページ、お願いします。
 福島のほうから説明がありました基盤モデルというのは、今は特に言語あるいは画像を中心に非常に発達して開発されてきているのですが、それを科学の研究に使うというのが非常に重要だろうというふうに考えていて、とりわけそれが何を科学研究に変革を及ぼすかというので、今、機械学習を科学の研究に取り入れるというのはかなり当たり前のツールとなってきてはいますけれども、それをさらに加速するということで、大きく二つ、インパクトがあるのではないかと考えています。一つは、仮説生成と探索ということで、これまで見つけてこれなかったような、例えば、新しい化合物であるとか、新しいタンパク質のような、そういったものを仮説的に探してこられる範囲が格段に広がるのではないかというのが一つあります。もう一つは実験検証と分析でして、ここは自然科学ですので仮説というのを検証していくというのが非常に重要になってきますが、そこにもやはり人間のある種の身体能力が制限となっていて全部を仮説検証することができないというわけで、そこをうまく、ロボットを使ったり、あるいはコンピューターを使って仮想スクリーニングをしたりという形で仮説の検証をどんどんしていくというような形で、これが大きく進むのではないかなというふうに考えているところです。3ページ、お願いします。
 そのような流れの中で、CRDSでは一昨年に「人工知能と科学」という戦略プロポーザルを出しまして、この中では広くAIとロボットの技術を科学研究に使っていくと非常にいろいろなサイエンスのことが進むのではないかという兆候を紹介したということがありまして、今、AI・ロボット駆動科学という名前がついています。ここで行われているのはサイエンスのある種の発見をするときのプロセスをモデル化したものでして、これ全てが別に科学研究全てではないですが、その一部を取り出すとこのようなループが回っていることになっているというふうに見ていて、どこから始めるかですけれども、ある基盤となる知識の中から新しい仮説を生み出してきて、それを時計回りに進んでいくと、その仮説から予測を演繹で出してきて、その予測を先ほど言ったように実験で検証する、あるいは観測するということで確かめていって、そのデータの蓄積から今度は帰納をして、新しい知識あるいは新しい仮説へつないでいくというのが発見の大きなサイクルですが、このサイクルの左側が要は仮説をつくっていくところでして、ここをAIが非常に加速するのではないかと考えていて、右側はロボティクスによって加速できるのではないかというのが、このプロポーザルを考えているときの我々の結論でした。
 基盤モデルが来ることによってこれをさらにアクセラレートするというのが今後すぐにでも起こすべきことということで、4ページですが、特に先ほども言ったように左半分と右半分で少しずつ状況は違っていまして、ここに置きました六つの黄色い四角は基盤モデルのケイパビリティーというのでこの論文に載っているものですけれども、言語だったり、リーズニング(推論)というのは左の仮説生成・探索のところに非常に有効に働くでしょうし、一方で、ロボティクスとビジョン、ビジョン・トランスフォーマーというものもありますが、そういったものは実験検証・分析のところにダイレクトに効いてくるだろうというふうに考えています。また、この直接的な影響とはちょっと変わって、例えば、インタラクションとかフィロソフィーとかっていうことにも実は基盤モデルは非常にパワフルだということが期待されていまして、この仮説を発見して検証していくループというのは、自動で動くとはいっても、人間の科学者の手を離れてというわけではなく、科学者が、目標だったり、評価関数だったりというのを与えながら、介入しながらやっていくというプロセスですので、そこのところのインタラクション、あるいは科学の科学のようなことというのも、この基盤モデルの研究を通してどんどん進められていくのではないかというふうに期待しています。5ページ、お願いします。
 基盤モデルについてはもうあまり触れませんが、大きく二つのことをこの後の分類のために御紹介しておくと、基盤モデルと呼ばれているものは真ん中のFoundation Modelと書いてあるものなのですが、ラベルなしのデータから事前の学習を、ここは非常に大規模に行う必要があるのですけれども、事前学習したものを基盤モデルと呼んでいて、その後、介入のタスクに向けて少し調整するという作業があって、これを適応と呼んだりするのですが、ここと、2回、いわゆる学習するプロセスがあって、最終的な、我々が使う基盤モデルというものが出来上がるというのが、非常に大きな特徴です。6ページ、お願いします。
 これを科学の文脈で使うときにどの辺りのところまでを研究開発として行うのかというのが分類できるでしょうというのがこの図でして、そのまま、今ある基盤モデル、特に大規模な言語モデルを使うというのはこのAに該当していますし、この特定のタスクの付近だけ、プロンプトを維持したり、あるいは外部のツールと連携させるといった部分のことを言いますし、もう少し深くまで、ファインチューニングとか再学習、基盤モデルとしてはオープンなものがあるのだけれど、それを自前の、例えば一般のウェブのテキストで学習した大規模言語モデルで医療の論文を読ませるといったものはここに当たりますが、Bの分野に適応させるということもあり得るでしょう。もう少し深くは、基盤モデルそのものを独自のデータで開発していくということも非常に重要で、これはもちろん、先ほどから何度も出ていますけれども、計算コストは非常にかかりますが、実際に最後の、一番下のところでやらせたいタスクによってはここから開発しないと駄目ということも多いですので、ここもしっかりやっていく必要があるのではないかなというふうに見えるというわけで、この三つに大きく分かれます。7ページ、お願いします。
 何が必要でどうなっているかの比較表はここに書いておきましたが、先ほどのA、B、Cに従って、Aはデータも計算資源もそんなに必要ないですが、Bは、再学習用、あるいは、ファインチューニングするにしても、何をするにしても、ある程度のデータはもちろん必要ですし、パラメータを減らして軽くしたモデルを例えば自分の手元にホストするのだったら、それ用の計算資源は必要ですよというわけです。Cはもちろん、非常に大量で多様のデータが必要で、大規模に学習をさせる必要があるというわけです。8ページ、お願いします。
 ここから少しは、今現在、非常にやられていることというのを紹介して、これを日本がすぐにやれというわけではなくて、やられていることをまずはウォッチをしましょうよということで、今日は二つ御紹介します。一つはタンパク質に関係する言語モデル、もう一つは、化学、分子の言語モデルという話が近年非常に進んでいます。
 基本的なフレームワークは両者とも同じで、大規模な基盤モデルに表現学習をさせて、そこから抽出された特徴、これはベクトルですが、その特徴ベクトルを機能予測のモジュールに与えて、こちらも深層学習のモデルですけれども、そこでマテリアルズインフォマティクスのような構造機能予測のようなことをやらせるというのが大きなフレームワークになっています。ですからこれは、順方向に深層学習のモデルをつくっておけば、それを何度も繰り返すことで、これの設計問題、つまり逆問題が解けるというスタイルになっていて、欲しい機能のものをどうつくったら良いかという問題をこういう形で解くというのが非常に大きなフレームワークになっているというわけです。9ページ、お願いします。
 具体的な例として一つ、これはタンパク質の言語モデルの使い方ですけれども、これは百度(バイドゥ)のグループがつくったHelixFoldというもので、タンパク質言語モデルのモジュールと、AlphaFold2のような構造予測モジュールと、一つの中に両方とも含まれているモデルになっています。どちらもトランスフォーマーを使うのでややこしいのですが、左に書いてあるPLM Baseというのがタンパク質の言語モデルで、これは、タンパク質のアミノ酸残基の列がテキストでやって来て、それをマスク言語モデルとして学習したものです。表現を学習しています。その内部表現を、埋め込みベクトルと、アテンションマップ、どこに注目したのですかというようなマップがあるのですが、それを構造予測モジュールに渡すと、ここでタンパク質のアミノ酸の列がどういう3次元構造になっているかというのを、これも深層学習で予測するということになっています。後ろ側のほうは、本当にAlphaFoldと同じような仕組みになっています。10ページ、お願いします。
 これは非常にいろいろなところで進められていて、これは参考として載せておきましたが、これまで表現学習の部分がなかったAlphaFold2のようなタイプのものが主流だったのですけれども、2022年頃以降からは、言語モデルでまず表現学習をさせて、その後段に構造予測をさせると、これまで重かったAlphaFold2のMSAと呼ばれている計算のところが飛ばせるということで、軽くて比較的精度の良いタンパク質の立体構造予測ができるようになるということが、近年分かってきたというわけです。これもまだまだ、なぜよくなるかとか、そういうことも分かってないので、やるなら、やるべき研究開発課題ではないかと思っています。11ページ、お願いします。
 ベンチマークというのもいろいろ出ていて、計算時間が少なくなるのですが、精度もAlphaFold2の生のものと比べると、いまいちになるというところが、今分かっているところというふうに理解しています。12ページ、お願いします。
 ケミストリーのほうも、現状できていることは、今の話とかなり似ていて、これはIBMのグループがやってるMolFormerというモデルで、言語モデルと物性予測タスクが一つの基盤モデルの中に収まっているというタイプの話になっています。収まっているという意味は、学習させていることはさきほどのタンパク質とほとんど同じで、ケミストリーの場合にはSMILES表記という表記で低分子をテキストの形で与える。それをマスク言語モデルで学習して、さきほどの先を予測するというものですが、変換予測のような感じでそれを学習した後、その内部表現を使って、先ほど言ったように、基盤モデルというのは、つくった後、ファインチューニングをして、最後、タスクに適応させるので、やらせたいタスクというのは、分子が与えられたときにその基底エネルギーを求めるとか、量子化学計算のタスクをここではやらせるということになっていて、それをファインチューニングで行っています。ですから、言語モデルをつくるほうはラベルなしの自己教師あり学習というものでやって、後ろのファインチューニングのほうは教師あり学習、つまり正解のセットがあるというタイプの学習をすることで、最初のところから最後のところまで一気に一つの基盤モデルの中でできるようになるというパターンができています。こういうものを使うと、マテリアルズインフォマティクスに生かせるでしょうということがやられています。13ページ、お願いします。
 化学にこれを使えるという話も、今、非常にいろいろなところで気づいていて、何かに使おうという動きはあって、例えば、ハッカソンとかというのもやられていたりします。14ページ、お願いします。
 これは何でうまくいくかという話も、これまで説明してきたとおりなのですが、言語モデルというのは、単語、文章、意味のような順番で、単語の並びの、単語の相関化、相関というか、関係から意味を抽出してくるということですが、タンパク質LLMも、分子LLMも、結局は、アミノ酸や元素・結合というものを、あるトークンといいますか、単語だと思って、それらの間の関係性、文法を学習していると。アミノ酸の世界の文法は分子生物学だし、分子の間の文法は化学そのものですねというわけで、それが非常に効いているんだなというふうに理解できます。15ページ、お願いします。
 トランスフォーマーがなぜ働くか、うまくいくかというのも、大体同じような理由でして、タンパク質の場合にも、分子の場合にも、1次元のシーケンス上は遠くに離れているのだけれど、立体構造にしてみると実は近くにあって、そいつが物性を決めているというケースがかなりあり、それをうまくトランスフォーマーのアテンションで拾うことができている。通常のテキストの場合にも近くにある単語ではなくて遠くにある単語の意味を拾ってくるというのが重要ですが、それと同じことが、タンパク質のアミノ酸の1次元の配列、あるいは化学の分子の原子が並んでいる1次元のチェーンから、そういう立体の情報を拾ってくる、遠くの情報を拾ってくるので、うまくいくというわけです。16ページ、お願いします。
 その実例がこれで、タンパク質の場合、分子の場合、同じようなことでアテンション機構が働くということになっています。ただ、どういうアテンション機構をここに埋め込めば良いかというのは、結構、問題によって違うので、対象性によって違うので、ここのところも実はまだまだ研究開発の余地があるというふうに認識しています。17ページ、お願いします。
 次二つは、参考までですけれども、トランスフォーマーというのは先ほど言ったように時系列の長い列に対しても有効なので、時系列関係のトランスフォーマーというのも極めていろいろなところに出ていまして、時系列というのはサイエンスの世界で言うと非常にいろいろなところに出てきますが、18ページにあるように、例えば、今、気候とか気象のシミュレーションでモデルしますけれども、そういうのをうまくデータ側から持ってくるときにトランスフォーマーをかませるとうまくモデリングできるということがあって、そういうところにも使われています。これは、マイクロソフトリサーチのClimaXという、トランスフォーマーベースの気候予測モデルですね。19ページ、お願いします。
 スケールの問題、サイズの問題というのはここでも避けては通れなくて、タンパク質の言語モデルというのは、大きければ大きいほど、学習させるパラメータが多ければ多いほど性能が良いというのも分かっているので、この辺、どうしましょうかということにはなっています。なので、パラメータの数を減らすようなファインチューニングも非常に重要かと思います。
 今後の展望ですけれども(20ページ)、先ほどから言っているように、基盤モデルというのは深層学習の問題点を全部抱えていると。計算資源の問題と、論理推論が苦手という問題と、実世界操作が難しいという問題があるので、ここをうまく解決していくのが、先ほど言ったように次世代のAIを開発するうえでも極めて重要だというわけです。くしくもこの三つはサイエンスのフィールドでやるというのは極めて有効ではないかというのが我々の考えでして、それがあるゆえに基盤モデルというのをAI・ロボット駆動科学にアプライして、そこを実証フィールドとして研究開発をしていくと、科学にとっても良いし、AI研究にとっても良いでしょうと。相互に非常にメリットがあるのではないかなというふうに考えています。21ページ、お願いします。
 実際にそれをやるときに要所になっているのはこの三つでして、先ほど、この二つ、論理推論と実世界操作というのがポイントだということは申し上げましたが、それに加えて、科学としては、科学の科学というのもここで同時にやっていくというのがさきほどのAIアライメントとかAI倫理の話とも非常に密接に関わりますので、そこの実証フィールドとしても、科学をフィールドにしてAI研究をするというのは非常に意味があるのではないかと考えています。22ページ、お願いします。
 それも大きく二つあって、一つはもちろん、研究者個人にAIで支援するというパターンの話ですね。ここでもいろいろなことは考えなければいけないですし、23ページお願いします、ちょっと駆け足になりますが、科学は、1人の個人の研究者が個人でやる話以上に、社会の中で科学という営みが行われているということなので、そこにAIがどう入ってくるかというのは光と影があるでしょういうことを認識していまして、ここでは期待と懸念というのが白と黒で書かれていますけれども、いろいろな問題がまだまだあるので、ここは科学の科学としてきちっとやっていく必要があるでしょうというふうに考えていて、しかも、これが今のAI倫理の話とも密接に関わってくるということで、科学というフィールドを使ってAI研究開発をするというのが極めて重要ではないかなと考えています。
 最後に(24ページ)、こういうところをどういうふうなところにポイントを絞ってやっていくのかということが重要だと思いますが、一つは科学基盤モデルの開発。つまり、さきほどのA、B、Cで言うと、一番深いところですね。基盤モデルの開発からやるというところは、きちっと進めないといけないというふうに思っています。ただ、スクラッチから事前学習を全部するというのは、計算資源が必要、あるいはデータが必要というわけで、これは別に日本だけが抱えている課題ではないので、ある種の国際協力、あるいはビッグサイエンスのようなことを通じて行っていくというのが一つの道なのかと思います。また、オープンソースのモデルというのも増えてきていて、それを手元にロードして、手元といっても研究室にあるようなGPUにロードというわけにはいかないと思いますけれども、持ってきて、それを、転移学習する、ファインチューニングする、蒸留するみたいな形でやりたいタスクに適応していくという戦略も極めて重要でして、とりわけファインチューニング用のデータというのはそんなに多くなくて良いので、そこに良質のデータで、かつ、例えば外に見せたくないデータのようなものもあると思いますので、そういう戦略の使い分けの中でファインチューニングというのをうまく使っていって、新しい調整済みの基盤モデルというのを構築していくというのは、一つあるのではないかと思っています。そういった中にマルチモーダルという話も出てくるのではないかというのがあります。
 もう一つは、AI・ロボット駆動との絡みで言いますと、AIの研究開発のオリジナルなところは日本発のものもあるというのもそうなのですが、JSTの未来社会創造あるいはムーンショットのプロジェクトなどでAI・ロボット駆動科学で科学研究を加速するという動きを先駆的に進めていますので、それに乗っかっていくというのが極めて有効なのではないかというふうな形で考えています。それはある種、AIの研究開発から見ると、良い実証フィールドがありましたねということなのですが、実際、そこで必要になるのは、2ポツ目ですけれど、論理推論とか実世界操作なので、これは基盤モデルだけではどうしても手が届かないというわけで、結局、これをやることでAI研究開発にも非常に良いフィードバックがかかるので、そこでいろいろなことを生かしていくことができるのではないかと考えています。
 ちょっと長くなりましたが、以上です。

【観山部会長】  福島さん、嶋田さん、どうもありがとうございました。
 さて、委員の方々から御質問や御意見を伺いたいと思いますが、いかがでしょうか。
 では、齊藤先生。

【齊藤委員】  すばらしくまとめていただいて、感心しました。言語だけでなく、LLMの成功から、例えば生物遺伝子とか、そういうのもすぐ有効だろうと言われています。遺伝子系とか、分子系とか、こういう有限集合から成る複雑な系以外で、例えばマスクドランゲージモデルとか、ああいう方法が役立つ例ってあるのでしょうか。または、役立った例ってあるのですか。要するに、LLM、今のつくり方と同じようにして、遺伝子はほぼ同じ構造なのでそのとおりなのですが、どれくらい一般化できるものなのかなと思いますが、いかがでしょうか。
【嶋田フェロー】  難しいですね。まずはアテンション機構が結構クリティカルということがあって、それが上手に働くような、つまり、遠くにある何かにきちんと注目することが重要になるような問題設定というか。

【齊藤委員】  そうですね。全てのネットワークはアテンションですね。

【嶋田フェロー】  そういうのと、今、ここで化学言語モデルあるいはタンパク質言語モデルが非常に大成功していることの一つは、最初の学習のデータがラベルなしでいけるというところが大きいと思います。これまでのマテリアルズインフォマティクスとかですと、基本的には教師データを与えるので、ラベル付データ、この構造に対してこのエネルギーのような、そういうのを与えてきたので。今回の言語モデルはそうではない。セルフスーパーバイズドなので、正解例というか、テキストを与えれば、その中で勝手にマスクして、それを当てにいくという学習をそこで行うので、基本的にはラベルなしデータを与えるということになる。そういう非常にメリットがあったためにここでうまくいったということなので、それがほかにどれだけというのはちょっと分からないですけれど、画像はもちろん可能です。

【齊藤委員】  これでできるのは、エンコーディングは楽にできて、自然言語も非常に楽にできていて、遺伝子解析はもっと簡単でとか、多分、そういういろいろな視点が多分あるので、今、二つ並んでいる中で、上と下ってサイエンスの方向がかなり異なると思うのですね。AIと科学の関係はこれから二転三転する可能性が大きいところなので、いろいろなことをやっていくことが重要で、ここっていうふうにあんまり絞らないほうが良い分野かなと思います。それに対して、下はある意味、人間がやってきたことをどうアクセラレートするかということなので、割とやるべきことは明白で、研究の指向性がかなり異なる二つだと思いますので、その辺を整理して皆さんと情報共有できるようになると、日本の研究がより進むのではないかという感じがしております。
 ありがとうございました。

【嶋田フェロー】  ありがとうございます。

【観山部会長】  ありがとうございました。
 では、私のほうから。最後に二つのことが掲げられていて、基本的には、この基盤モデルの開発という論理で言うと、一番最初に、事前学習は計算資源が必要で、世界共通の課題だということですが、つまり、これは膨大な資金力というものが必要だということですよね。だから、国際協力とか、いろいろなオープンソースのモデルの機械学習とかあるけれど、ここの部分というのは日本の強みという部分が言えるところなのでしょうか。

【嶋田フェロー】  これまでほかの分野でもこういうタイプの国際協力というのはありましたから、そういうのとかなり近いのではないかと、私は見ています。実際に、ヨーロッパであるとか、あるいはアメリカもそうですけれども、アカデミックな利用で計算資源をシェアしながらビッグサイエンス的にやっていく、オープンなことでやっていくという動きは出ているので、そういうのに参画していくというのは非常にあるかなというところですね。日本の強みというのとは少し違うと思いますけれども、別に日本には使える計算資源が全くないという状況ではないと思いますので、それを生かしてここにきちっと貢献していくというのは非常に重要と見ています。

【観山部会長】  それぞれの分野で世界的な科学的なモチベーションに基づいた協力というのは、今までも実績は随分あるし、できると思うのですけれども、今の方向性というような、産業界とか、そういうものについて多面的にするところでは、なかなか国際協力というのは難しい競争の分野であって、そういう部分で国際的な資金を集めてある部分に投入するとかいうのはなかなか考えにくいところではないかと思っています。そういう中で日本がどれくらい強みを生かしていけるのかなと思うと、なかなかイメージが湧かないのですね。

【嶋田フェロー】  あとは、やはりデータだと思います。

【観山部会長】  それはそうですね。非常に優秀な、良質なデータをうまくそれぞれの分野で教師データとして使えるかについては、十分考えられますね。
 ほかにいかがでしょうか、委員の先生から。非常にしっかりとまとめていただいて……。
 辻先生、どうぞ。

【辻委員】  素人的な質問で恐縮なのですけれども、福島さんの資料で第4世代AIの発展という図が9ページにありました。AIの発展の歴史でかつて冬の時代があり、機械学習が出てきて第3世代といわれるようになったときも、また冬の時代で来る、などと言われたりしていたと思うのですが、あっという間に3.5世代になり、第4世代になりました。これからは、冬の時代はなくて、このまま進んでいくというイメージなのでしょうかということが一つです。
 もう一つ、この図で1980年頃のネオコグニトロンは福島(邦彦)さんが開発されて、この頃には甘利先生のお仕事もありました。第3世代を拓いたカナダの研究者が、冬の時代だった当時、2人の論文を見つけて大いに示唆を受けたと言っていたそうです。ニューラルネットワークが誰にも相手にされなかった時代に、日本ではそういう研究があり、芽が吹き出していた、しかし、結局、日本では育てられずに、カナダの人たちが続けて第3世代になりました。先ほども、よそでやってないことをやるんだ、そこを攻めていくしかないというお話がありました。まずは人とはまったく違う研究が生まれること、そしてそれを育てていくことがこれからの日本にとって重要だということを改めて感じています。そういった研究をするのはおそらく若い人でしょうが、そのための環境づくりがきわめて重要だとも思っています。日本の強みが生きるような、新しい展開はこれからどのあたりで出てきそうか、といったこともこの図を見て考えておりました。漠然とした質問で申し訳ありませんが、どの辺りに可能性がありそうでしょうか。
 以上です。

【観山部会長】  難しい質問ですけれど、いかがですか。

【福島フェロー】  辻先生、どうもありがとうございます。最初のご質問についてですが、冬の時代なしに次に進むというのは、確かにそういう状況と思います。我々も、第3世代の深層学習が非常にブームになった辺りで、一部の人は過剰な期待をしたため若干幻滅するところはあるにせよ、ビジネス的にも非常に広がっていたので、そのまま行くだろうと思っていた人が多いと思います。
 今後の発展に関しては、過去を振り返っても、次は必ずこれだと突き進んだわけではなく、長く続けてきた中から次が生まれてきたということもあるので、この第4世代に関しても、何かが大本命だと決め打ちしすぎずに、ある程度幅を持った基礎研究というのが多分重要だろうと思います。特に今の状況は、何となく、世の中が基盤モデル・生成AIに一辺倒になっているので、それの中で後追いで頑張るというだけでないところに、次に大化けするものがあるかもしれません。第4世代では、日本は脳科学とAIのところで結構いろいろ新しい話が出てきていたり、認知発達ロボティクスという発達系のところも日本発の研究領域として結構育ってきたりしているというところもあって、そこが本命だとは必ずしも言い切れないのですけれど、そこと基盤モデルの接点のところでいろいろな議論が出てきているので、そういったところを大切にして、いろいろな可能性の中から次の世代のAIへの発展を狙っていく。世の中が基盤モデル一辺倒なのをもう少し広げて、日本でいろいろ頑張ってきたのを生かして、次の発展を目指すようにしてはどうか思っています。
 お答えになったか、分かりませんけれども。

【辻委員】  ありがとうございます。

【観山部会長】  ちょっと時間が押してきたのですけれども、手がいっぱい挙がっていまして、まず、品田先生、ど
うぞ。

【品田委員】  ありがとうございます。今、いろいろな御質問があったので私の質問の大部分は分かってきたのですけれども、CRDSで毎年に近いぐらいAIに関する戦略提言をされていて、「日本の勝ち筋」という副題もついているのですが、今、日本の強みというお話がありましたね。強みを分析して、そこで勝つというのは当然やるべきことなのですが、残念ながら日本が第一人者として最先端を行ってこられなかったという歴史はあるし、今おっしゃったように第2世代で結構最先端のことをやっていたのだけれど、それは芽が開かなかった。そういうところで、日本の弱みといいますか、これだけ良いものがあったのに現状はこうですという分析みたいのは、非常にネガティブになってしまうのでなかなか難しいかもしれないのですけれど、そういう分析で克服しないとまた同じことをやってしまわないかなという危惧を感じました。
 今、9ページが出ていますけれども、第2世代でやってきたことが3.5世代または第3世代と結びついて第4世代に持っていくというのは、まさにそこが本当に勝ち筋なのかなと、今、御説明を聞いて、そこの部分は非常に納得いたしました。それを実現するためには、今までどうして第3世代や3.5世代が日本で生まれてこなかったのかというところの分析も、もちろん、お金が十分にないとか、大企業がすごくもうけて先物の研究開発に回すなどが十分でなかったとか、そういうことも当然出てくるわけですけれども、なかなか答えにくいかもしれませんが、その辺はいかがなのでしょう。

【福島フェロー】  その辺はこれからもうちょっと分析が要るかと思いますけれど、私見としては、私はもともと産業界にいたというのもありまして、人の流動性も含めた産学連携のところは課題がありそうです。特にAIの分野は産業界の生の大量データがあるところから新しい技術が生まれてくることが多く、産学の連携や協力は多分重要だと思います。また、先ほどもお話が出ていたように、研究者だけではなくてエンジニアの処遇やキャリアパスをしっかりつくっていくということを産業界側では結構やっていると思います。従来のリニアモデル的な関係ではなくて、もっと密な形で基礎研究と産業の発展とが回っていくというのが一つ重要になってくるのではないかと、個人的には感じています。おそらく、それ以外にも考えなくてはいけない問題はいろいろあると思いますけれど。

【品田委員】  ありがとうございます。

【観山部会長】  ありがとうございます。
 時間の関係で、手が挙がっている、小泉先生、合田先生で、その次のテーマの発表者に行きたいと思います。
 では、小泉先生。

【小泉委員】  一言だけ。前回の部会でも申し上げましたけれど、これで勝てるかなというと、正直言えば勝てる気がしなくて、前にも申し上げたように、パテント周りもしっかり押さえておかないと、単に基礎研究をやっても、全部、パテントは押さえられていましたでは話にならないので、パテント周りがどうなっているかという調査もされると良いのかなと思っています。僕の認識だと、5年前ぐらいから、例えば、フェースリコグニション周りは北京周りの大学関係のところが基礎特許を押さえていて、そうなると、アメリカですらフェースリコグニションに入れない、そこの研究開発にあまり巨額な投資はしていかないということになっていたと、5年前ですら、そういう状況だったと思います。そういうふうに、パテント周りがどうなっているのかを見ないと、化学的に神経も頑張っているからここで頑張りましょうといっても、もうパテントは押さえられています、基礎特許は押さえられていますでは戦いにならないと思うので、この手の話は、パテント周りがどうなっているかというのもしっかり押さえられると良いと思って、お話を聞いていました。
 以上です。

【観山部会長】  ありがとうございました。
 合田先生、どうぞ。

【合田委員】  次世代AIモデルの研究として、基盤モデルのほかに二重過程モデルや発達・創発モデルで、特に脳関係からアイデアを得るというところに、脳神経科学をやっている者として非常に興味深く伺っていました。脳科学研究の現状では、いろいろと進んではいても、例えば精神疾患とか脳疾患を治せない状態であるなど、まだ分からないことが非常に多いです。その中でどのようにして相乗効果狙ったり、成果を融合していくための、何かストラテジーはあるのでしょうか。

【観山部会長】  いかがでしょうか。

【福島フェロー】  必ずしも十分に答えられる状況ではないかもしれませんけれども、脳科学とAIの融合領域のプロジェクトとかは結構立ち上がってきていて、脳科学からAI・計算科学につながるような成果と、逆にAI・計算科学のほうでつくってみて分かった成果が脳科学のほうの知見につながるといったケースが少しずつ出てきているという認識でして、そういったものが徐々に広がっていくと良いのかなと。脳をきちんと深く理解していくというところとはまだまだギャップはあるかと思うのですけれども、以前に比べるとつながるところがかなり広がってきたのではないかというような印象があって、そこをうまく伸ばしていけないかなと思っているところです。

【合田委員】  ありがとうございます。政策的に融合を促進するようなフレームワークがいっぱいあると良いのかなと、思いました。

【観山部会長】  まだ質問とかお答えがあると思うのですけれども、申し訳ありませんが、残りの時間をいただきまして、最後に、オムロンサイニックエックス株式会社、牛久祥孝様より御発表をお願いいたしたいと思います。
 よろしくお願いします。
【牛久プリンシパルインベスティゲーター】  牛久です。ありがとうございます。よろしくお願いいたします。
 本日のタイトルは、「AIがノーベル賞を取る日」という、ある種、センセーショナルなタイトルになっていますが、内容としては、正確に言うと、「AIと共進化することによって人間の科学者がノーベル賞を取れる日」というふうなお話になっております。よろしくお願いいたします。
 まず、「オムロンサイニックエックス株式会社の牛久です」という紹介をさせていただいているのですけれど、恐らく、所属としても、また、牛久という研究者としても、誰だ、何だ、その会社はというふうになるかなと思いますので、3ページほどいただいて、御紹介をさせていただいております。
 まず、私自身は2010年頃からこういうふうな画像と自然言語を融合理解するような研究分野で研究を始めておりましたということで、右上(表紙を除いて1ページ目)にあるような画像の内容を自然言語で説明する方法であるとか、また、自然言語を入力として動画を検索してくるといったようなことをそういう時期から始めていたら、先ほども議論にあった、第3次AIブーム、深層学習のブームが巻き起こってきたというふうな状況でございます。その後、いろいろな、ほかの企業の研究所にいたり、大学の教員をやったりしながら、現職に至るという感じでございます。
 2ページへ行っていただいて、これ、我々の研究分野、画像を用いたコンピューター科学分野の一種なのですけれども、コンピュータービジョンの主要国際会議であるECCV2012のオープニングで投影されていたスライドです。当時のビデオの画質が粗いので中身はほとんど読めないと思うのですけれど、これは何のグラフかというと、ECCVという国際会議、Europeanいうのが先頭についているのでヨーロッパ開催の会議なのですが、ここの国際会議に投稿された国別の論文の割合を示しているのがこちらの円グラフです。Japanは残念ながら、3%、2%程度で、円グラフの右上の辺りに一つぽつんとあるので、今、どこにあるかというのはほとんど分からないと思うのですが、1位はUSAで、恐らく今だとChinaもこれよりちょっと多いぐらいのパイを占めていると思うのですけれど、このときはまだ、1位はUSAでした。2位はGermanyなのですね。その次の3位はMicrosoftなのですね。真ん中、中央部分の下ぐらいにある。UKが右側にあって、左側にあるのは実はMicrosoftで、これは多分、この当時のオーガナイザーの茶目っ気だと思うのですが、そういうふうな形で一つの企業の研究所がほかの国の論文数を凌駕するような量のパブリケーションを出しているというのが、10年前の状況でした。今ですと、くだんのOpenAIですとか、Metaですとか、いろいろなアメリカの企業、また、中国でも、バスなどの企業が、こういうふうな企業自身が研究開発に積極的に取り組んで、そこからいろいろなサービスを転回するループをどんどん回している。残念ながら、日本だと、そういうところになかなか追いつけていない状況であるというところから、3ページへ行っていただいて、オムロンサイニックエックスという中で新たな企業の研究所の在り方ということを模索しているのが、現在の状況でございます。
 オムロンというふうについている会社名からお察しのとおり、オムロンで血圧計をつくっていたり、体温計をつくっていたり、あと、工場の中のいろいろな製品群をつくっている会社というイメージが強いと思うのですが、この中で、オープンサイエンス、オープンリサーチの形で、いろいろな大学の研究所であるとか、国立の研究所であるとか、また、場合によってはほかの企業の研究所などと連携しながら、楽しく集中して研究をしていて、それが実際のサービスとなって社会に役立ててもらえる。それがさらに我々の次の研究のリソースになるようなエコシステムをつくっていきたいということで、そういうふうなことを提言させていただいている、宣言させていただいているのがこちらの表紙の記事なのですけれど、何でタイトルが「3年後の壱萬円札に寄せて」という話になっているかというと、この執筆当時の3年後というのは新1万円札に渋沢栄一氏が載るという時点だったのですね。というと、理化学研究所というのは渋沢栄一氏と高峰譲吉先生で設立された半官半民の研究所であって、まさにそういったような研究者がどんどん研究をしていった成果が理研ビタミンをはじめとしていろいろな形で社会に役に立って、そこからどんどん研究所が拡大したというふうな、かつての成功例だというふうに思ったときに、では我々としては情報分野で同じようなことをするためにはどうしていったら良いかという新たな形を模索したいということで、こういうふうな記事にさせていただいています。
 ということで、オムロンサイニックエックスというのはそういうふうな形でいろいろな大学と共同で研究をするようなところであるという中で、最初は何をやっていたかということで4ページへ行っていただくのですけれども、オムロンというところは、さきほど申し上げたとおり、工場の製品群をたくさん提供させていただいている企業でございます。そうすると、人間がそういうふうな工場の中で製品をつくっていく作業を理解して、それを助けるようなところを研究開発していくのがよかろうということを我々の研究員のほうで考えて、最初、テーマを考えていたのですね。といいながらも、工場の中でカメラを置いて、あなたが今から製品をつくるところを研究対象にしたいので、撮らせてください、その後、データセットを公開させてくださいと言ってもオーケーが出るわけがないので、ここはアナロジーのタスクとして、人間が最も親しんでいるものづくりのタスクというのは何だろうと考えたときに、料理を作る作業であろうということを考えました。そういうふうな人間が料理を作る作業というところを外部から記録していったときに、それがどうやってレシピの形に変換できるか。これ、仰々しく言うと、暗黙知としてのそういった調理作業をいかにレシピというマニュアル(形式知)に変換できるか、理解できるかというふうな機械学習の研究になるなということで、そういった研究に取り組んでまいりました。なので、こちらでは、そういうふうな調理をやっている作業の様子の動画から、ここはレシピに入れておかないといけないという重要な区間というのを(a)から(f)まで自動で検出して、そこに対してどういう作業を実際に行っていたかというのを自然言語の形で記述するようなトランスフォーマー型のニューラルネットワークを提案して、実際にやった例ということです。
 メディアにも掲載をしていただいて、これはこれで我々としても非常に意義深い研究ができたかなというふうに自負しているのですが、ここからさらに推し進めていくときに、めくっていただいて(5ページ目)、次の方向性として、ほかの作業という中で人間が習熟していく作業の一例として、こういったような実験科学の実験作業というのがあるだろうということを次に考え始めました。なので、調理以外のところということで、生化学実験の先生に御協力いただいて、実際にその実験の様子を一人称視点で、頭の脇のところにカメラをつけて作業をしてもらって、そこから撮った映像と実際の実験のプロトコルというのをデータセットとして構築して、そこからも似たように実験作業を言語で理解することができるかどうかということをやっていたという辺りから、次に、そういうふうな人間の研究を理解するようなAIをつくっていくということをさらに推し進めるとどうなるかなということで、めくっていただいて(6ページ目)、御紹介いただいているようなJSTのムーンショット目標3の中で、ロボットが人間と共進化していく中の一つの対象として、まさにAIロボット駆動科学というのが対象になっていたので、ここに応募をして、この研究を始めた次第でございます。
 ムーンショットのプロジェクトについて簡単に補足をすると、御存じの方も多いかと思うのですけれども、最初に始まっているムーンショップのプロジェクトに対して、追加公募が昨年度行われていて、私はその追加公募でこのムーンショットのプロジェクトを始めた側でございます。ですので、最初にムーンショットで研究を始められたプロジェクトマネジャーの先輩方からすると、2年後輩に当たります。昨年度、どういうふうなプランで提案するかなということで考えていたところから現状までのお話というのをメインでさせていただきたいのですけれども、研究のプロジェクトのタイトルとしては「人と融和して知の創造・越境するAIロボット」ということで、まさに研究者とAIが融和して、お互いに成長するようなインタラクションをした上で、2050年にはそういったAIと人間がノーベル賞級の研究成果を生み出せるような世界を目指しますということを目指しております。
 下に出ているのは、山口栄一氏によるイノベーションダイアグラムで、御存じの方は御存じだと思うのですけれども、これは、ある研究が行われたときに、それが知の3次元空間の中でどういう方向に動いたものかというのを類型化するようなダイアグラムになっています。詳しいことを述べる時間は恐らくないと思うのですけれども、ざっくりと申し上げると、ノーベル賞級の成果、何かそういったパラダイム破壊が起こるような研究というのは、ここの3次元空間の中で、左右、この平面方向に対して大きく動くような研究というのがそういったノーベル賞級の研究ですと。一方で、高さ方向に動くような研究というのは、ある種、既定のパラダイムに乗っかって、そこの精度をよりよくしますよみたいな研究というのが、そこに該当する研究ですというふうに分類されているのですね。であれば、AIやロボットとしてどういう方向性の研究を最初に加速して自動化していくべきかといったら、比較的容易と言われている高さ方向の研究であろうということを、まずプランとして考えました。
 7ページに行っていただいて、そういうふうな研究をAIロボット自身が自分で回せるようになるためには、バックキャストしていくとこんなステップを踏む必要がありますよねということをこっちでうたっております。2050年にノーベル賞級の研究を人とAIロボットが創出するという下の状態を目指すためには、まず、2025年頃までに既存の研究のある種の思考が埋まっているフォーマットである論文を対象に人間の研究を査読的・追試的に理解できるようなAIの技術が必要であろうということで、そこが思考の理解とうたっている部分で、次に、2027年から徐々に簡単な研究をAIロボット自身が実施できるようになっていくべきだということで、まず、卒論生のようなAIロボットを人間が多分にいろいろなところで助けてあげるというのがあって、次、2030年頃までには、自らAIロボットが論文を書いて査読つきの論文誌に投稿できるような世界を目指していて、それがだんだんインパクトを大きくできるような研究ができるようになって、2050年につながっていくと。
 8のページに行っていただいて、実際に自動的にそういった科学原理・解法を発見するAIロボットのミッションというのはどういうところにあるかなということで、ムーンショットの提案時に考えていた話なのですが、右側の画像というのは、我々がつくったイラストではなくて、JSTのムーンショットの目標3のページのところにある動画のフレームを切り出しているものなので、JST側でこういったことを考えられていたという話なのですけれど、人間がAIロボットと議論して、その仮説であるとか実験の方針について合意した後に、実際にロボットが実験を行って、それがすばらしい研究成果になるというふうな形の4こまのフレームになるのですが、こういったことをAIロボットができるようになるためには、実際に募集要領にもあったとおり、幅広い分野で実験を行い、法則を見つけ出すAIロボットが必要だと思います。ということで、「幅広い分野で」というところで、マルチディシプリンな取組をやっていく必要があるよねということ。そして、「実験を行い」というところに対応して、研究のフレームは何か。これは仮説も含んで、どういうことを冒頭で主張している研究になるのかということと、実際に実験をするという部分。そして、「法則を見つけ出す」というのは、要するに、得られた部分をどういうふうに解釈して、それが言語である論文に落ちていくのかということで、先ほどの嶋田フェローのお話で言うと、ここが仮説立てと実際の実験を行うというふうなループのところを行き来する部分にそれぞれ該当するのかなというふうに解釈をしております。
 次、9ページに行っていただいて、論文というのは、先ほども申し上げたとおり、人間の研究という思考が全て埋まっているフォーマットであろうと。もちろんここに、データセットであるとか、ソースコードであるとか、ほかのデータが足されるべきという議論は全く異論の余地はないのですけれど、基本的に自然言語としてメインで論文のところにこういったデータが埋まっているというところをまず注目しています。例えば、その研究は、どういうふうな仮説でもって、どういうふうなコントリビューションがあるものだとして書いているのかという主張の部分であるとか、実際にどう実験を行ったのかとかという部分、そして、その結果をどう解釈してディスカッションして、そのコントリビューションが実際に最初に主張したとおりであるというふうに示したかという解析の部分というのは、そのままこの論文の中に示されているわけです。
 めくっていただいて(10ページ目)、そういったような形で、人間の研究というのは、ここでは最初にフレームを考えて、次に実験を行って、そこから解析をして、それが、例えばレポートであったりとか、場合によっては論文になったりというのをぐるぐる回っていて、投稿できるような状態ではなかったら、また主張を考え直してというのをどこかのステップから始めているというのが人間の研究の一つの体系立てだと思います。というときに、これをAIロボット自身が自動で進められる、あるいは加速できるようにしていくマイルストーンというのが必要ですよねということになります。こちらの下の図は、先ほど述べたマイルストーン目標に際して、もうちょっとだけ具体的に言うと、AIロボットは人間の研究者に対してどういうことができるようになるかということを必要性に応じて描いている図になります。
 11ページに行っていただいて、要約すると、こういうことを目指しています。2025年までには、先ほどもちらっと述べましたが、研究を理解できるAIサイエンティストというのをつくりたい。これは、既存の主張から実際にどういう実験を行って、それをどう解析して論文に至ったかという関係を、例えば、論文のレビューアーであったり、論文の追試を行う者として理解できるようなものを目指すというのが2025年までの目標で、そこから2030年に向かっては、人間とのインタラクションはあるものの、そこから新たな仮説を導き出して、実際に実験を通じて新たな研究を導いていくということをAIロボット自身ができるようにしていきましょうということをうたっております。
 12ページに行っていただいて、自然言語で表記するとそういうふうな形になりますという、マイルストーンのまとめでございます。
 13ページへ行っていただいて、実際にマルチディシプリンの体制でこれをやる必要があるということでJSTのムーンショット目標3の中の募集要領の図を真ん中右側ぐらいに抜き出しているのですけれども、AIやロボットの分野、アクチュエーションとかセンシングといったような分野の周辺分野としてこういったことがうたわれていたのですが、こういうところはまさに今現時点でもAIとかロボティックスと親和性の高い分野であるというふうに見ることもできるなと思いまして、そういった分野から、要するに、簡単に言えば、既にAIやロボットによる研究の自動化みたいなところが始まっているような分野をさらにブーストしていくのがよかろうということを考えておりますというのと、また、さらに特定のディシプリンにフォーカスするというよりは、複数のディシプリンでこういったようなAIロボットサイエンティストというものをつくっていくことをやっていくようなマトリックス型の体制を組んだほうが、例えば、特定の分野、特定の科学分野では、こういうところがまだAI化しづらい、こういうところがロボット化しづらいというのがあったときに、別のところでAIロボットの研究としてはそこを先行させることができるというふうな形でボトルネックの発生や停滞を避けることができるかなということと、また、開発されたAIロボットでの研究を加速する、自動化するようなモジュールというのを複数のディシプリンに同時に展開できるかなということを考えておりました。
 14ページへ行っていただいて、そのアクセプトをいただいた後ぐらいから、くだんのChatGPTの大変な騒ぎというのが発生しまして、まさに嶋田フェローのお話にもあったような基盤モデルを使ってやっていくということを想定していたら、基盤モデルが一足先に社会の中ですごいブームになったというふうな形で、今、基盤モデルを用いていろいろなところで、こういうふうな科学を自動化する、あるいは加速するような試みというのが進んでいます。一部、先ほどのお話ともかぶるところはあるのですけれど、例えば、ChatGPT自体が論文を読んで要約して、その論文の中の図について回答できますよとか、GPTが言語モデルとして、分子とか、結晶とか、タンパク質の3次元構造を生成できますよとか、あと、GPT自身が文献から実験用のプログラムの疑似構造と言うには結構具体的な構造まで生成できますよというふうな報告がそれぞれ、今、すごい勢いでされているような状況でございます。
 そういうふうな話になると、15ページへ行っていただいて、例えば、Yann LeCunという、深層学習の御三家ですが、先ほど質疑にあった、カナダでこういうふうな深層学習の研究をずっとしていたGeoffrey Hintonという研究者の弟子に当たる人がツイートしていた話として、ChatGPTなどの言語モデルによって広大な連想記憶に類似した質問がある場合には正しく回答ができるというふうな話があって、もうお墨つきもついているので、16ページへ行っていただいて、ChatGPTでAIサイエンティストの研究はこれで終わりになるのではないかという話を時々されるのですね。もちろん回答としては、本音でそう思っているのですけれど、17ページへ行っていただいて、ChatGPTだけではAIサイエンティストは実現できないですよという話をしているところです。
 18ページへ行っていただいて、先ほどのツイートなのですけれど、実は続きがあって、19ページへ行っていただくと分かるのですが、この画像を添付したツイートだったのですね。この画像については、何を言っているかというと、ChatGPTのHallucinationの一例です。Hallucinationは、よく御存じの委員の先生方は多いと思うのですけれど、ここで言っているのは、今、ビデオのところでやりますが、紙を両手で持って、片方の手を離すとどうなるかという質問をしています。明らかに離してないほうの手に向かって傾くというのが正解なのですけれど、現実世界の物理法則を理解しないChatGPTは真逆の答えを行うという回答例が出ているというわけです。
 めくっていただいて(20ページ目)、先ほどの嶋田フェローからのお話にもあったのと重複しますが、ChatGPTというのは、うそを言ってしまう、また、BingAIみたいに何らかの論文を検索しながらその内容について答えるということをできるChatGPTの亜種もいろいろ出てきているのですけれど、確率的にこういった誤解を行ってしまうということが、まず一つ目の欠点ですね。もう一つは、何でそういうふうな回答をしているかというのは、実際分からない。なので、説明性のあるAIというのがここでも依然として必要であるし、もう少し踏み込んで言うと、説明性のあるAIというのは、単純にどういう説明をすれば良いのかというのを研究者側が無邪気にいろいろな仮説を立ててやっているだけなので、それで本当に納得できるかという意味では、まだまだ研究をする余地があると。さらに、実世界とつながっていないサイバー空間の存在であるというのが、ChatGPTの三つ目の欠点です。これは、例えば実際に実験をするロボットでデータをさらに蓄積していってみたいなことが現状だとできないので、基盤モデルとしても、実際にそういった実験を行うようなロボットや物理的な存在とつながっていくということと、もう一つは研究者自身とつながっていくということが必要かなと思っています。今のChatGPTでも研究者と1対1で知見を蓄積することはできますけれども、それをより集合知的に効率的にChatGPTの知識としていくためには、またさらなる開発が必要だというふうに考えています。
 ということで、本プロジェクトでも早速いろいろなGPTを用いた試行というのを行っているのですけれども、今の基盤モデルだけでは自動的に、あるいは加速したAI駆動の研究というのは難しいかなというふうに考えております。
 とはいえ、めくっていただいて(21ページ目)、基盤モデル/大規模言語モデルが絶大なるメリットとして持っているところは、従来のAIだと、左側のように、それぞれの研究の中のタスク、実験タスクであるとか、実験結果の解釈タスクであるとか、また、仮説生成なら仮説生成で、分子構造を生成してくださいとか、そういったところのそれぞれに対して大量のデータセットを収集しなければならなかったところに対して、こういったものを教師なし、もう少しちゃんと言うと、自己教師あり学習として大量にデータを集めてきて基盤モデルを構築してあげると、少量の例示を行うだけでそういったような入出力を再現できるというのが最大のメリットです。なので、専門家のフィードバックを受けなきゃいけないとか、そもそもそういうふうな学術データって少ないよねというふうなドメインに対して、こういうふうな少量の例示で良いという基盤モデルのメリットというのは最大限生かしていくべきであるというふうに考えております。
 22ページへ行っていただいて、実際にこういったような科学用の基盤モデルというのをつくっていかないといけないよねということをほかの関係するような方々と急速に議論を進めさせていただいているのが、直近の状況でございます。23ページへ行っていただいて、例えば、国産の汎用基盤モデルをつくる動きについては、CRDSの分野別委員としても末席を汚しておりますので、少しいろいろな提言をさせていただいていたりとか、また、より具体的に科学用の基盤モデルをつくらないとねというところでは、JSTのムーンショットと未来社会創造事業の関連するような四つのプロジェクトで合同して、今、急速にこちらも意見を交換して議論を進めているところです。左下にあるような基盤モデルというのがまさに四つのプロジェクトで連動したときに、それぞれでも、やはり共通実施用になりそうだよねということで、AIロボット駆動科学のイニシアチブを立ち上げて科学用基盤モデルを構築するということを試みているところでございます。
 右側は実際にJSTのムーンショットと未来社会創造に関わっている四つのプロジェクトのメンバーの人々なのですけれども、まず、左上は、JSTムーンショットの同じく目標3の中で、バイオ分野あるいは医療を対象としてロボットの研究をされている、原田先生です。そこに対して、左下の私はケミカルで、特にこっちではオーガニックのほうの有機化学を対象としたAIを研究しているというふうな形で、ロボットとAI。そして、今、ディシプリンの切り分けが行われているというふうな状況です。右側のJST未来社会創造事業のほうでは、理研の高橋さんがロボットを用いたバイオの研究をされているというのと、さらに、ロボットの基礎研究を原田先生がされているのに対して、高橋さんはよりアプリケーションに近いところをやられている。右下の東京大学の長藤先生は、インオーガニック、無機の化学を加速するようなロボットとAIの研究をしているというふうなプロジェクトになっていて、より応用的であるというのと、そういう意味でオーガニックとインオーガニックの切り分けがされているという感じでございます。また、最後に付け加えると、実は長藤先生のJST未来社会創造事業にも私自身は参画していて、こちらではAI側の研究者としてそういうふうな無機化学の加速をするための研究を行っていますというふうな形で、一体となって研究を進めているところでございます。
 24ページへ行っていただいて、こういった科学分野から見ると実際に解決するべき課題が三つぐらいあるのかなと思っています。一つはプロセスの断絶です。要するに、いろいろな仮説を出して実験をして、それを解析してレポートに落とし込んでいくみたいなところが今は断絶して、それぞれ、自動化できるかなとか、加速できるかなということをやられていますが、これは、一つのサイクルとして統合していって、それ自身のループを回す中でAIロボット自身にもフィードバックが与えられていく必要があるかなと。分野の断絶というところは、先ほど述べたとおり、マルチディシプリンにしていきましょうという話。さらに、人間の能力の限界ということですね。今でも、例えば、ある着想が出たときに、そのとおりに研究をしていこうというときには、人間が人力で実験を行っていく必要があって、場合によっては暗黙知として、ほかの人だと再現できないのだけれど、この人だったらなぜかうまい実験結果が出るみたいなことが、いろいろなところで発生しています。そういうふうな、人間だと再現できない、人間だと物理的に限界があるといったようなところをロボットでいかに保証していくかということが、もう一つの限界、我々が挑戦するべきところというふうに考えております。
 25ページへ行っていただいて、これ以降のページは補足資料なので、これが最後ですが、こういったような学術基盤モデルというのをつくってあげて、この学術用の基盤モデルは、ほかの国産であったり、世界でオープンイノベーションの形でやっているような別の基盤モデルでも良いのですが、そこの上に、実際にロボットであるとか人間と接続可能なものとして、文献データをはじめとした各種実験データでファインチューニングを行ったような基盤モデルとして各ディシプリンに使っていただくようなものを用意していこうという議論を行っているところでございます。
 私からの話は、以上です。ありがとうございました。

【観山部会長】  牛久さん、どうもありがとうございました。
 時間が残り少なくなってしまったのですけれども、委員の皆様、御質問や御意見をいただければと思いますが。
 有馬先生、どうぞ。

【有馬委員】  有馬です。ありがとうございました。今やられている研究での基盤モデルは、結局、アメリカにある基盤モデルを使ってやって特にそんなに不自由はないと、そのような感じなのでしょうか。

【牛久プリンシパルインベスティゲーター】  おっしゃるとおりです。科学データなので英語がメインになっているというのも大きいのですけれども、もちろんGPTは公開されていないですが、ほかのスタンフォード大などでやっていて公開されているような基盤モデルの上で研究を行えている状況ではあります。

【有馬委員】  なるほど。日本語にしたときに問題になるけれども、英語だとそれで良いでしょうということですね。ありがとうございます。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。

【観山部会長】  ほかにいかがでしょうか。
 前田先生、どうぞ。

【前田委員】  すごく面白い話を、どうもありがとうございました。幾つかあるのですが、時間もないみたいなので一つだけお聞きしたいのですけれども、自律的に研究する、AI研究者、AIサイエンティスト、先生が考えられるAIサイエンティストというのはどういったものかということをちょっとお聞きしたくて、何でそういうことを聞きたいかというと、実際に実験まで含めて、先ほどの嶋田フェローの話にもあったような、ああいうループを回していくとすると、ケミストリーとか材料の分野だと、原料であったりとか、出てくる廃棄物であったりとか、そういったものの処理も自動でできないといけないということになると思うのです。そういったときに、僕が単純に想像できるのは、普通の個人ラボみたいなところにいるサイエンティストみたいなものではなくて、製薬会社の工場に直結したようなところにある装置で、その中で欲しい試薬は工場からすぐに来て、出てきた廃棄物も、危険なものもいっぱい出てくると思うので、それも廃棄していくみたいな、すごく大規模なものなのではないかなというふうに思うのですけれど、そういったところはどんなふうなイメージをお持ちでしょうか。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。まさにおっしゃるような形で、ある種、実験科学のファブラボみたいなものが今後より活用されていくようになるのかなと。我々、ピュアな情報分野だと、各研究室で計算機を回していた時代から、今だとクラウド等の大きなGPUを触らないといけなくなったというのと対応するようになっていくのかなというふうな想像をしております。その中では、今だと、例えば、特定の薄膜をつくって、それを計測してというのを自動で回すとか、そういうところの自動化だったりするわけですが、それがより汎用的にいろいろな実験ができるようになっているファブラボみたいなものがあって、そこに対するインターフェースとして各研究者自身にチューニングされたようなアシスタント的なAIサイエンティストがいて、それが実際にファブラボ上の研究環境、実験環境を動かしながらその研究を進めていくようなことを想像しております。

【前田委員】  なるほど。第一段階としてそういうところにまずは行くというイメージですか。最終的なところまではまだ……。

【牛久プリンシパルインベスティゲーター】  最終的には多分、どういうふうな実験や研究ができるかというところを、まず成功例をつくりながら、これもまたいろいろな人たちが参画していただいて、多様な実験を自動で、あるいは加速してできるようなものを一緒につくっていく必要があると思っていて、まず、先行で成功例を1例見せたいというのを、例えば、無機でやっているのが長藤先生のところの課題だったりいたしますし、私のほうも私のほうで、仮説生成とか、そういったような抽象的なレイヤーからそういうことをやれるようなAIをつくりたいということでやっているところでございます。

【前田委員】  分かりました。ありがとうございます。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。

【観山部会長】  いかがでしょうか。佐伯先生とか美濃島先生、いかがでしょうか。
 齊藤先生、どうぞ。

【齊藤委員】  ぜひ、オープンイノベーションでやっていただけると良いかなと思います。分野をまたぐ例を見せていただけると、若い方がいろいろな分野から参入して加速度的に進んでいくのではないかなという感触を持っております。ぜひ、よろしくお願いします。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。まさにおっしゃるように分野をまたいで越境するというのが一つの大きなパラダイムシフトが起こる研究の在り方なので、そういった例をAIサイエンティストで見せられるようなことをぜひやっていきたいと思っております。ありがとうございます。

【観山部会長】  佐伯先生。

【佐伯部会長代理】  牛久さん、どうもありがとうございました。非常に夢のある話で、研究者としては、将来的に人間とAIがコラボレーションしてノーベル賞級の仕事をするというような、非常に夢を感じます。ただ、人間の研究者としては、例えば、人間が書いた論文をAIが査読をして正しいか正しくないかを判断するといったようなことがいずれできることになる時代が来ると思いますけれども、それを人間から見たときに、例えば、この研究はあまり価値がないとか、そういったことをAIが言い始めると、人間としてもあまり良い気持ちはしないでしょうし、そこにどういった客観性があるのか、その辺りは非常に難しいかなあと思います。現在でも、論文の査読と、実際に正しいか正しくないかの判断は置いておいて、それが学術的にどのくらい意味があるのかといった判断というのはなかなか、一人の研究者だけでもできないですし、複数やったとしても人によって判断が分かれるようなところがあるのではないかなと思います。ですので、そういった意味で、AIがどのように人間が普通やっているような判断をしていくのかというのも非常に重要な観点かなと思いましたが、いかがでしょうか。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。まさにおっしゃるとおりだと思っていて、端的に申し上げると、将来的にも人間はい続けるべきである。だからこそ人間と共進化するAIサイエンティストということをうたっているのですけれども、どういうことかというと、私が思い描いているのは、例えば、今でも査読者がいろいろな査読、レビューを上げてくる。そこでエリアチェアーであったりエディターであったりがそのレビューの意見を吸い上げながら最終判断を行いますが、ここのレビューアーに当たるところにAIサイエンティストからいろいろな多角的な指摘が入ってきて、それを最終的に人間が判断するみたいなことが、本当にレビューにAIサイエンティストが入るのだとしたら、そういうふうな形になると思います。ほかの科学的な何か新しい仮説を考えようというときにも、そこにはやはり同じように人間が入ってきて、こういうふうな観点でこういうふうな研究の方向性をやっていくべきだみたいな提言に対して、判断を行っていくのは人間であろうと。その判断を行うためにも、実際にそこの出力というのが言語であるというのは非常に有力なモダリティーの一つだと思っておりますし、その際には人間の研究者に対して納得してもらえるような情報提示を行う必要があるということで、説明性があるAIというのをより推し進めていく必要があるのかなというふうに思っております。

【佐伯部会長代理】  どうもありがとうございます。そうした説明性があるということは非常に重要なことではないかなと思っております。どうもありがとうございました。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。

【観山部会長】  ほかにいかがでしょうか。よろしいですか。
 美濃島先生、どうぞ。

【美濃島委員】  どうもありがとうございました。私も似たような質問にはなるのですけれども、歴史的な時期的な発展のイメージというところの最初に査読者・評価者というのが来ていたのが、私としては、最初は少し不思議だなあと思いながらお伺いしていたのですが、大量にデータを、査読とか評価という行動を考えたときに、今の御説明のようなことでしたら、割と最後のほうにもう少し判断力とか説明力がAIにできてきて査読や評価が正しくできるようになるというイメージなのかなと思ったのですけれども、発展の最初に必要なことというのはどんなことなのかというのをちょっとお伺いしたいなと思ったのですね。というのは、私、素人というか、この専門家ではないので、一般に考えますと、大量なデータとか論文を読んで、意義とか、評価することはできないけれども、たくさんの情報をため込むというのが第一歩なのかなというふうに考えていたのですね。そうしますと、言ってみれば学生がたくさん論文を読んで、価値判断も分からないし、専門家から見たらA論文のほうがB論文より価値があるということは明らかだとしても、学生としては同じように情報を集めてくるというのが、研究というか、学生の第一歩ですよね。ですので、AIもそのように大量のデータを同じような比重で集めてきて、それに関して、この研究は既にあるよとか、そういうことは言ってくれるかと思うのですけれども、査読・評価ということとは大分イメージが違うなあと思いながら伺っていたのですね。これからこういったAI研究者が御説明のあったようなものとして発展していくには、その第一歩というのはどこにあるというふうにお考えなのか、ちょっと教えていただけたらと思いました。

【牛久プリンシパルインベスティゲーター】  ありがとうございます。実は、まさにおっしゃるように、査読を行えるAIの中のマイルストーンの一つとして、論文の中で自己完結しているかとか、ほかの研究と比べて何か似ているものはないかとか、そういったようなところが理解できるようになるというのは論文データを大量に集めたときにできるようになるかというのが、直近で開発しようとしていることになります。そこからより抽象的な判断をできるような、本当に査読をコンプリートできるようなところというのはその後のマイルストーンになっていくというのは、おっしゃるとおりかなと思います。なので、この資料のマイルストーンですと、あたかも全て査読ができるようになってから研究を自分自身で始めるような書きぶりになっていて、それは分かりやすさのためにそうせざるを得なかった部分もあるのですが、具体的には、一部のところから自分自身で研究ができるようになっていくAIの開発も同時にスタートしていくような時期というのがその後続いていくのかなというふうに思います。
 もう一つ、ここで重要なのは、データがどれだけ大量に集まりやすいかというところです。今、自動で実験を回して、自動でデータが蓄積するようになるような状況というのをまさにさきほどのJST未来とかでつくろうとしているところなので、そちらのデータはこれから集まるような段階で、そこからその果実となる別のAIのモジュールが出てくるというのは、さらにその後かなというふうに思っていて、であれば、今、ウェブ上で先行して集められたりとか、ほかのオープンソースのデータセットとして集められそうな、別のドメインのデータからやっていくのが良いのかなというふうに考えております。

【美濃島委員】  ありがとうございました。きっと取っかかりやすい分野とそうでない分野があるのかなというふうに、伺っておりました。私は、物理系というか、どちらかというと、大量のデータというか、推論のほうを重視するような分野におりますので、そういうこともちょっと感じたので、いろいろな分野に特化して成功事例ということを見せていくというのは、まさにそういうことかなと思いました。ありがとうございます。

【牛久プリンシパルインベスティゲーター】  おっしゃるとおりだと思います。ありがとうございます。

【観山部会長】  ちょっと時間が過ぎていますけれども、よろしいでしょうか。
 それでは、本日の議論は以上としたいと思います。
 運営規則第7条に基づいて、本部会の議事録を作成し、資料とともに公表することになっておりますので、本日の議事録については、後日、メールにて事務局からお送りされると思いますので、御確認のほど、どうぞよろしくお願いいたします。
 それでは、以上をもちまして、第11回科学技術・学術審議会基盤研究振興部会を閉会いたしたいと思います。本日は、どうもありがとうございました。時間が延びて、申し訳ありませんでした。失礼いたします。
 
―― 了 ――
 

お問合せ先

研究振興局基礎・基盤研究課