情報科学技術分野における戦略的重要研究開発領域に関する検討会(第3回) 議事録

1.日時

令和6年6月11日(火曜日)16時00分~18時00分

2.場所

文部科学省東館17階 研究振興局会議室 ※オンライン会議にて開催

3.議題

  1. 注目する研究課題等について
  2. 情報科学技術分野における戦略的重要研究開発領域等について(審議のまとめ)
  3. その他

4.出席者

委員

辻井主査、相澤委員、荒瀬委員、内元委員、尾形委員、工藤委員、杉山委員、原隆浩委員、原祐子委員、湊委員、村上委員、森川委員

文部科学省

塩見 研究振興局長、松浦 大臣官房審議官(研究振興局及び高等教育政策連携担当)、国分 参事官(情報担当)、原田 科学官

オブザーバー

大阪大学大学院 生命機能研究科
 教授 北澤 茂
京都大学大学院 情報学研究科
 教授 谷口 忠大
東京大学大学院 情報理工学系研究科
 教授 鶴岡 慶雅

5.議事録

【辻井主査】  定刻になりましたので、この検討会の第3回会合の開催をいたします。
 今回は、現地出席とオンラインの方のハイブリッドになります。通信状態が悪い等で続行できなかったときには少し中断する可能性がありますので、よろしくお願いします。
 それでは、事務局より連絡事項と配付資料の確認、開催に当たっての注意事項の説明をお願いします。
【植田補佐】  事務局でございます。本日、原隆浩先生と審議官の松浦のほうが遅れて参加となる見込みでございますけれども、委員の皆様には全員御参加いただけることとなっております。
 また、オブザーバーといたしまして、大阪大学大学院の北澤教授、京都大学大学院の谷口教授、東京大学大学院の鶴岡教授に御出席いただいております。
 続いて議事次第に基づき配付資料の確認をさせていただきます。現地で御出席いただいている方はお手元の資料、オンラインで御参加いただいている方はダウンロードいただいた資料のほう、御確認いただければと思います。
 全部で4点お送りをさせていただいておりまして、1件目が北澤先生の御発表資料となっております。2点目が谷口先生の御発表資料、3点目が鶴岡先生の御発表資料となっております。資料の4がこちらの検討会の審議のまとめの案とさせていただいております。
 現時点で、御不明点や不具合等ございましたら事務局までお知らせいただければと思いますが、いかがでしょうか。もし何かございましたら事務局まで御連絡をいただければと思います。
 つづいて、ハイブリッド開催に当たっての注意事項を申し上げます。御発言時を除き、マイクは常にミュートとしていただけますと幸いです。ビデオは常時オンとしていただき、通信状況が悪化した場合にはビデオを停止していただければと思います。
 また、運営の都合上、現地出席の方も含めまして、御発言をいただく際は「手を挙げる」ボタンを押して御発言いただければと思います。
 辻井主査におかれましては、参加者一覧を開いていただきまして、手のアイコンが表示されている委員の方を順に御指名いただければと思います。
 議事録作成のため、速記の方に御参加いただいています。御発言いただく際は、お名前をおっしゃってから御発言いただけますと幸いです。
 また、マイクの数が限られておりますので、現地出席の方が御発言いただく際は少し大きめの声で御発言をいただけますと幸いです。
 傍聴希望をいただいた方にはZoomにて御参加をいただいております。
 その他、トラブルが発生した場合には、現地出席の方は手を挙げていただき、オンライン出席の方は電話で事務局まで御連絡をいただければと思います。
 御案内は以上でございます。
【辻井主査】  ありがとうございます。
 今日、オブザーバー参加の3名の先生から今注目されている研究内容について発表していただいて、それの意見交換をします。それから、資料4がこれまでの審議のまとめの暫定案になっていますので、結構大変なまとめなんですけど、これに関して総合討論をという形で進められればと思います。
 それでは、まず、オブザーバーの先生方のうち北澤先生からよろしくお願いします。
【北澤先生】  大阪大学の北澤でございます。資料、共有させていただきます。
 私、今日は、脳とAIの比較研究が重要であるということを皆様にお伝えできればと思っております。
 私の略歴の中で、専門は脳生理学でございます。ポイントは、脳生理学を伊藤正男先生に学びまして、当時東大の工学部にいらっしゃった甘利俊一先生の講義に潜って、神経回路網の数理をかじったということですね。伊藤正男先生も甘利先生も文化勲章を受賞された脳研究とAI研究の世界的な泰斗でいらっしゃるということです。
 お二人は、AIの研究の歴史の中でも非常に重要なところを占めていらっしゃいまして、早くも1967年に甘利先生が多層のパーセプトロンの学習を損失関数で定式化されて、これ、2012年のHintonのAlexNetというのが第3次AIブームを引き起こしていますが、使った式は全く甘利先生の式そのままです。
 また同じ頃、伊藤正男先生は、小脳パーセプトロン説・運動学習説というのを提唱されまして、脳とAIの橋渡し研究、これの先駆けをなさったということになります。
 今、第3次AIブームと言われているわけですが、2016年にAlpha碁が出てきて、2017年にトランスフォーマーが出てきた。現在のChatGPT、皆さん、日々使われていると思うんですけど、この「T」もトランスフォーマーというわけで、アテンションを導入してAIに革命をもたらしたということになります。
 私、今日脳とAIの比較研究と申し上げましたが、脳とトランスフォーマーの比較研究を今こそやるべきだということをお伝えしたいと思っております。
 トランスフォーマー革命を起こしたのは、ヴァスワニの2017年の「Attention is All You Need」という論文でございます。トランスフォーマーは何かというと、そもそも英語をドイツ語に翻訳する機械として最初できたわけです。これが従来のWord2Vecとかよりも優れているのは何かというと、「I need to visit the bank to open a new account」のbankと「I like to walk along the bank of the river」、このbank、両方ともbankなんですけど、片方は銀行で、片方は川の岸辺という意味になるわけですね。これをトランスフォーマーは、「Bank」と「Ufer」と見事に訳し分けたというわけなんです。
 このトランスフォーマー、2017年には6層でした。たった6層でございます。左側に「I like to walk along the bank of the river」と下から入れると、6層、お互いにアテンションというので情報を横方向に交換しながら、一番上の第6層からそれぞれの単語の意味をベクトルとして出す。これがエンコーダ。それを受け取ったデコーダの側は、そのベクトルを基に、「Ich gehe gerne am Ufer……」というふうにドイツ語を1語ずつ紡ぎ出すという、こういうことなんですね。トランスフォーマーは文脈をアテンションで取り込むことによって、文脈に応じてバンクの意味ベクトルを2種類きれいに訳し分けることに成功したと。これがトランスフォーマーであります。
 このとき使われた英語とドイツ語のペアの数、これが正対として使われたわけですが、450万ペアで、各言語1億語ということで、教師付学習ですね、正解のドイツ語が出るように途中のシナプス結合を全部ちょっとずつ変えていくということをやったわけです。
 この左側の言語をベクトル化するところ、これをエンコーダと言いますが、これがBERTとして発展しまして、右側のぽちぽちと1個ずつ言葉を紡ぎ出すデコーダの部分、ここは、Generative Pretrained Transformerです。GPTはこっちのぷつぷつ言葉を紡ぐほうとして発展していったというわけなんです。
 トランスフォーマーのオリジナルにつきましては、黄色でマーカーを引いている通り6層で、パラメータ数は4,500万、学習データサイズは1億語だったわけです。これがたった6年の間に、ChatGPT4のGPT-4になりますと、構造は基本同じ、同じトランスフォーマーなんですが、どれだけでかくなったかというと、層の数が6から数百に、爆発的にでかくなりました。パラメータ数は0.45億、4,500万だったものが、1兆、1万倍以上です。学習データサイズは1億語が数兆語で、これも1万倍以上ということで、めちゃくちゃ巨大化しているのが今のGPT-4だということになります。
 それに伴って消費電力がうなぎ登りだというところが今社会的に問題になっているということです。
 オリジナルのトランスフォーマーとBERTはどれくらいエネルギー消費したかというのは、「Strubell et al.(2019)」というのが有名だそうで、0.027メガワット時と1.5メガワット時と。これが大体パラメータ数とデータサイズの掛け算と比例するという感じなんですね。これ、私、計算してみましたら、GPT-4は1兆と数兆なので、これ、単純にここの黄色字の赤字のところを掛け算すると、50万メガワット時、これは0.5テラワット時でございまして、原発1基の1年の発電量を10テラワット時とすると、20日間フル稼働するエネルギーを消費するということで、大変なことになっているということなんですね。
 数百層は行き過ぎだろうと。AI、取りあえず人並みで、人の生活に入ってくればいいので、人並みでいいんじゃないかということで、人の脳が何層ぐらいかというのを数えてみますと、FellmanとVan Essenの1991というのが視覚系の路線図として有名でございまして、右側が網膜、感覚神経の入り口、左側の海馬が全ての感覚信号が折り返すターミネーターなんですね。そこまで何層あるかというと、1、2、3、4、5、6、7、8、9、10、11、12層なんですね。人並みは12層で十分だということになります。
 実は24層程度のBERT、ラージモデルを使ったRoBERTaというのがあるんですが、これがヒトの言語スコアを既に超えているということで、大体12層ぐらいのトランスフォーマーが脳の比較対象として適切だろうと思われます。私は脳と12層ないし24層程度のトランスフォーマーの比較研究が重要だと申し上げたい、こういうことです。
 トランスフォーマーはもともと言語の翻訳機として出てきたんですが、実は画像分類にも使えるんですね。写真を幾つかのパッチに分割して、先ほどのトークンと呼ばれている言語の単語を入れるところにバンバンバンと入れてやって、処理しまして、一番最後のヘッドのところでクラス分類をすると、従来のアレックスネットとかよりは随分性能がよくなるということが、2020年にビジョントランスフォーマーとして、たった4年前ですけれども、発表されました。これは12層の深層人工神経回路でトークンに分割した画像を入力してクラス分類を出力するというものであります。
 本質的な工夫が2点ありまして、全体の情報を統合するクラストークンというのが追加されていて、注意、アテンションを使って、写真の中の大事なところにだけ注意を向けて情報を総合するからいいんだということなんですね。情報を総合する仕組みというのは、実はデカルト先生が言った感覚信号を統合するグランドHというものに非常に近いものではないかということで、私はビジョントランスフォーマーのクラストークンの最終層が「こころ」の座ではないかと考えております。
 ビジョントランスフォーマーの最初の論文では100万枚のラベルつき画像で教師付の詰め込み学習をしました。そうすると、ちょっとアテンションがノイジーになるんですね。これは飛行機と判断はできるんですけど、ノイジーである。
 これが自律学習、FacebookのCaronらが開発した自律学習法を使うと、ノイズがすっかり消えてヒトに随分近くなるということが2021年に報告されまして、私、非常にこれ興味持ちました。これ本当にすごいんです。それで私たちは、これ我々のラボでの実験なんですけども、ヒトの注意とDINO法の注意が、DINO法で学んだ自律学習したビジョントランスフォーマーの注意が同じであるかということを視線計測法を使って調べてみました。人が映っている動画を見せるわけです。ヒトは視線計測をします。ビジョントランスフォーマーのほうは、アテンションの一番ピークの場所を、AIが目を向けている場所だとして取ってくるわけです。
ポイントは、自律学習するとヒトの注意とそっくりなんですね。でも、従来の詰め込み学習、教師付学習したものは全く違うところを見てしまうというところなんですね。AIの応答と脳のニューロンの応答を比較する研究というのは、私が学生時代の1987年、NatureのZipser・Andersenというのが一番最初なんですが、それが第2次ブームになって、2014年ぐらいからたくさんいい論文が出てくるようになってきましたが、まだ脳とトランスフォーマーの比較研究が行われてないんです。この比較研究をすることによって、トランスフォーマーの構造を進化させます。
 学び方、自律学習というのも、これ情報量最大化学習なんですが、ヒトがどうやるかというところまではちょっとよく分かってないところあります。
 さらに5感は備えて「こころ」を持った安心・安全な「人並AI」をつくることが、比較研究でできるはずです。
 こうすれば、エネルギー問題も起こさないし、ヒトの自律学習を採用すれば、データも人並みにしか要求しないし、ただし天才ではなくて、あくまでも人並みなんですが、ヒトの生活に入り込むには実はそれぐらいがちょうどいいんだということで、CiNet Brainもその方向で進化させていこうと、心と体も持たせて、ヒトの環境の中で育てていくことを考えております。
 Take-home messageです。脳とAIの比較研究は、エネルギー問題とデータ爆発問題を解決して、安心・安全なAIを提供することに直結する重要な研究領域である。
 御清聴ありがとうございました。以上です。
【辻井主査】  どうもありがとうございました。
 3名の先生方の発表が終わってから質疑応答をしたいと思いますので、続いて谷口先生、よろしくお願いします。
【谷口先生】  よろしくお願いします。画面共有させていただきます。
 では、京都大学の谷口が御報告させていただこうと思います。お題として、シンボリックAIとか記号システムの話と深層学習の接点の辺りの話をというふうな話をいただきましたので、それにちょっと合わせてお話ししたいと思います。
 まさに、シンボリックAI、シンボルの話、記号システムの話と深層学習の話というのは、ディープラーニングのブームが来てから、その融合はどう果たされるべきかといった議論がされてきたと思います。P2はJSTのCRDSの報告書の中のものを取ってきたんですけども、まさにその中では、世界モデル、多分次の鶴岡先生のところで言及されるのかなと思うのですが、そういうシステム1の部分に対して、システム2に対応する熟考的な知能、これ、昔はいわゆる記号的なAIでやっていたよねというところだったんですけども、この議論が出てきたベンジオのトークなんかでも、やっぱり古いシンボリックAIじゃなくて、これもディープラーニングベースで行くんだろうというふうな話が実は推されていて、それがまさに今動いている大規模言語モデルの話なんじゃないかというところで、それはまた北澤先生の今のお話につながる部分かなあと思います。
 この言語モデルと大規模言語モデルと世界モデルという構成、特に大規模言語モデルの話は私の分野においてもかなり強いインパクトを持って進んでいます。
 この1年半ぐらいの間、ロボティクスの業界ではすごい勢いで大規模言語モデルが使われて、プランニングの問題はそれまでルールベースだったのが、ほとんど大規模言語モデルに置き換わるということが起きます。
 同時に、その下のレベルの世界モデルといいますか、基盤モデルの部分、これ、ビジョンの大量のデータであったりとか、下がRT-Xと言われる、世界中のラボでロボットを動かして、そのデータを大量に集めて、ロボットの動作まで含めて学習させるロボティクス基盤モデルというふうなところのトレンドが出てきて、ちょうどこの前、ICRAというロボティクスのトップ会議があったんですけども、こういうデータドリブンの流れというのはかなり決定的になっているかなという感じでございます。
 振り返りまして、大規模言語モデルなんですが、大規模言語モデルがなぜこんなにすごいのかというところを、もちろんトランスフォーマーのアーキテクチャの視点もあるんですが、ちょっと別のデータの質の点からいってみたいと思います。
 そもそも我々の言語活動というのがあるわけです。我々はそれぞれ人間が言語を生み出して、それを用いてコミュニケーションをしています。言語活動を通じて、世界を記述したり、他者とコミュニケーションを取ったりします。
 この言語というのは、面白いことに、まさに我々の脳というのは人並みの脳しか持っていないので、全ての言語を覚えているわけではないんですね。我々は分散的に知識を持っていて、誰一人として完全な知識を持っていない中で、コミュニケーションをして、その中で他者から発された言葉をまた学んで、こういうふうにすごく曖昧な言語システムが世界を覆い続けているわけです。
 これはこうやって人類史上ずっと動いていたんですが、20世紀末からインターネットが広まり、そして大規模なデータがネット上に蓄積できるようになったと。それがデジタル化されて、ある種操作可能になったというのが人類史上初めての出来事だったわけです。
 これを超えて、さらにそれを1つの巨大なニューラルネットワークに食わせるということですね。予測学習させるということができるようになったというのが、2024年、今、我々の現在の立ち位置、立っている場所だと思うんですけども、これに推論させると、プロンプトを入れて推論させるということで、かなりいろんなタスクができるということが明らかになってきました。
 そうすると、やっぱりトランスフォーマーがすごいのと同時に、すごいのは言語じゃないかと、人間たちがつくった言語じゃないかというふうな思いもしてくるわけです。
 ところが、我々、言語ができた後の話としての大規模言語モデルのすごさは分かったんですけども、この言語がなぜこうやってすごいのかと。そのもとには分布意味論と呼ばれる言語の意味と統合の関係における構造があったりするわけですけども、これがどういうふうにして形成されているのかが分からない。実は大規模言語モデル、いろんな質問をすると、本当によく世界のことを知っています。体を持ってないのにシンボルグラウンディングしているんじゃないかというぐらいに、いろんな色の相対関係の情報であるとか、地理的な情報であったりとか、持っています。それがどうしてなのかが分からないということがあるわけです。
 それ自身が、やはり私自身の研究史の中では、問題にしていた点そのものだったと今認識しています。
 記号創発ロボティクスというのを2010年代頃からやってきまして、委員に入っておられる尾形先生なんかとも一緒にCRESTのプロジェクトをやったりしていました。
 そこでは、人間の幼児が言語を獲得していくというふうな、個体の言語獲得の現象のみにとどまらず、社会においていかに言語を我々は形成していくのかというふうなことも問題にして、構成論的アプローチをとっていたわけです。
 マルチモーダル情報を使ったカテゴライゼーションであったり、語彙獲得なんていう話もやっていたんですが、その裏にあったのは、記号創発システムという描像です。
我々は、個体が、環境との相互作用をしながら、頭の中で概念形成をしたり、スキルの獲得とか、いろんなことをしていきます。その中で、ある種のインターナルプレゼンテーション、内的な表象系、内部表現があらわれてくるわけですが、こういうふうな知識に基づいて我々は言語をつくる、他者とコミュニケーションすると考えられます。
 ただし、他者とコミュニケーションをするときに、任意の記号を発しても相手に理解してもらえません。実は社会の中でそれが合意されていくというプロセスが必要でして、それが創発的に社会の中で立ち現れてくるわけです。
 これの言語体系に従う限りにおいて、我々はコミュニケーションをすることができるし、他者が何かを認知し、それを言葉で伝えて、それを我々が活用することができるということになっているわけです。
 こういうふうなものを言語進化の研究とかでやっているところあるんですけども、実は言語が生まれましたよ、ロボットがコミュニケーションをしていますよというだけでは、一体実は言語創発というのは何をやっているのかが分からないということがあったわけなんですね。それに対して、我々は現在、集合的予測符合化という、実は言語を我々はつくることで、それに参画するエージェントの予測性を集団として向上させているんじゃないかというふうな仮説を提案しています。言語もその延長線上にあるだろうと。
 ちょっと細かい話はスキップしたいところなんですけども、ポイントだけ言います。これはミニマムなモデルなんですけども、名づけゲームです。あるエージェントが、2人が、同じものを見て、もちろん視点が違うので画像は違うんですけども、それに対して名づけゲームをするということをします。これ、ある種の名づけゲーム、MH名づけゲーム、略さずに言うとMetropolis-Hastings名づけゲームと呼ばれるものをするんですが、直感的には普通に名づけ合って、相手の言っていることがちょっと気にくわへん、ちょっと違うんちゃうかと思ったら、それを信じないとか、そういうことをやるんです。さて、2人の脳をつないだとき、2人の認知、2つの画像情報があるんですが、この2つの情報を統合してマルチモーダルな表現学習をするというというのを考えることができます。実は、この名付けゲームをプレーして、その名前を決めていくことというのが、実は、これを統合させてマルチモーダルな表現学習をするというのをやったときのベイズ推論と数理的に等価になるということを示すことができました。
 この視点は結構新たな視点を我々に与えてくれて、我々は言語を生み出すことによって、まるで情報的に我々の脳と脳をつないだかのような世界の表現学習をする、ある種世界モデルをつくっていると言えます。
 大規模言語モデルが世界モデルを持っているんじゃないかなんていう話がよくナラティブとしてされるんですけども、実はそれは比喩ではなくて、本当にそうなのではないかということを最近思うわけです。
 これを私は集合的予測符合化(コレクティブプレディクティブコーディング)と名づけまして、実際に言語がそういうふうな仕組みでできるのかどうか、また、人間の社会においてどういうふうな、この効果はどういうふうな意味をもたらすのか、大規模言語モデルが世界を理解しているのはこの視点から説明できるのかみたいなことを現状推し進めているところであります。
 この視点は、我々の認知システムというものに対しても少し異なる地点をくれるかなあと思っています。よくシステム1、システム2というんですけども、人工知能の文脈では、これというのは個体の中の知能なんですね。知能を個体に還元している見方だと思います。
 ところが、我々は、コミュニケーションをして、お互いの間で社会的な規範をつくったりとか、言語をつくったりとか、集団としてコーディネートできるようなっている、また、集団として世界をうまく表現学習できるようになっていると思うわけです。
 人間のシステム1、システム2というのを超えて、こういうふうな社会において規範をつくっていったり、言語をつくっていく。これこそはやはり人間の知能特有のものなんじゃないかと考えているわけです。
 この視点から、改めまして、記号創発システムの三層モデルの絵を基に知能の立ち位置を整理しますと、まず我々、開かれた環境において身体システムでもって向き合っていると。実はこの時点でも結構知的でして、受動歩行機械であったりとかソフトロボティクスの分野であったりとかで理解されているように、賢い身体を持っています。CPUとかで難しい演算なくてもかなりうまく振る舞うことができ、こういうふうなレイヤーがあるだろうと思われます。
 そういうような身体の上で我々は速いダイナミクスで世界モデルみたいなものを回しており、その上で、熟考レベルのスローダイナミクスの言語モデルが動いていると考えられます。しかもこの言語モデルというのは個人の中に閉じた話かもしれないんですが、その外で、我々は話し合って意思決定したりとか、組織の中でルールを取決めをして適用していったり、まさにこの会議がそうかもしれないんですが、そういうさらに上のレイヤーがあります。これがより遅いダイナミクスとして、スーパースローダイナミクスなんて呼んでいますけども、こういうふうなレイヤーがあるんじゃないかと思っています。
 そういう意味では、現在システム1、システム2においては非常に進んでいる面はあるんですが、まさに上にシステム3とでも呼ぶべき上の領域とより身体に近いシステム0とでも呼ぶべき下の領域、こういうところがAIとしてもフロンティアなんじゃないかなと。そういうところにつながっていくのが大事なんじゃないかなと思うところです。
 ちょっと時間もオーバーぎみかもしれませんのでさくっと終わりたいんですが、そうして考えると、記号創発という考え方はより広いものも含意するなと最近考えております。例えば最近、文科省の戦略目標にもなった、自律駆動科学という話もあるんですが、AIが科学を代替するといっても、実は科学的な知見というのは、我々の社会がコミュニティーとしてため込んでいくわけで、そういうふうな全体像をモデル化できていないので、自律駆動科学というのはあくまでもパッチワーク的に研究者のやる作業を代替するということです。
 しかし、サイエンスの中では査読とかのプロセスを経てこういう知識の統合をやっていくわけで、まさにそういうふうに得られた知見をどう統合するのかというところも包含したモデリングをするのが大事ではないかと思ったりもします。
 我々の社会というのは、GPT-4なんかとのコミュニケーションなんかも存在しますし、これからのロボットなんかとコミュニケーションが存在していくと考えられ、まさに、こういうふうにシステム3に手を伸ばす中で動くAIというのは、不可避になりつつあります。
 その中にやはりいかにして混成したヘテロなシステム、この全体をうまく動かしていくかということが大事です。
 AIアラインメントという言葉があって、AIがおかしく動かないように人間が調教するような話があるんですが、どうあがいても逆方向の動きもありまして、どうしても人間がAIに影響されてしまうということは不可避にあるので、いかにこの共存系、共生系をうまくデザインしていくかということが重要なんじゃないかなと思います。
 提言的なところに使えるように、関連する研究課題リストをラストに載せておきました。
 すみません。ちょっと少しオーバーしてしまいましたが、私としては以上です。
ありがとうございます。
【辻井主査】  どうもありがとうございました。
 それでは、最後に鶴岡先生のほうからよろしくお願いします。
【鶴岡先生】  では、画面共有させていただきます。
 東京大学の鶴岡と申します。産総研のほうでAIを使って化学プラントの制御のようなタスクに取り組んでおりました関係で、今日はAIとシミュレーションといったところで最近の動向を御紹介させていただきます。
 問題設定としては、AIを使って何らかの動的なシステムをよりよい状態、あるいは何かのタスクを達成する、そういった設定を考えています。
 こういった設定は、ロボットですとか、自動運転ですとか、ドローン、あるいは空調、プラント、インフラ制御、いろんなところで出てくるかと思います。
 こういった問題に対して伝統的な制御理論的なアプローチはあるかと思いますが、最近は、モデル予測制御といって、有限時間先までの最適制御を繰り返すことで、ある基準で最適化した制御を実行していくといった方法がとられます。
 ただ、これは、制御対象のシステムの数理的なモデルが分かっているということが前提で、それを使って最適制御するということになります。なので、比較的シンプルなタスクに使われることになります。
 それに対して、どんなタスクでもやりましょうですとか、あるいはシステムが分かってない場合でもできるようにしましょうというので、強化学習というアプローチがありまして、その中でもシミュレーションに特に関係が深いのがモデルベース強化学習と呼ばれる方法で、これはインタラクションと同時に、システム、あるいはその世界のモデルをつくりながら、それをベースに試行錯誤をやっていくというアプローチになります。
 今、環境モデルと申し上げましたけれども、最近は世界モデルという言い方をされることも多いかと思います。これは一番簡単には、ある状態であるアクションをとったときに、その状態がどう変わるかといった確率モデルということになります。
 こういった世界モデルを明示的に使った強化学習の方式はどんどんと進歩はしているのですが、最近の成功例としては、DreamerV3と呼ばれるものがありまして、これは本当に完全に学習した世界モデルだけで、その中だけで方策を洗練させて、モデルベースではないアプローチよりも高効率で強化学習ができる、そんな手法になっています。
 これがいろんな世界モデル、モデルをつくるといった取組はいろんな分野に広がっておりまして、例えば自動運転に関しては、GAIA-1という、いわゆる生成的世界モデルというのがつくられていまして、これはたしかロンドン近郊ですかね、そこの数千時間分のデータから世界モデルをつくっていて、単に動画が生成されているというわけではなくて、アクションとしてハンドルを右に切ったらどうなるとか、あるいはここで雨が降っていますとか、そういったことをテキストで入れる、そういう条件づけをしたりして、それが画像に反映されるようなモデルになっています。
 なので、ある種、世界をシミュレーションしていこうと、そういったものに近い方向に進んでいます。
 ただ、普通、シミュレーションといった場合に、こういった世界モデルをそのまま画像を出すというものではなくて、普通は伝統的には実際の世界あるいはシステムの内部状態を数理的にモデリングして、それを数値的にシミュレーションします。偏微分方程式あるいは常微分方程式でモデリングして、それを積分でシミュレーションする、といったものが普通かと思います。
 そういったものはいろんな分野でありまして、ロボティクス、自動運転、プラント、いろいろあります。
 こういったシミュレーションと先ほどの世界モデルの大きな違いは、これは内部モデルがあるので、かなりリッチな情報を使ってシミュレーションができる。それによってハルシネーションとか、そういった問題が圧倒的に少ないということになります。
 シミュレーションはそういう意味で有効なので、そういったシミュレータを使ってエージェントを学習して、それを学習したモデルを現実世界にデプロイするといったアプローチがとられます。
 ただ、そのアプローチの大きな問題は、やはりシミュレーションと現実というのは違うので、どうしてもシミュレーションとリアリティーのギャップというものがあります。それによって、シミュレーションで学習したポリシーが現実世界ではうまくいかない。そういう性能低下ですとか、操作の失敗ということがかなり起きています。
 それに対する対策はいろいろ研究されておりまして、一番よく知られているものとしては、ドメインランダマイゼーションといって、例えばシミュレーションの段階で、いろんなパラメータを思い切り振って、それで学習してロバストにする。そういったアプローチがあります。この辺りも、どういうふうにパラメータを振るかといったところが研究されていたりします。
 あとは、システム同定。よりシミュレータを正確にするためのシステム同定だったり、あるいはランタイムにシステムを同定するですとか、ロバスト強化学習、そもそも強化学習の段階でロバストに学習するとか、それから転移学習、あるいはSim-to-realに頑健なモデルをつくるための知識蒸留とか、あるいはメタ学習、メタ強化学習など、いろいろあります。
 その中で、最近面白いアプローチとして、Human-in-the-loop correctionというのがあります。これはどのみちSim-to-real gapというのはなくすことはできないのだから、実際に現実にデプロイしたときに、そこを人間がサポートしてやって、オブザーブしてやって、何か変なことをした場合には、そこで介入して訂正をするといったものになっています。
 人間がどう訂正したかというのをデータとしてため込んで、それをある種、訂正のためのポリシーという形で学習していく。それをもともとのベースのシミュレーションで学習したポリシーと統合して、最終的にちゃんと現実で成功するようなポリシーをつくる、そんな形になっています。
 こういったものを含め、いろいろ対策が研究されて出てきております。
 あとは、シミュレータをそもそもどうやってつくるのかという問題がありまして、半自動的にデータからつくってしまいましょうといったアプローチも研究が進んでいます。
 これがその1つのUniversal Simulatorと呼ばれるもので、これはいろんな動画、それこそシミュレーションの中の動画とか、あとは現実の動画、人間が操作するいろんな動画とか、あとはアクション情報がついている動画とか、いろいろあるものから、ある種、先ほどの世界モデルの話とすごく近いですけれども、何をしたら、この場面でどういう行動をしたら何が起きるかということを、こうやって動画の形でプレディクションしてくれる。そういったモデルを、基本的に全自動で学習するようなものになっています。
 こういった画像を学習する、予測できる、そういったシミュレータというか、世界モデルは非常に有用ではあるものの、ただ、それはやっぱりどうしても限界があって、結局内部情報、内部状態に関するモデルは何も持っていないので、例えば物が物理的にどういう角度で存在しているとか、あるいは形状がどうだとか、あるいは軟らかさがどうだとか、そういったのがないので、結局、どうしてもハルシネーションみたいな、そういう問題はついて回ります。
 それに対して、本当に内部状態まで捉えるような、そういったシミュレータを全自動で学習しようといったアプローチの研究も始まっています。これはその1つで、複数視点のRGB-D動画から3次元のポイントクラウド表現で、ある種の物理シミュレータを学習するという方法です。
 これは複数カメラで、RGB-Dで撮っている、そういった状態を想定していて、そこから点群同士のインタラクションをグラフニューラルネットワークを使って、こういう状態から次はこういう状態になる、そういったある種の物理的な予測モデルをエンドトゥエンドで学習するようなモデルになっています。
 ですので、こういったある種シミュレータの内部状態も含めた、全自動あるいは半自動学習、そういったものがやっぱりこれからかなり進んでいくのかなと感じます。
 ただ、そこら辺はまだ本当に研究が始まったばかりで、内部状態のモデリングもまだまだですし、あと、やっぱり人間の専門的知識、微分方程式ですとか、そういったもの、数理的モデルとの統合というのもまだまだ始まったばかりではないかと思います。
 あと、もちろん、前者のSim-to-real transferに関しては、シミュレーションは、最近のNVIDIAの発表、オムニバースでもありましたけれども、シミュレータはどんどん精度、速度が向上していきますので、それを使って強化学習をして、現実にデプロイするというのはどんどんどんどん進んでいくかと思いますが、とはいえ、やっぱりリアリティーギャップというのは常に存在し続けるので、それに対する対策というのも今後の研究もさらに必要ではないかと思います。
 以上になります。
【辻井主査】  どうもありがとうございました。
 それでは、今の3件の御発表に関しまして、御意見とか質問、議論したいことがあれば挙手をして、よろしくお願いします。
【村上委員】  では、私からよろしいでしょうか。村上でございます。お三方の先生、御説明ありがとうございました。技術的な質問というよりは、お三方の話を聞いた感想なんですけれども、やはり一番最初のお話であった、トランスフォーマーはやり過ぎではないかという点は、ヒトの脳を模したところから始まったとはいえ、それを大量のデータと大量の労力でまず殴るようにやってみて、そして人間と同じものをつくれるかというところから、一旦それをどうやって効率的につくるかというところに私たちの研究のフェーズが移ってきたのかなというのをお聞きしていて思っていました。
 お三方の話って、実は結構根っこでつながっているのかなというのをすごく感じました。やっぱりヒトの脳のところというのが、1人の脳だけで成長するわけではない、他人とのインタラクションで成長するという点が、今私たちが持っているGPTのようなトランスフォーマーとは違うところです。私の記憶する20年前の機械学習って、ヒトと機械学習のハイブリッドというのが一番悪手をつくるという印象があったのですけど、それが、Human-in-the-loopできちんとフィードバックを与えることによってよりいい手に持っていけるというところに移ってきたのかなと思っています。
 結論があるわけではないのですけれども、人が介在する、より人の脳に近づくところで知能というものに近づくというところに私たちの研究のところのフォーカスが移ってきたのかなというのが、お三方の話を聞いていて思った感想ではありました。
 あと、この3回の議論、前の2回の議論で、日本の強みをどこに持っていくんだろうといったときに、日本って、一番最初の何かものを生み出すよりは、何か生み出されたもの、アイデアをすごく効率的にするとか、性能を向上させるとか、小型化するというところに今まで力を発揮していたというところを考えると、もしかしたらそこに日本の研究力というところが生かせるのかなというところを感じたところではあります。
 すいません、取り留めもない話ですが。
【辻井主査】  ほかに御質問とかありますでしょうか。
【尾形委員】  お三方、どうもありがとうございました。特に、最初の脳の話が少し気になっていて、まさに北澤先生の立場からすると、僕が期待したお話は、トランスフォーマーとは違うよねという点を、もっといろんな意味で仰るかなと思ったんですね。脳の中だと一番トランスフォーマーになくて特徴的なのはリカーシブな結合だと思っています。最近トランスフォーマーの次世代モデルであるMambaをはじめとして、リカレントネット的な構造の重要性ってもう1回再認識されつつあるというのがあって、ロボット屋さんから見ても、エッジで動かすのにあんなばかでかいメモリーでは動きっこないので、いかにメモリーの効率を上げていってということは重要だと思います。
 同時に脳って、リカーシブで構造化、インタラクションするみたいなことを考えると、時間や物理特性との相性というのも出てきて、最後の物理シミュレーションみたいな話等も実は構造的には、まさにそういう再帰的な構造って役に立つ。
 だから、脳から見ると、今のトランスフォーマー、エネルギー的にも駄目だけど、アーキテクチャ的にも次が必要だよねというようなお言葉をぜひさらに北澤先生から聞きたいんですけど、どうでしょう。
【北澤先生】  尾形先生、ありがとうございます。まさにそのとおりだと思います。脳の中はリカーシブなので、要するにトラック競技のトラックをいろんな情報がぐるぐる回っていて、信号の順番がめちゃくちゃになるようなところでうまくやっちゃっているわけですよね。ロング・ショートタームメモリーにしても、それをうまくやろうと思ってリカーシブでやろうとしたわけだけど、でも、そんなことしないで、パーンと横に広げちゃって、暴力的に処理できるようにしたからこそ今のAIの成功があります。脳がループだから、脳のまねをすればいいかというと、何で脳がループでうまくいっているかということが、いまいち生理学だと判明していない。細胞がお互いにどうつながり合っているかというのがよく分からないところで、盲、ゾウをなでるみたいなことをやっているので、脳研究を進めたからといって何でループでうまくいくのかというところが分からないというのが僕の直感的な印象で、それよりも、今成功しているトランスフォーマーの横方向のアテンションですね、横方向につないで成功したわけですが、それが脳の中のループのどこに対応するのかというような比較研究が可能なんじゃないかという視点を重視しています。そこをきちんと言語化してスライドにできてないんですけど、こんなにうまくいっているトランスフォーマーがあるんだったら、どこが、どう脳のループ構造の中に埋め込まれているのか、いないのかというところ、それが大事ではないでしょうか。
 トランスフォーマーは一方向で構成されているので、信号の追跡が楽なんですよね。ネットワーク的には最上層のクラストークンのところがネットワークの中心というふうになったとして、脳のネットワークの中心というのは楔前部というところにあるんですけれども、そことの対応関係を、サルの電気生理で、画像をエンコーディングしたトランスフォーマーの最上層との情報表現の比較みたいなことを今やろうとしているんですけど、そんなところから、なぜ脳はループでうまくいくのかを明らかにしたい。そのループのエッセンスを広げることでうまく人間が使える技術にしたのがトランスフォーマーだと思うので、先生のおっしゃる、脳から学び得ることというのは、なぜループで脳がうまくいっているのかということもトランスフォーマーとの比較の中から出てくるんじゃないかというのが、ちょっと長い返答になりましたが、私の考えでございます。
 以上です。
【尾形委員】  最近、リカレント的な、トランスフォーマーに負けないモデルも出始めているので、本当に変わり得るかどうかは議論がまだあるんですけど、ちょっと興味を持って見ていまして、もう1回そういう意味で脳のところに来るかなあなんていうことはちょっと思っています。
【北澤先生】  結構多層のパーセプトロンの学習の後、MITのジョーダンとかがリカレントネットを80年代もやっていたんですよね。リカレントネットで運動制御をやるというのをやっていたんだけど、やっぱり難しかったんですよね。甘利先生の講義を聞いても、リカレントしていると、情報の独立性が保たれない。非独立ですから、ぐるぐる回るため、対数の法則が使えないので、非常に数学的には難しいんだということを講義でおっしゃっていました。とにかく複雑で難しいんですよね、組合せ爆発があると。
 最新のリカレントネットが何をどうやって成功しているのかというところを学ばせていただきたいと思います。やっぱりそこを追求することで小型化ということもできるようになると思いますので。
【尾形委員】  ぜひ。
【北澤先生】  ヒトの脳がそれを何だかうまくやっちゃっているわけで、ヒトの脳の中にその答えがきっとあるとは思いますが、ただやみくもに生理学者が針を刺してもうまくいかないので、うまくいっているモデルとの比較で考えていきたいと思います。どうもありがとうございました。
【尾形委員】  最後に一言。僕のロボットは全部リカレントで動いています。
【北澤先生】  失礼しました。
【尾形委員】  大丈夫です、大丈夫です。
【北澤先生】  論文読ませていただきます。どうもありがとうございました。
【辻井主査】  北澤先生の話で、どちらかというと視覚系の話というのが主な議論にはなっていたと思うんですけど、言語という話になっちゃうと、そういうモジュラリティみたいなものはあまりなくて、谷口先生がおっしゃっていたような社会的なもののコミュニケーションとしての役割とか、脳の中でも、前頭葉でかなり処理されちゃっていて、あまり強いアーキテクチャが仮定できないんじゃないかという議論はあると思うんですよね。
 だから、ビジョンのほうの脳の議論というのと、社会的シンボルとしての言語、しかも大規模言語を取り扱うための脳という話というのがかなり食い違っているんじゃないかという気がするんですけど、北澤先生の議論というのは、脳とか、社会におけるシンボルとか、そういう話になったときに、どこまで拡張できるのかなという気がしました。
【北澤先生】  お答えさせていただきます。谷口先生のお話の中で、身体レベルとワールドレベルとそれから言語レベルと3つの階層が区別されていたんですが、私の今日のお話はワールドレベルの話になっています。
 ワールドレベルに関して、100万枚の画像のラベルを正解が出るようにトランスフォーマーに詰め込み教育しても、ヒトとは全く違うアテンションが獲得されてしまうんですね。それに対して自律学習法、要するに世界から得られる情報量を最大化するという自律学習をするだけで、非常にヒトのアテンションに似ます。
 もう一つ面白いのが、トランスフォーマーのクラストークンの最上層のところに一番高次の世界の情報表現が来るわけですけど、100万枚の画像を、384次元空間を自律学習した後でばらまくと、クラスターができるんですよ。クラスターをよくよく見ると、お猿さんのクラスター、犬のクラスターとか、とにかく名詞のラベルがすぐ貼れる状態になるんです。要するに、生後発達の過程で自律学習、情報量最大化学習をするだけで、情報表現がワールドレベルで、ラベルつけてくださいという状態になるので、先ほどの谷口先生がおっしゃった「ゲームを個体同士でやったときに、お互いに対応するクラスターあるので、ラベルがすぐ貼れて名詞が出てくる」というのは、私のいう名詞の発生というところなんですね。
 私の話は、今日は、ワールドレベルのところで収まっちゃっているんですけど、もう1個上の社会でラベル貼るというところに行けば、まさに社会的な言語発生のモデル、谷口先生のモデルにつながっていくものと考えております。
 お答えになりましたでしょうか。
【辻井主査】  森川先生のほうも手が挙がっていますので、森川先生、よろしくお願いします。
【森川委員】  ありがとうございます。3人の先生方、ありがとうございました。東大の森川です。
 鶴岡先生、近くにいるんですけど、せっかくなので、鶴岡先生への質問です。シミュレーションはすごく重要かなと思っていまして、やっぱり日本の強みにもなると僕は思っています。これだけ1兆円クラブの会社のある国ってあんまりないので、至るところ、全ての産業セグメントでシミュレーションというのが多分必要になってくるところと思います。だから、この分野、先生が御指摘の分野ってやっぱり盛り上げていかないといけないかなと思っているんですが、それに向けてのハードルについてお聞かせください。一番分かりやすく考えると、やっぱりデータが必要だというのは頭にあると思うんですけど、それ以外にも、相手方とこちら側というのがあるじゃないですか。やっぱりこちら側だけではできないわけで、やっぱり相手側、現場分かっている人と一緒にやらないといけない。そういうハードルというんですかね、こういうのがもっとうまくいったらいいよねとか、その辺りのこと、何かをお考えがあれば教えていただきたいなと思いました。よろしくお願いいたします。
【鶴岡先生】  ありがとうございます。いろいろハードルはあると思います。相手側とこちら側という意味で、現場のデータを出していただけるところに至るまでには相当信頼関係ができてからでないとデータを頂けないというのは非常に大きいと思います。
 あとは、データが頂けたとしても、その先、今度モデルをつくるためのハードウエアの壁というのもある。計算パワーの壁というのもあります。先ほど自動運転のワールドモデルありましたけれども、あれで数千時間のデータで、たしか64台のNVIDIA A100で2週間とか、何かそんな感じだったと思うので、確かに大きな企業であればもちろん確保できる計算パワーではありますけど、もっとスケールさせようと思うと、そこでその10倍、100倍の計算パワーが必要になるということもあると思います。
 でも、とはいえ、日本の強みとしては、データが潜在的にはかなりいろんな領域で存在するというのもありますので、そこを有効活用していくというのは非常に大事なことではないかと思います。
【辻井主査】  どうもありがとうございます。
【森川委員】  ありがとうございます。
【辻井主査】  谷口さんの話と鶴岡さんの話を聞いていると、今のAIの外にあるものとして、記号系の話と、それからまたシミュレーションのような話があるわけですよね。だから、世界モデルと言いながら、かなり違った性質の話をしていると思うんですね。鶴岡さんのほうは、実時間的にもかなり変化するし、物理的な実態が捉えられてないという意味での世界モデルが必要なんじゃないかという話で、谷口さんのほうは、もう少し広い、言語的なものでも、世界知識としてのコミュニケーションを支える記号系としての世界モデルとか、システム3ということが言われていると思いました。世界モデルと言ったときに、かなり違ったことが2つの話の中で出てきているなあという感じがするんですけど、その辺りはどういうふうに感じておられますか。
 特に谷口さんのほうは、世界モデルが記号的なものでできるというんだけど、それほどスタティックで基盤的なものがバンとできるのか、人によって記号系というのはかなり違うし、価値観も違うし、細かい情報に入るとかなり違っちゃっているわけですよね。そういう意味ではシステム3と言っている部分がそれほど安定的にできるようなものなのかというのが気になって聞いていました。
【谷口先生】  私のほうからよろしいでしょうか。ありがとうございます。世界モデルと言ったときに多分一番AI分野でアグリーされているのは、今鶴岡先生がおっしゃっていた世界モデルのワールドモデルだと思うんですね。それはどちらかというと世界モデルって、ちょっとミスリーディングな言葉の使い方のところが正直なとこあって、世界モデルというと、すごく客観的な世界を思い浮かべるんですけども、世界モデルがやっているのは実際には主観的な世界、ロボットやエージェントの見る世界ですよね。そこのダイナミクスを表現するのが世界モデルになっているということだと思います。
 コントロールのレイヤーはそうなんですけども、その上に言語モデルが上に乗っかって、それがプランニングをしていくみたいな構造にロボティクス側はなってきてところがあります。一方、私が申し上げていた言語の世界モデル性というのは、それはむしろ大規模言語モデルの議論の中で、若干下のレイヤーのワールドモデルの議論に乗っかるような形で、ランゲージモデルはワールドモデルなんだという、ワールドモデルという言葉、キャッチーだから言われているようなところが若干あるんですが、でも実際にそこで語られる場合は、むしろ客観的な意味でのワールドの知識を、世界の知識を持っているみたいな意味で使われることが多いです。
 私のモデルの議論からいくと、それはあんまりウソではなくて、実は言語というのは、みんながワールドモデルを持ってやっているんですが、それのある種のみんなが共有するprior、事前分布みたいな形で形成されていくものが言語なんじゃないかというのか、そういう意味でのワールドモデル、言語はワールドモデルたり得るんじゃないかというのが私の今語っている理論です。それがスタティックかどうかということについては、言語というのはやはりダイナミックなので、ダイナミクスは遅いですが、やはり言語というのは変わっていくものです。もちろんソシュール以降、言語というのはスタティックに共時態として切って、そのスタティックなものを分析しましょうというところが言語学の議論の前提になりやすいところではあるんですが、逆にシステム3というのは、ある程度ダイナミックであり、そのダイナミックさこそが研究されるべきじゃないかなと思っています。
【辻井主査】  どうもありがとうございます。ほかに何か。
【相澤委員】  大変面白いお話ありがとうございました。最後の鶴岡先生の話を言語の立場から聞いていて共通点として感じたことがありました。シミュレータは本当に重要で、汎用実世界シミュレータという基盤モデル的な考え方でシミュレータを構築することは価値が高い方向性だと思います。あわせて、ここで言っている実世界って多分サブセットで、全ての実世界を対象にすることはできないので、汎用という場合にも、実際にはある種規定された世界の中でギャップを埋めようとしていると思うんですよね。
 そうすると、我が家なんかはルンバのために家具を変えているんですけれども、やはり実世界のほうもシミュレーションで予測可能になるような調整が働くように多分影響を受けていて、そのような調和の中に競争力が生まれる可能性がある、つまり、データをいっぱいそろえて、いい環境、いいモデルをつくって、そのようなデザインされた実世界を整備していくというところで、強みを生かした競争力が出てくるのかなと思いました。言語の世界でもやっぱり言語資源の多い少ないで汎用モデルにおける差は生まれているので、汎用という中でも、データの多い少ないでモデルから環境へのフィードバックに差が生まれてくるという世界になっていくのかなと思いました。
【鶴岡先生】  シミュレーション、確かにユニバーサルシミュレータといっても、やはりサブセットですし、しかも、結局、画像的な表層的な部分でのシミュレーションしかできてないわけですよね。それを内部まで踏み込んできちんと本質的にモデル化しようとすると、どうしてもモデル化しやすい人間の知識として数理的モデルとかなり親和性が高い実態でないと、やっぱりそもそも半自動シミュレーション、シミュレータ作成もなかなかうまくいかないことになるかと思いますので、やはり現実側が合わせるというようなことはあり得るのではないかなと思います。ありがとうございます。
【辻井主査】  今の議論を聞いていると、例えばOpenAIの人たちが言っているようなLLMというのは汎用知能ですよって言うわけですよね。それに対して、シミュレータとか何とかを使う立場からすると、かなり特殊な、ある切り取られた世界の中でやっていくという話になってくると思うんですけど、そういう汎用的な知能と少し特殊化した知能のすり合わせというんですか、そういう部分はどういうふうに考えたらいいんですか。例えば、シミュレータを作っている立場からしても、今の汎用AIというのは役に立つのか、あるいは汎用AIのほうももう少し特殊化してある特定の分野に注入したほうがいいのかとか、そういうことの議論になってくるんじゃないかという気がしていたんですけど、どうですか。
【鶴岡先生】  いわゆる汎用AIというか、LLMをベースにしたある種のエージェントみたいな、何かそういう流れも一方ではあって、そうすると、エージェント側の立場からいうと、シミュレータというのは、ある種特化したAIであり、賢い予測モデルであり、ツールとしてそういうものが存在していて、LLMエージェントのような、そのツールはこういうことができるということが、ある種のそこのディスクリプションがきちんとできれば、汎用LLM、AI側からそういったツールを適材適所で活用できるということになるかと思いますので、そういう形である種の統合といいますか。
【辻井主査】  そういう意味では、特化したようなAIをつなぐものとして汎用AIがあるんじゃないかという、そういう感じですか。
【鶴岡先生】  という在り方は1つの方向かなと。
【辻井主査】  分かりました。少しまだ議論は尽きないと思うんですけど、これまでと同じように、今回の発表に関して御質問とかコメントがあれば、また事務局のほうにメールで出していただいて、議論を続けていければと思います。
 今回は、資料4に関して、今までの議論をまとめていくことに関する議論を少ししたいと思っているんですが、事務局のほうから資料4について概要ご説明いただけますか。
【植田補佐】  ありがとうございます。事務局でございます。
 資料4に基づきまして、本検討会の審議のまとめ案について御説明させていただければと思います。この後の意見交換の時間をできるだけ長く取りたいと思いますので、全て読み上げることはせず、要点を絞って御説明させていただければと思います。
 本書は全部で3章の構成となっておりまして、第1章では本検討会の設置の背景について記載をさせていただいております。
 こちらに記載しております情報科学技術については、Society5.0の実現や、様々な分野の科学研究の発展の重要な要素と考えられますので、こうした状況も踏まえまして、本検討会において、情報科学技術分野における戦略的に重要な研究開発領域等についてこれまで御審議をいただきまして、本日取りまとめに向けた議論をいただく運びとなっております。
  なお、情報科学技術の急速な技術革新に鑑みますと、内容は今後も随時見直すことが適当ではないかという旨を最後に記載させていただいております。
 第2章では、これまでにいただいた御意見について幾つかのカテゴリーに分けて記載をさせていただいております。
 初めに、CRDS様のほうから御発表いただいた情報科学技術分野における7区分の図をつけさせていただいておりますけれども、これらは相互に連携しながら多様な課題解決に資するものと考えられます。
 特にこの中でも左上に記載されていますAI技術については、近年加速度的に発展しており、また、社会インフラや産業などにも大きな影響を与えているという一方で、幾つかの課題もまだ挙げられているような状況と理解しております。
 こうした状況を踏まえまして、本検討会におきましては、AI技術を中心にこれまで動向等について御意見をいただきまして、挙げられた研究動向等について2章の下のほうで整理をさせていただいております。
 なお、記載上、各分類に分けて記載をさせていただいておりますけれども、研究開発は必ずしも各分類に基づいて進められるものではなく、融合的な取組も非常に重要であると思っております。
 
 また、既に取組が進められているものもございまして、政策判断に当たっては、周辺状況も踏まえながら検討することが適当と記載させていただいております。
 
 ここから具体的な動向について記載させていただいておりまして、大きく3つの中分類に分けて記載させいただいております。
 1つ目がaの「生成AI等に対して指摘されている様々な技術的課題に関する研究開発」ということで、中でも①から⑤の5つの小分類を設けております。
 ①につきましては、「環境認識、身体性の欠如を埋めるための研究開発」とタイトルつけさせていただきまして、実世界データを扱うためには、能動的な情報取得ですとか自律的な学習技術、不完全な情報から行動決定を可能とするような技術が求められているという御意見、記載させていただいております。
 また、環境を認識するためのコンピュータビジョンやマルチモーダル情報処理等の技術ですとか、認知発達の観点からのアプローチなども重要との御指摘いただいておりましたので、こちらに記載しております。
 ②番の「変化する環境への適応に関する研究開発」としては、順次変化する環境に対応できるモデル構築技術や、少ない仮定の下、システムを効率よく適応させる学習理論などについて御意見をいただいておりました。
 あわせまして、本日鶴岡先生からもお話ございましたけれども、実世界のシミュレーション技術が産業競争力につながると考えられますので、高度化が求められているという御指摘もございました。
 
 ③番は、「メカニズムを理論的に解明し現実に近づけるための研究開発」としておりまして、基盤モデルの内部構造を理論的に理解する取組が重要であることですとか、理論と現実との乖離を埋めるような融合研究のアプローチが求められている旨の御意見がございました。
 ④番の「資源効率向上・環境負荷軽減に関する研究開発」に関しましては、計算量の増大に伴う消費電力、環境負荷の増大に対しまして、計算の効率化ですとか、量子化、モデル効率化技術、また、少数データで効率的に適応させる技術などがこれまで挙げられておりました。
 また本日北澤先生からお話をいただきました脳の効率的なエネルギー代謝等の知見をAI開発へ活用するようなお話も頂戴しておりました。
 最後の⑤につきましては、様々進められている学習精度の向上に向けた研究開発と、モデル構築後、外部変化に対応させるために個別に対応するような機能を外づけで実装するような技術についても御指摘をいただいておりました。
 中分類の2つ目につきましては、bの「社会の中に混在・共生する、様々な機能を持ったAIの管理・連携」とさせていただいておりまして、その中では2つの小分類に分けて記載をしております。
 ①のほう、「モデルの統合と循環進化を実現する研究開発」としておりますけれども、企業等が保有されているデータを安全かつ効率的に活用するために、性質の異なる小さなモデルを統合し、性能の高いモデルを構築するヘテロジーニアスな分散学習技術ですとか、複数のドメインデータをパフォーマンスを維持したまま融合させるような技術などについて先生方から御紹介をいただきました。
 また、エッジ側のモデルの差分を上位モデルに集約して全体最適化や進化を繰り返すような循環学習技術の開発及びそれに伴う品質保証技術についても、こちらに併せて記載させていただいております。
 加えて、個別化された多数のAIとユーザー同士が相互作用しながら時間発展する社会というものを想定し、安全性や公平な意思決定等が保証できる研究についても御意見をいただいておりました。
 ②番につきましては、「意味を理解し、人間との協働が可能なAI」と記載させていただいておりますけれども、多数のAI、ロボット、人間が協働する社会を見据え、アラインメント等の観点からも、人のパートナーとして望ましいAIを検討するとともに、価値観や世界感を人と共有し共進化するAI技術を実現することが重要である旨、御指摘をいただいておりました。
 特に、現在の大規模言語モデルにおいて、文脈や倫理感の理解に課題があるとされており、意味を理解・推論する技術ですとか、世界の知識を実世界から取り込む方法などが求められているのではないかという御意見をいただいておりました。
 本日、谷口先生のほうから集団的に行われる予測符合化についても御発表いただきましたのを、前もってこちらに記載させていただいております。
 
 中分類の最後は、cの「様々な研究開発分野を変革するためのAI技術」ということで、こちらも、AI for Scienceを含め、5つの小分類に分けて記載させていただいております。
 ①では、AI for Scienceの取組が様々進められている中、現状のAIにおいては、専門性の高い領域ですとか、新たな知識の獲得に関する課題があると言われています。
 また、現状AIが保有している知識をAI自身や人間が理解することが難しいという状況がある中で、AIが立てた仮設を人間が理解できるような検証方法が必要ではないかという御指摘をいただいておりました。
 ②から④につきましては、検討会において具体的にお話をいただいたロボティクスや通信、半導体との連携についてそれぞれ記載をさせていただいております。
 日本が強みを有するとされるロボティクス分野については、より大量なマルチモーダルデータを学習したロボット基盤モデルの構築ですとか、行動計画・動作生成を柔軟かつ堅牢に行うための技術が期待されているとともに、言葉にできない動作イメージなどについて、人の発達過程を取り入れた学習の工夫などが必要ではないかという御意見をいただいておりました。
 その下、③番の経済や生活を支える通信につきましては、人口や要求条件の変化に伴い、その内容を見直すべきタイミングに来ているとともに、通信技術の高度化により、通信遅延や端末・場所等の制約が減ることで、端末、エッジ、クラウドでの機能分担を再考する必要があるのではないかとの御指摘をいただいておりました。
 また、エッジ側の計算資源を分散コンピューティングやデジタルツインなどに活用する取組ですとか、XG for AIとしての新たなアーキテクチャなどについても御意見をいただいておりました。
 国際的にも重要な半導体につきましては、今後、素材開発や自動設計、シミュレーションにAIを活用することが期待されている旨、また、ハードウエアを意識したAIのアルゴリズムや特定のアプリケーションを意識したチップデザインの設計など分野融合の取組についても重要である旨、御指摘がございました。
 最後に⑤「その他」として、データサイエンスや高性能計算など、AIを支える周辺技術についても投資するタイミングである旨、御指摘をいただいておりました。
 第3章につきましては、これまでにいただいた御意見を踏まえまして、戦略的に重要と思われる研究開発領域についてまとめております。
 一部繰り返しにはなりますけれども、情報科学技術分野は、Society 5.0を実現するための鍵となる重要な技術であり、長期的な視野を持って必要な研究開発を基礎研究の段階から進める必要があるのではないか。特にAI分野は、様々な課題を抱えつつも、近年加速度的に発展・波及しており、戦略的に取り組むべき重要な分野ではないかと記載をさせていただいており、そういった背景も踏まえまして、次のページのほうで大きく2つに分けてまとめの案を記載させていただいております。
 1つ目は、「変化する実世界環境に効率よく適応するための研究開発」と題し、生成AIが高い汎用性や応答性を有する一方で、実世界への対応には課題があるとされていることから、変化する実世界に対応できるようなAI技術の実現が世界的にも注目されているのではないかと思われる点を記載しております。
 同時に、理論的な研究と実践的な研究の乖離が指摘されており、双方を融合して研究を推進していくことが重要と考えられます。
 そのような中で、変化する実世界環境に効率よく適用できるモデル構築技術や、それを可能とする周辺技術の研究開発が必要であるとともに、特に限られた情報からAIが答えを導き出すため、AI自身が能動的・自律的に学習するデータを選別・取得する技術ですとか、不完全な情報からも効率よく学習する技術が重要であるほか、身体性や人の認知発達を考慮したアプローチも重要である旨記載させていただいております。
 2つ目は、「多様なAIと人が共生・協働する社会に向けた研究開発」と題しまして、多様なAIが人やAIと相互作用する社会が到来することを見据えますと、そのインタラクションを通じて説明可能性や公平な意思決定を担保しつつ、創出される答えを全体として最適化する技術ですとか、それに伴う品質保証技術などの研究開発が重要であると考えられます。
 インタラクションを通じて人とAIがともに成長したり、価値観や世界感を共有するなど、人と協働できるAIの実現に向けては、文字列ではなく、意味を理解し推論できる技術ですとか、アラインメントなどの研究開発が重要であると記載させていただいております。
 これらの研究開発を進めるに当たっては、AI関連のリスクへの対応ですとか、研究開発環境、研究人材の確保など、AIを支える周辺環境にも配慮が必要である旨の御指摘をいただいておりましたので、下のほうに記載させていただいております。
 AI関連のリスクにつきましては、ハルシネーションや悪用のリスクが深刻化する中、説明性や可制御性とのバランスが取れた性能向上が求められており、例としてモデルの可視化等の取組を御紹介いただきました。
 また、動作パターンを想定した品質管理ですとか、オーナーによるリスクの回避が難しくなっている中で、開発時から利用時までを含めた総合的な取組が必要である旨御指摘をいただいておりました。
 その他、人が理解できる形でチューニングする方法や、既存のウェブ情報等と協調動作させる方法についても今後の重要課題であると御意見をいただきました。
 最後に、説明性とは別に社会受容性の問題もあり、人の心理や行動等を考慮した評価・対策が求められていると御意見いただきましたので、併せて記載させていただいております。
 もう一つの研究開発環境・人材育成につきましては、基礎研究については、幅広く支援し、トライアンドエラーを繰り返しながらステップアップすることが望ましいとともに、社会実装を視野に企業様等と連携した取組を並行して進めるのがよいのではないかという御意見がございました。
 人材育成に当たっては、ほかの施策とも連携しながら進めるべきではありますけれども、特に国際的に活躍されている研究者の存在は、海外研究人材の呼び込みに有効と考えられることから、こういった方に集中投資するということも選択肢として考えるべきという御指摘をいただいておりました。
 最後に、日本の高校生・大学生が、正解のある問題を素早く解く能力については競争力を有している一方で、そういった方々を正解が決まっていない問題や新原理を発見するような高度研究人材を育てていくような仕組みを強化するべきであるという御意見もいただいておりました。
 駆け足での御説明となりましたが、以上となります。どうぞよろしくお願いいたします。
【辻井主査】  どうもありがとうございます。この資料4というのがこれからまとめていくときの1つのドラフトになっていまして、これを肉づけしたり、足らない部分は書き込むとか、この辺はまずいんじゃないかとか、そういうのがあれば書き直していくということになります。今の事務局の発表を聞いておられて、すぐにコメントというのも難しいかもしれませんけど、何か御意見ございますか。
【国分参事官】  1点、私のほうから補足だけさせていただきます。この資料の今後、使われ方についてですが、まず、「2. 情報科学技術分野において注目すべき研究動向等について」のところでは皆様からいただいた御意見を、網羅的にといいますか、整理するという作業をしております。「3. 情報科学技術分野において戦略的に重要な研究開発領域等について」のところでは、短中期的といいますか、文部科学省の施策として反映していく、生かしていくためにはどういったまとめ方ができるかという観点でまとめさせていただいています。
 この審議のまとめ自体は、今日セットするのではなく、今日も含めていただいた議論、それから、今日の会議後いただいた御意見も踏まえて、メール等でやり取りさせていただいて、最終的には主査一任という形でまとめさせていただきたいと思っております。その後、7月頃の次回情報委員会のほうに報告という形でさせていただくことをもって、この審議のまとめのセットとさせていただきたいと思います。
 この文書自体は文部科学省の中でこれからの政策立案の中で使わせていただきたいと思っておりますので、そういった観点からいろいろ御意見、御指摘いただけるとありがたいと思っています。
 以上です。
【辻井主査】  文科省の意向としては、これを1回つくって、来年度以降も改定していくということでしょうか。
【国分参事官】  「1. はじめに」の一番下にも書いてあるんですけれども、これだけ流れの速い技術分野ですので、半年とか1年もすると時代にそぐわなくなる可能性もあるので、必要に応じ時期を見計らってまたアップデートしていくということを考えております。
【辻井主査】  そういう意味では、2章で大体問題意識をまとめており、AIの中身の話と、AIを統合していくとか、人との関係がどうなるかとかいうような話、それから、AIと業界分野といいますか、ロボティクスの関係、半導体の関係等々の融合領域のようなものが、全部で3つの柱に整理されて書かれているわけですよね。
 3章の部分では、基本的にこういう方向で重要な問題がありますよというのでまとめていただいていまして、それが変化する実世界環境に効率よく適応するための研究開発というのが1つと、それから、今度は協働とか共生とかいう意味の多様なAIと共生していくような社会をつくるための研究開発、それからAIのリスク、それから4つ目に人材育成、そういう柱になっているんですね。
 そこで、今ここまで議論していただいた内容が入っているかどうかとか、ここの書きぶりおかしいんじゃないのとか、そういうことがあれば議論していきたいと思うんですけど、いかがでしょう。
 例えば、変化する実世界云々というのは、尾形先生とか、相澤先生とか、原先生とか、荒瀬さんとか、何か意見がありますか。
【相澤委員】  些細なことかもしれませんが、「変化する」とタイトルについているところまで必要かな、ということはちょっと考えながら眺めておりました。
 というのは、実世界環境はもともと変化していて、変化する実世界環境と書いてあると、モデルがじっとしていて、取り巻く環境のほうが変化しているというイメージもなきにしもあらずで、環境の中にあるAI自身が能動的・自律的に学習する、データを選別するという色彩がやや薄れる印象があります。2つの要素があるので、タイトルでは「変化する」はなくてもいいのではないかなと思いました。
【辻井主査】  いかがでしょう。何か読んでみて気がつくようなことありますか。
【原(隆)委員】  原です。8ページの「AIリスクへの対応」の項目なんですけど、これからどんどん加筆とかしていくのであれなんですが、ここに書いてある内容が、説明性と社会受容性ってすごく重要なことが書いてあるんですが、AI自体の動作の信頼性など、リスクに関してはまだいろいろなリスクがあるのではないでしょうか。AI自体の動作の説明性とか、正しく動いていたとしても、社会受容性だとか説明性が担保されていたとしてもというのは前回、私の発表とあと質疑応答でも発言させていただいたんですけども、リスクに関してはもっといろんなリスクもあるので、ここも少し多様な議論が、いわゆるAIリスクという一般的なところも含まれる形にしたほうがいいのかなとは、タイトルと中身の整合性からはそういうふうに感じました。
【辻井主査】  リスクに関しては、もっとたくさんのことがあるんじゃないかというご指摘でしょうか。
【原(隆)委員】  そうですね。いわゆるAIのリスクって、皆さん、AIが誤った答えを返すんじゃないかとか、AIが社会の悪いところを顕著にしていったりとか、分断を起こしたりとか、雇用の問題とかみたいな感じのいろんな観点でいろいろ議論されていると思います。ここで書かれているのはむしろ、この内容であれば説明性と社会受容性ぐらいな感じでいいのかなと感じたので、リスクというのであれば、もう少し広く考えて、この内容ぐらいの感じでとどめるのであれば、タイトルを見直すのが良いかと思います。ここのリスクへの対応というのは、ごく一部のところだけが書かれているかなと感じました。
【村上委員】  私からも、「AIリスクへの対応」という、このタイトルに私は少し違和感があって、逆に、これって研究をするためにAIリスクへ対応するという考え方に聞こえるんですね。後ろの人材とか環境というところと並列に書かれているので。今、原先生おっしゃっているのは、そのこと自体が、まさに多様なAIとか、協働する社会に向けた研究そのものになっていくのではないかなと。
 そう考えるときに、ここで書かれている説明性・可制御性というところだけではなくて、もっと広いリスクのところが、研究そのものの中心になっていくところ、中心というか、コアにもなり得るところなのかなと思っております。
 研究をするためのリスクへの対応という話とAIリスクそのものが研究の対象となるものというのはちょっと分けて考えたほうがいいかなというのは思ったのですけど、原先生、その辺りいかがでしょうか。
【原(隆)委員】  今おっしゃっていたようなところだと思います。いわゆる一般的にAIリスクといったところでイメージするものと、ここはAIリスクに対応するための1つの重要な研究の要素として、説明性であったりとか、社会受容性を考慮したというところは重要かと思うんですけど、このタイトルにするのであれば、もう少し広く議論した上で、その中でこういう研究が必要であるという書きっぷりのほうがいいのかなと感じました。
【辻井主査】  ほかに御意見ありますか。
【荒瀬委員】  すいません。さっき言いかけたんですけど、変化する実世界環境にというところの「理論と実践が乖離している」というのが、そうなのかなという気がしていて、割とAI分野って近いんじゃないかなという気がします。両方からアプローチするのはすごい大事で、融合していったらいいと思うんですけど、問題として指摘されるほど乖離しているのか、個人的には違和感がありました。
 もう一つ、研究開発環境のところで、米国にはほにゃほにゃというのがあって、社会実装を視野に企業と連携した取組を研究と並行して進めることが望ましいとされているんですけど、ここまで言い切られるちょっと厳しい場面があるんじゃないかなという気がしています。本当に応用に近いところは連携したらいいと思うんですけど、そうじゃないところは、こつこつと基礎的なところを進めていけるような、ふんわりした書きぶりになっていると、良いかと思いました。
【村上委員】  今日の話にもあった、80年代の研究というのが今のトランスフォーマーの礎になっているというところがあり、基礎研究をきちんと温めていかないと、全く基礎研究が出てこない国になってしまうのではないかというのはすごく私も心配しています。AIは実務的に使えるので、すぐ企業って、私も企業の立場もあるので何とも言い難いのですけど、飛びつきがちなのですけれども、あした役に立たない研究という言い方は悪いですけど、あした役に立つかどうか分からないものでもしっかり投資していかないと、10年後、20年後の研究の礎にはならないんじゃないかなというのはすごく思っているところです。文科省にはぜひそこも視野に入れた研究のサポートをしていただきたいなというのが私の希望でもあります。
【辻井主査】  この辺りは、森川先生も、なるべくたくさんのことをやらせたほうがいいんじゃないかという議論が1つと、もう少し産業界と学術界が協力しないと駄目なんじゃないかという、2つ違った話をされていたような印象があったんですけど、森川先生のほうから何かコメントありますか。
【森川委員】  森川です。ありがとうございます。その2つはやっぱり分けて考えるべきかなと思っていて、社会実装とかいう言葉を簡単に使っちゃっている印象があります。本当に社会実装やるんだとしたら、やっぱりそれなりにリソースを、今までとは違った形でリソース配分しないといけないのかなと。
 一方、やっぱり文科省ですから、あんまり集中というか、選択をせずに、ある程度ざっくりとこの分野という、広めに設定するのがいいのかなあというのが僕の考えで、そのようなことをちょっと思っておりますということです。
 以上です。ありがとうございます。
【辻井主査】  ここの書きぶりとしては、最初のほうに基礎研究を幅広く支援しというので、なるべく広くしてということを2つ書いているわけですよね。
【国分参事官】  御発言してよろしければ、3ページ目の上のほうの、「上記を踏まえ」から始まる段落の2文目に「これらの分類の中には、産学官それぞれにおいて既に積極的な研究開発が進められているものもあり、今後の政策的な資源配分に当たっては、こういった状況も踏まえ費用対効果の高い研究開発分野等を選定していくことが肝要」と書いてある趣旨は、もちろん科研費やその他の競争的資金に加え、AIPセンターやNIIの生成AIのLLM-jpの事業など、もう既に結構投資されている部分もある中で、そういう状況も踏まえた上で今後どういった方向性を向いていくべきかという議論になります。何も政策的な投資がないところから議論しているわけじゃないということをここで書かせていただいているという趣旨です。
【辻井主査】  そういう意味では2つちょっと違った方向の議論があるので、それが分かりやすいように書いたほうがいいかもしれないですね。
【国分参事官】  はい。
【辻井主査】  北澤先生が手を挙げられていますが、よろしくお願いします。
【北澤先生】  発言させていただいてよろしいですか。北澤でございます。
 基礎研究の重要性というところはぜひ私も強調できたらいいのかなと思っています。私、1枚ものの年表をつくったんですけど、甘利俊一先生は、1967年、50年以上前に今のバックプロパゲーションの基礎をつくられまして、それが50年後、今花開いているというところを日本人は誇りに思うべきであって、もっと知るべきだと私、常日頃思っております。
 甘利先生ほどの天才はなかなか出てこないわけですけども、それぐらいのタイムスパンであるし、日本人が貢献しているということは、私たち、常に認識したほうがいいかなと思っています。
 あと、私の話題提供も含めて非常に丁寧にまとめていただいているんですが、ちょっとここから先は我田引水なお願いになるんですけれども、脳がどこに出ているかというのを検索かけますと、4ページ目の④、「脳の効率的なエネルギー代謝等の知見をAI開発へ活用する」ということで、エネルギー代謝のところだけで脳という言葉が今回出てきているんですが、脳とAIは、申し上げましたように、二人三脚で1940年代から発達してきたものでございます。必ず脳科学との融合研究、脳科学と情報科学の融合研究がこの分野に大きく資することは歴史的に見て必然でございますので、脳という言葉をもう1か所ぐらい増やしていただきたいというお願いでございます。
 入りそうなところとしては、4ページの③のところですね。「メカニズムを理論的に解明し現実に近づけるための研究開発」というところで、「理論と現実との乖離を埋めるような融合研究のアプローチも求められる」と。ここに情報科学と脳科学の融合研究、情報科学と脳科学などの融合研究というような形で、情報と脳の融合という、この辺りのキーワードをちょっと入れていただけたら、脳情報通信融合研究センターのセンター長だから言うわけじゃないんですけれども、うれしいなということがございます。
 一番最後の8ページのところ、ここが一番ポイントになってくる提言なんだと思うんですけれども、「身体性や人の認知発達を考慮したアプローチも重要である」というところが上から3分の1ぐらいのところにございますが、ここもやっぱり、人の認知発達の基本は脳の発達でございますので、人の脳や認知の発達とか、何とか脳を潜り込ませていただけたらうれしいなというわがままをこの機会に言わせていただきました。
 以上でございます。
【辻井主査】  ありがとうございます。尾形先生お願いします。
【尾形委員】  今の話に少しかぶすと、身体とか書いてあるところは僕は脳を常にくっつけていいと思っています。脳というのは身体によってシーピングされるというか、逆に脳が身体を動かすというところの相互作用というのはすごくあると、ロボット屋さん、認知発達ロボティクス屋としては思っています。
 最初の議論の基礎との話なんですけど、かなり難しい。書きぶりは、こうしかないかもしれませんが、実際難しいなと思いながらも聞いていました。ニューラルネットワークを20年前にやっていると本当に見向きもされませんでした。認知発達ロボティクスみたいな基礎分野がなければ全く研究としては取り上げられることはなかったと思いますし、今でこそエンボディドAIという言葉が出ていますけど、それも当時は全く考えられなかった発想だったと思います。
 そういう意味では、基礎研究が、まさに産総研で機会をいただかなかったら、ああいう応用になって、いきなり企業で商品化するところまで持っていくというストーリーはできなかったわけです。あのときは正直すごいびっくりしたのを覚えています。僕はアカデミア側にいたので、まさか企業の方が食いついてこれを売りますまで持っていかれるとは思ってなかったので、すごい驚きだったのを覚えているんですけど、やっぱりそういうつなぐ場を準備していただくような、これは文科省がやることじゃないのかもしれませんが、そういうことをお願いしたい。あと、今いろんな議論出てきた基礎研究は、実はどういうふうに化けるか全く予測がつかないということはぜひ、本当に予測されてなかったというのは自信を持って言えるので、全く予測されてなかったのが突然来ることはあるということがあって、何にどう投資していいか分からないとは思うんですけど、ぜひこの理論というか、一見実践とか実用には程遠いと思えるものが突然変わるということは幾らでも起こるということはぜひ伝えておきたいなと思いました。ありがとうございます。
【湊委員】  京大の湊ですが、よろしいでしょうか。
【辻井主査】  はい、どうぞ。
【湊委員】  実は私、今日北澤先生の話を聞いていて、印象深かったのは、原発1基を20日間フル稼働するぐらいのエネルギーを消費するというのは、やはりちょっと社会的に問題があるんじゃないかという気がしました。
 やっぱり脳のアーキテクチャって、今の半導体のアーキテクチャと全然違っているというか、まず、クロックレートが全部の素子に今、ギガヘルツとかメガヘルツでクロック信号入れていますけど、それがそもそもまず全然違っていると思いますし、クロックレートも、実際にクロックレートがどのぐらいなのか、私、ちょっと脳のクロックレート知りませんけども、そんなギガヘルツということはなくて、せいぜい100ヘルツとか、そのぐらいで動いているんじゃないかという気がするんですね。
 今回、言語モデルでリカレントという話あったと思うんですけれども、時系列でどんどん入れていますけど、そのクロックレートは一体本当は幾つなのかと。言語だとこのぐらいで、画像処理だとこのぐらいでとか、音声だとこのぐらいでとかきっとあると思うんですけれども、もちろん学習するところと実際に推論するところはまた別かもしれないですけど、実際にどういうふうな原理でそういう脳のアーキテクチャが動いているのかというところは本当はやるべきなんじゃないかと今日聞いていて強く思ったので、そういう話はどこか、例えば半導体のところとかのアーキテクチャとか、そういうところにも話が入ってくるのじゃないかなあと今日聞いていて思いました。
 以上です。
【北澤先生】  ありがとうございます。北澤ですが、補足してよろしいでしょうか。脳のクロック周波数なんですけども、大脳皮質の近傍は100ヘルツぐらいで動くんですが、ちょっと距離が離れるとどんどん周波数落ちまして、基本的に帯域的なネットワークの動作は10ヘルツのアルファ波になります。記憶をつかさどる海馬系はもうちょっと低いシータ波、5ヘルツぐらいで動いていて、睡眠中の一番深く眠っているようなときは2、3ヘルツというふうに落ちますので、本当に最高でも100ヘルツ。距離に応じてヘルツを変えているという可変な感じでやっているというのが状況でございます。
 そういうネットワークで情報を処理するときのクロックの使い方みたいなものも脳に学ぶことができるということに私、大変アグリーいたしますので、そのような内容も盛り込んでいただければ私も大変ありがたいと存じます。
 以上です。
【辻井主査】  ほかに何かコメントありますか。
【工藤委員】  大阪大学の工藤でございます。まず、事務局の皆様、大変なまとめをして、作業していただいて、誠にありがとうございます。大変な作業だったと思います。
 先ほど原委員、村上委員から御指摘があった「AIリスクへの対応」のところは、私もちょっと違和感というか、見出しを読んで期待していた内容とちょっとずれているなという印象を受けたので、ここは書きぶり、ないし内容をもう少し後でメールなどでコメントをしたいと思っておりますので、御検討いただければと思います。
 あともう1点は、気になったというか、これまでの議論及び本日の御発表などを聞いていて思ったこととして、人文社会科学系の知識とかがこの分野にお役に立てることもあろうかなということを少し感じたところがあります。先ほども谷口先生が発表されていたような、社会にある知識とか、社会にある知能の話は、恐らく知識社会学であるとか、言語哲学における規約主義の議論とかが割と参考になると思います。壁打ち役というか、こういう議論の蓄積が過去あって、こういう整理の仕方を今まではしていたので、これは多分数理的にこんな感じで応用できるかもしれませんみたいな議論の相手として一部貢献できるところはあるかもしれないなと思いますし、このおまとめでいくと8ページ目にある「多様なAIと人が共生・協働する社会に向けた研究開発」においては、もちろん産業界の皆様と連携していくということとかも必要なんですが、一応社会について研究しているとか、人間について研究しているのは人文社会科学もやっていることではあるので、そういったところの面で貢献したりする、アラインメントについて一緒に研究開発をしていくということも一言入れていただけるとよいのではないかなと思いました。
 以上です。
【辻井主査】  ほか何かコメントありますか。
【荒瀬委員】  人文社会系の先生方というのは結構快くAIと協力してもいいと思ってくださっているものなのですか。
【工藤委員】  荒瀬委員、御質問ありがとうございます。まずこれは完全に人によるとしか言えないんですが、先ほど荒瀬委員からもあったとおり、1人で割とこつこつと、あんまり外に出ずに理論を学究していくとか、過去の文献を調べて、それでまとめていきたいというタイプの研究者、人文社会学系の研究者の方もちろんいます。誰かと会ってしゃべる、特に自分があんまりなじみのない分野、例えば自分は人間の心とか人の知識とかにすごい興味があるんだけど、そして自分の分野ではかなり研究をしてきたけど、ほかの分野ではどういうふうなアプローチをしていたりとか、どういう調査がされているのかというところに非常に関心があって、それが翻って自分の研究にも役立つと思う研究者の人もいるので、そういう方々をうまくつかまえられると良いと思います。逆に言うと、文部科学省の皆さんにお願いしたいのは、マッチングの機会とか、もちろんこれまでも十分に提供されてきたと思うんですけど、やりたくない人を無理やり同意するのはよくないですが、やる気があって興味があるけど、つてがない、あるいは学内に閉じているみたいな方をうまく誘い出したりとか、ちょっとあったときは、多少研究費出ますたいな感じの支援の在り方はあっていいんじゃないかなと思います。
【荒瀬委員】  ありがとうございました。
【原(隆)委員】  すいません、大阪大学の原です。今ちょうど工藤先生からお話があって、私も同じ所属というか、あれで、これ実は本当に研究として今後やりたいのであんまり発言したくなくて隠しておきたかったところでもあるんですけど、やっぱり哲学とか倫理ってすごく歴史があって、人間の本当に考え方とか、理念とか、そういう信念、倫理感みたいなところ、千年単位とかでずっと議論されているところを、むしろAIのシステムにトップダウンでしっかりと入れていくとか、それをデータドリブンで過去の研究成果みたいなのをボトムアップに研究していくとかというところで、何かそういうしっかりと人文学の世界で整理されてきた学問として長い歴史を持っているところの知見をうまくAIのほうに入れ込んだりとか、逆にAIとそういう、AIと哲学のほうにもそういう解析とか、いろんな、AIのほうでいろんなことをすることで、新しい整理の仕方とか、ある意味新しい考え方、今まで抜けていた部分とかというところをフィードバックできるんじゃないかなと思っています。今実は私自身は哲学者の人に一緒にやろうよと声かけているけど、なかなかなびいてくれなくて苦労しているという現状があるというところで、実際には倫理の人とか哲学の人とは今後一緒に手を組んでやっていくというのは、すごく重要な研究の方向性だと思います。
 すいません、個人的なところでもありますが。
【辻井主査】  何かAIのほうからすると、よく人間中心のAIだとか、AIと人間の共生とかという言葉を割合安易に使うんですけど、実際には人間と言っても、個々の人間って違った価値観を持っていますよね。そういう意味では、この話というのはインクルーシブなソサエティーという話と結構つながっていて、全体最適化というのを言っちゃうと、極端な功利主義みたいな話になっていて、むしろ少数者の利益を抑圧しちゃうんじゃないかとか、そういうある種の危険性を持っているわけですよね。
 だから、安易に全体最適化をすればいいとかと言っても、本当に社会として共通の価値観を持っていて、最適化するような評価軸が本当に共通に持っているのかというところが実際には問題になると思うんですよね。
 だから、そういう意味では、哲学の人たちとかが今まで議論してきた、例えば合理主義の持っているトラップとか、そういう話とAIが抱えている問題というのは結構つながっているなあという気がしているので、ぜひそういう議論はしていかないと駄目なんじゃないかという気がしています。
【工藤委員】  先に一言だけ申しますと、人文社会学の一部の人は、思想、ソウトというのはインフラの一種であると考えているんですね。例えば技術とか心をどういうふうに考えているのかというのは、過去の偉大な哲学者とか、過去の偉大な心理学者とかの意見にかなり影響を受けている。自分は中立的だと思っていても、必ず何か影響を受けているので、その思想を管理したりとか、更新したり、あるいはあなたは自分のことをニュートラルだとか先入観がないと思っているかもしれないけど、過去のこういう議論に密かに影響を受けているんですよというのを指摘したりするというのが仕事の一部だと自負している哲学者の人とか倫理学者の人っているので、そういう研究目標を、あるいは技術的な何か研究課題をもう少し考え直したりとか、リデザイン、もう1回再設計するときに多少お役に立てるのではないかなと思っていますし、そういうふうに貢献したいなと思っています。
【尾形委員】  身体性とか認知とかいう言葉を使っているときも、僕らがモデルをつくるときは、いきなりフッサールだ、メルロポンティから、そういうところから入ったんですね。だからワールドモデルは内観でなければいけないなんていう谷口先生の話もありましたけど、記号論もパースの話とかから入ってきて、やっぱり若い頃にああいう影響を受けると、知能観というのはある程度、同じモデルをつくっているんですけど、見方が変わるというのがやっぱりあって、そういう意味では、そういうレベルで議論できる方々が一緒に横にいるとすごい勉強になるというのは本当に思うところです。
 あと、今ムーンショットで社会科学の方々にそういうグループで入っていただいていますけど、本当に横で見ているだけなんですけど、ロボットデモ一つ、ロボットデザイン一つ、それからどういうふうな見せ方をするかも、全く予想外のコメントをくれたりするんですよね。つまり、こっちは性能がいいからとか、これ役に立つからで見せちゃうと、それはというシーンがやっぱりあるんですよね。
 だから、そういう意味では、そういう大きいプロジェクトを組むときに必ずそういう先生方に横に伴走していただくみたいなスタイルというのはかなり重要なのかなと正直思っています。
【村上委員】  余談ですけれども、結構研究というときに、以前の、私も言語処理の分野の出身なのですが、同様のことが繰り返されていると思います。当初は哲学的なところとか、フィロソフィーみたいなところ、あと中間言語があるのかないのかみたいな議論というのがあった上での言語研究だったところが、2010年代以降、データ量や計算能力でぶん殴るような研究に振れてしまいました。でも揺り戻しは必ず来ると思っていて、なぜかというと90年代の統計のときも同じようなことが起こって、統計で大量のデータ使ってやっていたところそれだとやっぱり頭打ちが来てしまい、2000年代に入ってもう1回セマンティックスを考えようという方向性があったと。そして、さらにもう1回、今、2020年代以降に揺り戻しが起こっているのではないでしょうか。先ほどご指摘したような、きちんと、何のための研究で、どういうものに基づいてというところで研究するフェーズを入れるべきなのかなというのは、今の今日の議論を聞いていてすごく思ったところでもありました。
【辻井主査】  そうですよね。AIを人間の価値観に合わせてアラインするとかと言うんだけど、人間の価値観というのがそれほど安定したものとしてあるのかという話がありますよね。だから、ある種のアラインメントをしたときに、悪意のあるアラインメントもいくらでもやろうと思えばできるわけですよね。
 だから、人間の価値に合わせると言うけど、その価値観そのものが本当にちゃんとあるのかどうかというところも議論しないと変に動いちゃうという気はしますよね。
【辻井主査】  谷口先生、どうぞ。
【谷口先生】  すいません。この流れでいいでしょうか。尾形先生がおっしゃったことにちょっと乗っかりたいと思ったんですけども、まさに私なんていうのも、修士のときは、ピアジェとか、パースであるとか、構造主義とか、いろんなものを読みながら、その中からある種演繹的にテーマをつくって、それを理系のテクノロジーにつなげていったみたいな感じのところは若干あるんですけども、それゆえに、大規模言語モデルが出てきたときとかも、それをどう解釈するかというところに広がりを持てて受け止められたと思っているんですね。
 そういうふうなところが、まさにさっきNLPの視点からもおっしゃったように、やっぱりディープラーニング以降、そして特に今の大規模言語モデル、ファウンデーションモデル以降、中身を分からないままで、タスクのみをデータで殴るような形で解くというふうなことになると、余計に若者がそういうふうなものに触れる機会が失われているのかなあというところが若干あって、もちろんそれは人文的なこともそうですし、全ての基礎理論のほうもそうなんですけども、その両サイドで。だから教育という視点でもう一度、まさに文科省的なというか、まさに学としての人間理解の広がりというのをうまく若者のところで広げるようなところがあるべきだなと思います。
 もう1点付け足させていただくと、実は去年の末にJSTのCRDSの関係で、AI×哲学のワークショップみたいなものをしていただいたんですけども、20年ぐらいそういうふうな学際の場にコミットしているんですけど、大体人文系とはかみ合わないことが多いんですけども、去年のディスカッションはすごくかみ合った感じがありました。感じるのは、やっぱりAIとか情報学のレイヤーって、レイヤーが積み重なってどんどんどんどんレイヤーが上に上がってきているんですよね。まさに今、大規模言語モデルの話になって、アラインメントの議論。私の世代の中でも、AIアラインメントの中で、人間側が変わっていってしまう面をどうするべきかという話、ちょっと書かせていただいたんですけども、そういうところで、まさに哲学的な議論とか、人文社会の議論が、次のAIの社会をつくっていく上で、AI共生社会をつくっていく上で、ある種のまさに、いつか使う知識じゃなくて、今使う知識になってきているんじゃないかなと思いまして、そこの面はすごい重要だなと思いましたので、ちょっと追加でコメントまでです。
【辻井主査】  ありがとうございます。
 議論は尽きないところがありますけど、さらにコメントありますか。
【相澤委員】  私も言語とは何か、アラインメントとは何かというのを考えるのは非常に好きなんですけれども、あえて工学部出身の立場から、議論は多面的なほうがいいと思うので、ひとつ申し上げます。
 私、今日実は一番新鮮だったのは、北澤先生の人間並みのAIという話で、なぜかというと、私にとってはAIはツールなので、人間、石を持ったときから、石は人間にできないことをやっていたという意味では、人間並みという発想があまりなかったです。非常に新鮮に思いました。
 なので、AIのツールとしての側面と人間を解明するための側面というのは常にデュアルであるということはやっぱり意識してもいいかなと感じました。
【辻井主査】  そうですね。常にAIやっていると、AIと人間という話と、AIというのは道具であって、特に人間に近づける必要はないという2つの議論があるわけですよね。その辺のバランスというのはやっぱりきっちり認識して書かないと混乱しちゃう可能性ありますね。
 さらに、コメントありますか。どうでしょう。
 そろそろ所定の時間になったと思うんですけど、この議論というのはなかなか収束するような議論ではないと思うんですけど、引き続き事務局と我々のほうとでやり取りしながら、できればいい報告書にまとめていきたいと思いますので、ここで本日のテーマの議論としては終わりたいと思います。
 最後に、松浦審議官より少し言葉を頂けますでしょうか。
【松浦審議官】  ありがとうございます。研究振興局の担当しております審議官の松浦です。
 本日が一旦、今年度の情報科学技術分野における戦略的重要研究開発領域に関する検討会の審議の取りまとめということで、事務局を代表しまして、一言、まずお礼を申し上げます。
 辻主査はじめ、各先生方におかれましては、本当に御多用なところ、精力的に御審議いただきまして、誠にありがとうございました。
 情報科学技術の分野、特に近年の発展ぶりは、まさにカンブリア紀における生命の進化に匹敵するような物すごいスピードで進展し、さらにいろんな分野に波及していくという意味では、我々としても、非常にそのスピードに追いつきつつ、文科省としてどの分野にさらに戦略的に取り組むべきかという意味で、この検討会でいただきました先生方の御意見は非常に示唆に富みますし、これから来年度の概算要求に向けて、どういう分野に特に戦略的に取り組む領域をどうやって設定していくかも含めて、非常にためになる議論であったなと思います。
 本日、いろいろ御意見いただきましたし、特に哲学とか、倫理、そして、さらに今の研究開発の進展が、ある意味、脳とか、人とか、本質的な部分に立ち戻っていったり、そういったところを含めて、今日いただいた御意見を審議の取りまとめに反映しつつ、情報科学技術分野の重要課題をしっかり取り組んでいきたいなと思っております。
 先生方におかれましては、今後とも様々な形で情報科学技術分野のさらなる発展のために御指導というか、御助言いただければ大変ありがたく存じます。
 以上、簡単ではございますが、事務局を代表して私の御挨拶とさせていただければと思います。
【辻井主査】  どうもありがとうございます。
 主査として本当はまとめていかないと駄目なんですけど、議論がいろんな方向に飛び散って、個人としては面白かったですけど、まとめるのが大変だなと思いますが、そういう意味では、いろんな御意見を持っている特徴のある先生に集まっていただきまして、個人としては楽しく議論させてもらいました。
 今後ともお世話になると思いますけど、どうもありがとうございました。
 今回はこれで一応終わりとさせていただきます。ありがとうございました。

お問合せ先

研究振興局参事官(情報担当)付

(研究振興局参事官(情報担当)付)