令和6年5月14日(火曜日)16時00分~18時00分
文部科学省東館17階 研究振興局会議室 ※オンライン会議にて開催
辻井主査、荒瀬委員、内元委員、工藤委員、杉山委員、原隆浩委員、原祐子委員、湊委員、村上委員、森川委員
塩見 研究振興局長、松浦 大臣官房審議官(研究振興局及び高等教育政策連携担当)、国分 参事官(情報担当)、原田 科学官
オムロン サイニックエックス株式会社
Vice President for Research 牛久 祥孝
株式会社 Preferred Networks
代表取締役・最高研究責任者 岡野原 大輔
株式会社 KDDI総合研究所
Human-Centered AI研究所 小野 智弘
東京大学 工学系研究科
教授 川原 佳博
【辻井主査】 それでは、定刻になりましたので、科学技術・学術審議会情報委員会情報科学技術分野における戦略的重要研究開発領域に関する検討会の第2回会合を開催いたします。
本日はオンラインでの開催とさせていただきます。報道関係者も含め、傍聴者の方もオンラインで参加いただいておりますが、通信状態に不具合が生じるなど、続行できなかった場合は会議を中断する可能性がありますので、あらかじめ御了承ください。
それでは、事務局より連絡事項と配付資料の確認、オンライン開催に当たっての注意事項についての説明をお願いします。
【植田補佐】 事務局でございます。はじめに、委員及びオブザーバーについてですが、本日は尾形委員が御欠席との御連絡をいただいております。また、オブザーバーとしまして、オムロンサイニックエックス株式会社 Vice President for Researchの牛久様、株式会社Preferred Networks 代表取締役・最高研究責任者の岡野原様、株式会社KDDI総合研究所 Human-Centered AI研究所所長の小野様、東京大学工学系研究科の川原教授に御出席いただいております。
続いて、議事次第に基づき配付資料の確認をさせていただきます。ダウンロードいただいている資料を御確認いただければと思います。本日は、原委員から岡野原様まで、それぞれ御発表いただく資料を全部で6点お送りさせていただいております。あわせて、前回検討会において決定をいただきました、当委員会の運営規則並びに公開の手続についての資料を参考資料として添付させていただいております。もし現時点で困り事や不具合等がございましたら、お知らせいただければと思いますが、いかがでしょうか。もし何かございましたら、事務局までお電話で御連絡をいただければと思います。
続いて、オンライン開催に当たっての注意事項を申し上げます。はじめに、御発言時を除き、マイクは常にミュートとしていただけますと幸いです。ビデオは常時オンにしていただき、通信状況が悪化した場合にビデオを停止していただければと思います。本日、チャット欄もございますが、基本的には手を挙げるボタンを押して御発言いただくようお願い申し上げます。
議事録の作成のため、速記の方に参加いただいておりますので、御発言いただく際は、冒頭にお名前をおっしゃってから御発言いただければと思います。傍聴希望をいただいていた方にはZoomにて御参加をいただいております。その他トラブルが発生した場合には、電話等で事務局まで御連絡をいただければと思います。
事務局からの御案内は以上でございます。
【辻井主査】 ありがとうございます。本日はオブザーバーとして御参加の4名の先生方及び原委員、森川委員の2名から、注目すべき研究課題について情報提供いただき、3名ずつ2回に分けて意見交換の時間を取れればと考えております。
順不同ですが、まず原委員、小野先生、森川委員から御発表いただき、20分程度の質疑時間を挟んだ後、後半は牛久先生、川原先生、岡野原先生の御発表をいただき、意見交換の時間とさせていただければと思います。
それでは、まず原委員からよろしくお願いします。
【原(隆)委員】 承知しました。では、原から説明させていただきます。まず、私の簡単な自己紹介ですが、今、大阪大学の情報科学研究科で研究科長を務めています。専門分野はもともとデータベースやソーシャルコンピューティング、コンテキストアウェアネス、モバイルやネットワークとデータに絡むところはかなり広くやっております。最近では特にAIに関するマーケティングに近い研究もCREST研究で実施しておりました。私自身は大阪大学にずっと在籍していますが、2019年から副研究科長を併任して、昨年の4月から研究科長も務めております。また、JST ACT-Xの「次世代AIを築く数理・情報科学の革新」領域の研究総括を務めております。
特にACT-Xでの次世代AI研究ということで、今、様々な若手研究者の皆様の研究を見て、育成などもしている立場にはいるんですが、その中で特に最近の動向で感じていることについてまずお話ししたいと思います。
こちらは前回の会議でも少しお話しましたが、基本的に深層学習の高度化に関して、様々な実践的なモデルが出てきている状況です。特に精度向上のための高度化として、グラフニューラルネットワークは非常によく用いられていますし、それをグラフからハイパーグラフに拡張するといった話や、オートエンコーダから始まり、最近は拡散モデルや対照学習、確率的なモデルといったところで、確率モデルは分散表現自体の要素を分布モデル等で表現するというものですが、非常にモデル自体が複雑化して、グラフも含めて、基本的に分散表現をどう生成するかみたいなところですが、その分散表現自体は、もう各エレメントの意味自体は、特にセマンティックは人間が理解できる形でないようなものが多くて、人間の感覚を超えた表現をすることによって逆に精度を向上するといった世界感で、今、研究開発がどんどん進められている状況です。
その一方で、皆様も御存じのように、説明性の保証とか安全安心、バイアスのないAIの挙動といったところが非常に重視されていて、こういうところでは逆に説明性を保証するために、One-hot表現とか非常にシンプルな表現を用いて、人間も理解できるような表現や、数理モデルなどをフィッティングすることで物理的にとか法則的に説明できるような形のものが求められている。ですので、この2つが非常に現状では極めて相性が悪い方向で研究が複雑化、進化しているというところが非常に気になっているところです。
またもう一方、少しこれにも関連しますが、AIの応用先として、人間中心社会のSociety 5.0、超スマート社会への貢献が期待されている中で、どうしてもAIはデータ計測して、そこでモデル化した上でAIのモデルを使って様々な用途に利用するといったサービスにつなげるといったことがあるので、その個々のサービスに特化したシステムの開発が主流となっているというところで、ここを何とか打開しないと生産性や資源の浪費につながるので重要だと考えています。
ですので、ここにはユニバーサルモデルと書いてありますが、ファンデーションモデルや、ユニバーサルな表現が、様々な応用システムに再利用可能なAIのモデルというのが重要であろうと考えています。
この辺り、私は自分自身の研究の一環として、今日また講演されるKDDI総研の小野さんともいろいろ議論をさせていただき、今後の研究テーマにつながるような内容になっております。
今、様々なプライバシー保護強化の社会的動向の中で、サービスをまたいだユニバーサルなモデルをつくる上で、学習フェーズでデータを共有したり、ユーザーのIDを交換するということが基本的にはかなりしにくい世の中になっております。ただ、先ほど話したように、ユニバーサルのモデルをつくるためには、複数のサービスドメインをつなぐようなAIのモデルを構築する必要があります。
ここで、私自身も栄藤先生のCREST領域に参画して、この重要性に非常に気づいたというところがあります。特に複数のドメインでまたがるような、それをつなぐようなユニバーサルのモデルをつくるときに、その複数のドメインをつなぐヒントというのが、基本的にはIDとかデータを交換しないと、非常に欠けているという状況になります。ですので、かなりラフにユーザーやアイテムのインタラクションの類似性とかといったところを利用したり、何らかの形でほかのデータで補完するといったところが重要となります。これができないと、全然違うドメインを無理やりくっつける形になるので、非常に性能が劣化した、ひどいユーザーやもののモデルができてしまっていることが生じます。
また、このような複数のドメインをつなぐようなユニバーサルのモデルをつくると、高度なモデルを使えば使うほど、生成されたモデルや学習モデル、分散表現が、人間が見て説明性が非常に難しいようなものになってしまうところや、逆にユーザーが自分自身に、好みに合った形にコングリゲーションやチューニングすることが非常に難しい可制御性がないといった状況になるので、この辺りは今後のAIがより人間社会に浸透するようになったときに重要な問題であると考えています。こちらを、アイデア的ですが、お話ししたいと思います。
今お話ししたみたいに、こちらの右側の図が、いろんなドメインでユーザーやもののインタラクションみたいなものが、最近ではグラフで表されて、グラフニューラルネットワークなどで分散表現化されるということが行われています。これを基本的につなげてしまえばグラフはつながるという形で、つながったグラフでは何らかのグラフによるネットワークのモデルが使えるので、まず第一にドメインをまたぐようにグラフをつなぐという技術が必要になります。
例えば、ドメインの違いがあってバイアスがありますが、ドメインのアイテムやユーザーの類似性や、インタラクションのこのグラフ的な類似性でノードを共通化したり、似ているもの同士をつなぐことが有効になります。
このときにドメインが違うと、共通して利用できるデータというのは非常に少ないので、マルチモーダルなデータ、テキストや映像、色情報、いろいろなものを使い、マルチモーダルな情報を使ってドメインをつなぐ仕掛けが必要になってくる。例えば、LLMを使って情報補完するということも有効と考えています。
この上で、ドメイン間の違いというのが出てきて、ドメインバイアスと呼んでいますが、これを辺やノードの重みの調整であったり、グラフニューラルネットワークの学習の段階でのトラバスしていく行き方みたいなのを変更したりと、その辺りの調整が必要になってきます。なので、今後AIを様々なサービスに展開する上で、複数のドメインをつなぐようなユニバーサルのモデルを構築するには、もちろん、数学や情報理論、深層学習自体の発展も重要ですし、この辺りを融合した新しいアプローチが重要になってくると思っています。
また、最近はやりのLLM、大規模言語モデルの情報補完や情報適応というのも有効であるので、この辺りの研究も方向性みたいなのが確立していくことが重要と考えています。先ほど話したみたいに、複数のサービスをつなぐようなマルチドメイン、クロスドメインのモデルを構築する上で、基本的にはそのドメイン間でユーザーの行動やものが違うので、ここをどうするかということで、例えば、このLLMに内在する情報、典型的なユーザーの行動パターンや、状況に応じた動作は、LLMの中でうまく内在されているケースが多いので、もちろんこのLLM自体をチューニングしていくというところも併せて必要になります。
LLMにクエリを投げて情報を抽出する。例えば、サービスは全然違いますが、こういうサービスでこういう行動を取る人はどういう属性を持っている人か。年齢や特徴、性別も含めて、様々なユーザーの特徴に変換したり、ダイレクトに別のこういうドメインではどういう行動をするかみたいなクエリを投げ、そこから生成された回答を、今度は、例えばテキストや映像、その辺りの情報をAIのモデルのほうに取り込んでいくということで、先ほどお話ししたマルチモーダルのところにも関わってきますが、こういう技術が必要になってくると思っています。
今、様々なアドホックなプロンプトを使った研究というのは行われ始めてはいますが、今後は、一連の処理が自動化していくということも研究課題としては重要と思っています。また、自然言語処理や深層学習、エンドツーエンド、最適化という技術開発が重要になると考えております。
また、先ほど後半にお話ししたペルソナモデル、ユーザーのモデルを、ユーザー自体が自分の好みに合ったように制御するために、可視化したり制御するということも重要と考えています。モデルがどんどん複雑化し、ユニバーサルモデルになったときには、分散表現自体に説明を加えるのは非常に難しいですが、その上で、モデルの挙動をベースにLLMとかを使って言語化を行うことで、ユーザーが理解できる形に変更、変換するという処理が必要と考えています。
例えば、モデルの可視化として、LLMなどを使い、ペルソナ基盤モデル、先ほどのユニバーサルモデルを何らかの典型的なユーザー像、アンカーユーザー的なものに置き換え、LLMを用いて説明することや、それをベースにユーザーと対話型のインターフェースで、AIのモデル自体の変更ができる形で仕組みが必要と考えています。
これは、私自身が本当に次の研究トピックとして考えているところと、ACT-Xの活動の中で感じているところです。全然違う話ではなくて、説明性の理論研究と実践研究の乖離を埋める一例でもあると思っております。様々なサービスに活用可能なファンデーションモデル、ユニバーサルモデルを構築する上で、性能を高めていかないといけないところと、説明性と可制御性を実現する必要がある。この2つの大きな今ギャップをどう埋めるかというのが、今後、AIの研究課題として重要だと考えております。
以上になります。
【辻井主査】 どうもありがとうございました。質疑応答はまとめて行いたいと思いますので、次に小野先生、よろしくお願いいたします。
【小野先生】 小野と申します。よろしくお願いいたします。データ利活用のための高度な分散処理などの研究領域について発表させていただきます。よろしくお願いいたします。
私は今KDDI総合研究所の中にあるHuman-Centered AI研究所で研究開発を取りまとめております。研究キーワードとしましては、実世界AIや行動変容、あるいは位置情報を活用した人口動態分析、情報推薦をやってきております。また、データ利活用に関連する取組に関しましては、様々やらせていただいておりまして、防災分野では、GSMAというモバイル通信事業者が集まる国際機関の中で、ビッグデータを活用して社会課題を解決するという取組や、第2期の防災SIP、そしてマーケティング分野では、今御発表いただきました原隆浩委員と一緒にJSTのCRESTを実施し、スマートシティの分野では、総務省受託をしております。社会活動としましては、JSTのさきがけ「文理融合による人と社会の変革基盤技術の共創」というところの領域アドバイザーのほか、人工知能学会や情報処理学会にも携わっております。
続きまして、最初に背景として、現在の潮流と今後の見通しをデータ利活用という視点で述べさせていただきます。現在の潮流としては、データ駆動社会が進みつつある一方で、メガテックによる大規模基盤モデルの提供やパーソナルデータの収集などのデジタル分野での国際競争力の低下、また、個人情報保護やデータ保護の流れに関しては、昨年12月の広島AIプロセスの中の行動規範の中で、適切なデータインプット対策を実施して、個人データおよび知的財産保護をすることが求められています。
また、実際のレポートで、企業の顧客データ活用の利活用状況というのはアメリカの3分の1ほどに留まるということも挙げられています。
これを受けて、今後の見通しは、オープンデータが今後枯渇すると言われていますし、そもそもオープンデータは非常に貴重ですが、それだけでできることは限界があり、企業が保有するデータ、ドメイン特化のデータがより重要になってきます。また、企業で持っているデータはなかなか表に出せないものが非常に多数あるので、データを真ん中に集めていくというスタンスだけでは成り立たないのではないと考えます。そこで、色々な組織やデバイスに散在するようなデータ、あるいはその計算資源を、安全・効率的に活用する分散型AIの取組みがますます重要になってきます。
この分散型AIを実現するための留意点を幾つか述べさせていただきます。これで全てではないですが、私が考えている内容です。下の方に、複数の組織のIoTデータから各種のリスク予測をするというケースでの、留意点の例を図に描かせていただいています。まずは、エッジ~サーバー間の連携ということで、組織とかデバイスのエッジと、サーバーの間の役割分担をどうするか。学習という役割分担、推論での役割分担それぞれを考える必要があります。また、相互フィードバックをどうするのか。
安全性の確保という面でも、個別の、個々のというよりは分散環境全体のデータプライバシーの保護も必要となります。また、組合せの必要性ということで、図の左側に書かせていただいているような組織内の複数拠点でも事情が違いますし、複数の組織にまたがったデータを組み合わせた利用ニーズも非常に高いということにも留意する必要があります。
データや環境の多様性については、組織ごとや、センサー、デバイスごとのデータの質とか量が大きく異なる、計算資源が異なるということもありえます。
また、弊社もそうですが、企業の事情が多様だということがあり、そもそもデータを収集する際の利用許諾の内容が違ったり、その求める内容が安全性を優先、あるいは精度重視というように異なっていることがあります。
そこで、今後の日本の方向性として、AI基盤モデルの循環進化を提示させていただいております。具体的には、下の図にありますように、色々な組織やデバイスがエッジ側で集めて貯めている、多様で、不均衡で、中小規模のデータを利用して、エッジ側のほうで基盤モデルを個別適応します。そして、それらのモデルの差分をこの上側の基盤モデルに集約して、全体最適化をするということを繰り返します。タスクや環境、データはどんどん変化していきますので、その変化に追従してモデルを循環進化させることのできる高度な分散機械学習技術を確立するといったことを考えています。
このとき、各組織が個々にモデルをつくるのではなく、業界団体や地域、都市といった共通課題に特化した基盤モデルを利用者主導で共創することで、質の高いモデルを開発・運用するということがいいのではないかと考えております。
例として想定されるユースケースです。幾つか書かせていただいておりまして、ピックアップして紹介させていただきますと、例えば街が変化することに伴い、予測モデルを早期更新する。街の中に大規模商業施設がオープンしたとき、市民の活動がすごく大きく変化します。そのときに街中のいろんな店舗や交通機関、あらゆるところで色々なデータ、各自が持っているデータを組み合わせて、できるだけ少ない期間のデータで、色々なモデル、例えば来店予測モデルや需要予測モデルなどを更新したいというニーズがでてくると思います。その時に、実現したい組織ごとに計算資源や技術力には差があるので、エッジとサーバーの間の役割分担を柔軟に調整したいということなどがあると思います。
また、大規模災害時には、例えば、あるエリアのデータが全く来ないとか、大きな遅延、欠損がある状況で、うまく人流を予測したいといった要望に対し、ドローンの撮像映像や経路探索データなどの、他の種類のデータを組み合わせて、救援物資の輸送計画を立案したいということもあります。
また、右上の一人暮らしの事故検知と対応については、事故のパターンは新しいものが出てきますので、これまでの事故パターンを忘却せず、逐次新しいパターンに対応できるところが大事というところがあります。これが今、全くできていないということではなく、今後は、より少ないデータでより早くや、より苛酷な条件での実現が求められていくと考えています。
ユースケースを実現するときのAI基盤モデルの循環進化に、今後重要となる取組を幾つか挙げさせていただきます。今後、データ、環境ニーズや条件の多様性が、より広がっていくので、多様性を考慮した、より現実的、かつ、より困難な設定に対応する技術、この中でマルチモーダルAIや、転移学習、そしてエッジや連合学習、説明可能AI、この辺りの進化が期待されます。
また、いろんなエッジやクラウドの間を循環しながら学習することを繰り返すことに伴う基盤モデルの品質の保証や向上に資する技術ということで、プロべナンス/リネージ技術や、継続学習、あるいは品質保証技術などが、より求められていくのかと。
また、循環進化におけるセキュリティーやプライバシーの保護技術も重要ですし、こういったことを単に実現できるだけではなく、アーキテクチャの標準化や参照システムの公開を通じて、国際的なコンセンサスの形成が必要かと考えております。
現在、総務省受託の中で、今申し上げたような循環進化の先行的な一プラクティスを行っております。昨年7月から、安心・安全・快適に移動できるまちを実現するための技術開発を10社のコンソーシアムで実施していて、この中で、マルチモーダルAI、エッジAI、連合学習を実際に開発・実証しています。
このプロジェクトは2025年までの間に、交通リスクや街の安全リスクという複数のタスクに対して、今それぞれ個別に循環進化の仕組みを構築しているところになっていて、プロジェクト終了までに、要素技術の開発と複数の社会実証を完了する予定です。そして、それが終わった後に、色々な都市への展開や分野横断の展開を目指すという方向になっています。
最後に、まとめですが、分散型AIの取組が重要ということで、AI基盤モデルの循環進化に必要な技術と、プラクティスとして実施している内容を御紹介させていただきました。以上になります。ありがとうございました。
【辻井主査】 どうもありがとうございました。続きまして、森川委員から御発表をお願いいたします。
【森川委員】 森川です。よろしくお願いいたします。僕は変化球的なお話をさせてください。
通信側から何が一番大きな変化なのかという点について、あり得る可能性に関して、まず初めにお話ししたいと思います。これは5Gネットワークですが、左側がキャリアグレードで、右側がベストエフォートの計算資源という形になっています。
通信事業者側は何を狙っているかというと、アンテナの近くにあるところのエッジ側に膨大な計算資源をつくらないといけないので、これを使って何か金もうけができないかということを考えています。御案内のとおり、通信市場はものすごく大きいので、この辺りでこれをドライブするような形の技術開発があり得るのではないかと思っています。具体的には、AIのスプリットコンピューティングをはじめとして、例えば電波伝搬のデジタルツインを含めて、身近なところに膨大な計算資源が出てくるので、クラウドとともにどう使いこなしていくのかというところがあると思っています。
こちらは一番初めに出したものです。これは御覧いただければと思います。XG for AIと言っていますけれども、XG、5Gとか6GをAIのために使っていくというようなこともあり得るのではないでしょうか。
では、5G、6Gで何がなくなるのかということですが、制約がなくなる世界ができると言っていましたが、ここに注があります。これはこういう技術視点で価値創造にはなっているのですが、価値獲得まではつながっていないというものです。将来的には、多分こうなっていくとは思いますが、現時点で5G自身が普及していないということは、価値創造はできていても価値獲得ができていないということなので、そこに注意していただければと思っています。
まずは端末の制約がなくなる世界を考えていかないといけません。また、場所の制約もなくなると思っており、これで社会は大きく変わっていくだろうと思っていますが、繰り返しますけれども、技術の価値はあるのですが、価値獲得までつながっていない段階です。
この後、仕組みに関してお話をさせてください。変化球的で恐縮です。
僕が若かった頃と、今とで何が違うのかというと、いい技術をつくれば、そのままビジネスにつながるという世界がなくなってきたという点です。スマート・イナフ・シティという書籍があります。帯に書いてありますが、テクノロジー企業の安請け合いによる夢の技術に踊らされてはいけないというのがメッセージです。アメリカのスマートシティはことごとくうまくいっていない、テクノロジードリブンのものはうまくいっていないということを初めから終わりまで滔々と語っている非常に歯切れのいい本になっています。こういう時代になってきてしまったということです。
世の中的には社会実装という言葉がいろいろと言われていますが、これは多分2000年頃から使われ始め、実際に使われ始めるようになったのは2013年頃だと思いますが、社会実装は価値創造ではなくて価値獲得です。したがって、PoCは社会実装ではありません。致し方ないところもありますが、PoCの屍になっているのが非常に目立つような時代になっています。
また、技術の標準化という言葉がいいのかどうか分かりませんが、今、無形資産の時代になって、技術が金になるとなったら、全世界から人が集まってきて、一気にプロダクトの均質化が進む時代になってきてしまっています。したがって、ビジネス側から見ると、差別化要因は、独自の技術はもちろん重要ですが、それに伴ってビジョンや戦略にかなり重点が置かれてくるようになってきています。ビデオゲームも、ゲームエンジンで結局2つしかありません。その上で、色々な人たちが今動いているという形になって、LLMもおそらく将来はこういった形になっていきます。このように時代が変わってきている中で、我々はどうしていけばいいのか考えていかなければいけません。
ここに投資すべき3つの類型と書いていますけど、一番重要なのは、一番上の基礎研究で、これはお金になるか分からないところを広く薄く、とにかくやり続けないといけません。ばらまきという言葉がいいかどうか分かりませんが、ばらまくぐらいの覚悟でもって基礎研究をするべきです。お金になるかどうか分からないのが、僕は基礎研究だと思っていますので、これは何が当たるか分からないので、とにかく幅広く、色々やっていただくのが重要かと思っています。
一方、お金の匂いを感じるようなことをやろうとするやつ、これがbとcで書いていますけれども、ここの仕組みを考えていかなければならないと思っていまして、これは価値獲得をターゲットにするものです。
諸外国をいろいろと見てみると、相対的に技術開発以外にリソース配分をしていると見えているように森川からは見えています。
例えば、アメリカにはUS Igniteという、これは一応株式会社ではあるんですが、国の研究開発のプロジェクトやテストベッドを支援する組織になっていまして、運営体制を見ると、非常に多様な人たちがここに混ざっています。技術屋は少なくて、技術屋以外のところにちゃんとリソースを配分し、色々なテストベッドや、研究開発を支援しており、右側にあるように、研究開発プログラム自体がいいのか悪いのかを含めて、きちんとPDCAを回しているというふうに見えていますので、社会実装を真面目に考えるのであれば、技術開発以外にこういうところにもリソース配分をしなければいけないのではと思っています。
そういった観点で、日本学術会議で、昨年、技術者以外のところにリソース配分しないといけないという見解を出させていただきました。
何でこうなるのかというと、僕はテトリス型経営という言い方をしています。価値の獲得はどこで今起こっているのかと言うと、テトリスのパーツを回転させて組み合わせるところに大きな価値が生まれているということです。当たり前ですが、テクノロジーというのはテクノロジーだけではなかなか価値の獲得までつながらなくなってきて、テクノロジーも一つのパーツになってきたと。そうすると、ここで黄色の線で囲っているようなところからが、すごく重要になってきます。これは欧米を見ていても、ここにかなりのリソース配分をしていて、例えばマイクロソフトのOpen AIも、Open AIというパーツをうまくくっつけたわけですよね。ということで、こういうところにリソース配分していくことも、本当に技術を世の中の役に立てようとしたら重要かと強く思っております。
もう一つ、大きく話は変わりが、通信分野に足を入れていると、通信のインフラが人の命を守るインフラになっているのにもかかわらず、なかなかこれがこれから維持していくことが難しくなってきているということをひしひしと感じています。こういう現場に密着した技術は攻めの技術開発ではないんですが、守りの技術開発として重要かと最近、痛切に思っています。土木学会などはこういった分野をしっかりと学問として位置づけていますが、我々の分野は、こういった分野を学問としては今までは位置づけていなかったので、電子情報通信学会で、このような分野を巻き込んでいこうということで、情報通信エンジニアリング部門をつくっていこうということを今試みています。来月から準備会をつくり、数年後にはきちんとした部門にして、こういったものをちゃんと技術として、エンジニアリングとして工学部がやるべきことということを認識していこう、ちゃんと位置づけていこうと思っています。
最後に、まとめになります。昔と今とで何が違うのかというと、無形資産の影響がものすごく強くなってきたことです。技術の付加価値が相対的に弱体化してきているのは、どうしても正直なところかと思っております。そのために、幅広く領域を設定して継続的に投資することが重要だと思っています。例えば、NSFのCPSは20年近く前にCPSというキーワードでやって、ずっと投資し続けています。1点目は、表だけ変えて、プログラムを変えていくのではなく幅広いエリアに投資をしていくということが重要です。さらに、2点目に、価値の創造だけではなく、価値獲得への活動等に投資することが重要です。3点目は、多くの方々の知見をいただきながら、その仕組みに投資していくことです。そして、4点目にモニタリング分析にも投資する。やってみたがうまくいかなかったら、うまくいかなかった原因をきちんと振り返りながら進化させていく。
この右側に、余談ですが、United States Cyber Forceというのがありまして、これは今年出た報告書ですが、サイバー軍がうまくいっていないということをちゃんと反省しています。陸・海・空・海兵隊からばらばらに来て、これがいけていないということで、こうしたらいいのではないかということを、今までのことをきちんと反省して、次につなげています。研究開発でも、お金をかけてもうまくいかないのであれば、どうしたらいいのかということをちゃんとやったほうがいいのではないかと思います。
最後に、正解はありませんので、色々なことにトライしながら、社会に価値のある技術開発を進めていきたいと思っております。
以上となります。ありがとうございます。
【辻井主査】 どうもありがとうございました。それでは、ここまで発表いただいた3名の方に御意見や御質問がございましたら、挙手をお願いします。可能な限り活発に議論したいと思いますので、よろしくお願いします。
森川委員の話の中で、技術開発だけではなく、それをうまく社会に持っていくためには、もっと別のところに、リソースもちゃんとかけて、そういう人を集めないと駄目だという話があったと思いますが、大学で研究している立場からすると、なかなか難しくなっていると思います。例えば、原隆浩委員の御発表にあったような、ペルソナの基盤モデルをつくっていくとかというのが、ともするとPoCで終わってしまい、実際の社会展開になかなかつながっていかないという、日本の大学は特にそういう問題を抱えていると思いますが、原隆浩委員、いかがでしょうか。
【原(隆)委員】 非常に難しい問題で、私の場合は、ずっとここ五、六年、小野先生とも一緒にやっていた研究では、社会実装をするというところをかなり主眼に置く領域であったので、この辺りは大学の研究者だけではなく、分野と事業との連携ということで、私たちはコンソーシアムをつくり、9社ぐらいが加入するコンソーシアムとなっています。私たちがつくったモデルで、各会社が企業で持たれているデータを解析することによって、それ以外のサービスにどう活用するかという議論を、僕は現場の企業の人たちと進めていくという形でやりました。
大学ではリソース、サービス自体も展開しないですし、そもそもそのサービスを活用する上で実証したり事業化する上で、そういう母体がないと、AI研究に関して言うと、パートナーと組みながらやっていかないとなかなか社会に技術が出ていかないなということは感じています。
【辻井主査】 実際にアメリカで起こっているのを見ると、その技術をマネタイズするグループがちゃんといて、それで実際に社会実装して資金も回るという感じになっているんです。
【原(隆)委員】 そうですね。
【辻井主査】 日本はうまくそのサイクルが回っていないので、大学側は適当なところまでやって、また放り出すという状態になっているのではないかと思うんです。
【原(隆)委員】 私たちもそういう意味で、コンソーシアムをつくって、名古屋大学の河口先生とも一緒にやっていたんですけど、名古屋大学のほうでベンチャーを立ち上げて、そこでつくったモデルを社会活用、都市計画や、マーケティングに使うということを展開するような仕掛けはつくりました。ただ、そのつくった箱が自走して、ビジネスとして成立するようになるまでには、JSTとかで支援いただく5年間とかという期間では難しいですし、研究を進めながら、並行して進めていくような形にしないと、時間的なところで競争力が失われるというのは確かに感じているところではあります。
【辻井主査】 大学関係の研究者ですと、ビジョンと言っても技術のほうのビジョンはうまくつくれるが、ビジネスのビジョンや、社会をどう持っていくかというビジョンはあまりうまくつくれておらず、空回りしてしまう感じがあります。
【原(隆)委員】 そうですね。
【辻井主査】 日本は、どちら側がイニシアチブを取って回転していくのかということが、まだうまく回っていかないという感じを持っています。ほかに御意見がある方は、手を挙げて意見をお願いいたします。内元委員、よろしくお願いします。
【内元委員】 内元でございます。森川委員の御説明の中で、予算の配分は基礎研究には広く薄くという話があったと思います。この点は非常に重要かと思いますし、一方で前回の会合のときには、杉山委員からは、とがった研究者に重点的に予算を配分すべきという御意見もあって、そちらも重要な観点かと思いました。両方重要で、バランスがさらに重要かと考えますが、予算配分的なところで言いますと、どういうバランスがいいか、という御意見、お考えがございましたら、お聞かせいただきましたら幸いです。
【森川委員】 森川です。まず、金になるかどうかが分からないというのが、僕は基礎研究と位置づけています。これは幅広く薄く、何が出てくるか分からない。しかし、お金の匂いがしたら、そこに何かつき始めます。それは、先ほどのところでいうと基礎研究ではなくなります。しかし、そのときに、このお金の匂いをちゃんとずっと意識し続けないと、PoCで終わってしまう感じがしています。お金がかかる分野とそうではない分野というのも、もちろんあるので、そこはうまくバランスを取ってやっていかなければいけませんが、そこは一律にこれがいいというのは言えないということだと思っています。
僕は、正解はないと思っています。正解はないので、とにかく色々なことをトライして、これがうまくいかない、こんなに金をかけたら駄目だ、では何でだ、ということをちゃんと分析するというのをやりながらステップアップしていく。
アメリカの研究開発を見ていても、色々なことにトライしています。DoDもDoDで、とにかくベンチャーを集めるような仕組みをつくっていこうとか、色々なことをトライしていて、それが全てうまくいっているわけではありません。色々なことをトライしていくことが重要かと思っています。
せっかくなので、先ほどの議論とも関係しているのですが、日本が弱いと思っているのは、DARPAといった軍のニーズがないというところです。DARPAはニーズがもともとあるので、それを進めていけば確実につながるということがもう分かります。政府がファーストカスタマーにきちんとなるということが分かっています。これが日本ではないので、そこは皆さん方とどうしていけばいいかということを議論していかないといけないかと思っています。お答えになっているかどうか分かりませんが、以上です。
【内元委員】 ありがとうございます。
【辻井主査】 ありがとうございます。ほかに御質問、コメントはありますでしょうか。
小野先生も原隆浩委員もそうですが、ある程度分散して、色々な知的な機能が分散していく。ただ、それだけではなく、どこか中核的な部分で基盤モデル的なものがあるという感じになると思いますが、そういう基盤モデルで色々な人を集めるといった途端に、先ほどの森川委員の議論にもありましたが、スポンサーが見えないところがあります。特定の企業がもうかるというわけではなく、ある種の社会基盤的な形で、様々なプレーヤーが利益を受けるような中核モデルをつくりましょうというのは、話としては理解できますが、具体的にマネタイズする部分がなく、なかなかうまくいきません。
アメリカの場合、軍などの公的なものがあり、それが下支えしているんだと思いますが、それが日本の場合にはなく、個別企業に、「みんな集まったらうまくいきます」と言っても、なかなか乗ってこないという苦しさがあるんだと思いますが、小野先生はこれについて、御意見ありますでしょうか。
【小野先生】 コメントありがとうございます。まさにそうですね。そこのところについては、本当に難しい話で、なかなか答えがないところではあるとは思います。
例えば、総務省の実例にはなってしまいますが、今回、総務省の受託をさせていただいている中に、全部で10社のコンソーシアムをやっております。この中では、弊社のような形で技術を提供するところ、それ以外に、さくらインターネットさんや、インフラを提供する会社、あるいはプラットフォームを提供する会社、いろんな立場の方々が一緒に入りながら進めていきます。
その中で、今、私たちは、技術、研究開発をやるというワーキンググループに加えて、それを終わった後、どういうふうにビジネスにしていくかというビジネスワーキンググループを作って推進しています。KDDIのほうは今、技術者として入っている部分と、それを回すほうに入っている人間がおりまして、その回すほうがどういう形で実現できるのか、ということを別々に議論していくということを今実施しております。
さらに、その中に、実際にコンソーシアムの中には入っていませんが、今、具体的な自治体、横浜市とつくば市に入っていきながら、実際に利用するであろうところも巻き込んで進めるということで、何か手がかりがつかめないかということを実施しているという状況になります。
また、これは本当に今実施をしている最中ですので、これがどういう形になるかと未定いうところはございますけれども、可能な限り立場の異なる方々が実際に参加し、その方々が一緒に議論できる場を積極的につくっていくということが一つ、今私たちが取り組んでいたり、取り組み得るところかというところです。これがベストということはないんですが、このような現状です。
【辻井主査】 技術的にはどうでしょうか。連合学習は何でもできそうに思いますが、実は個別のエッジの側がかなり特殊なデータを集め出していることが多く、うまくそろっていると連合学習はうまくいきますが、かなり異質のものが入ってきてしまうと、連合学習という言葉は先行しますが、実際にやってみるとうまくいかないというのが現状だと思います。
【小野先生】 まさにそうですね。もちろん連合学習をやられている方々も、そういうエッジ側の多様性や、分布の多様性ということも解決しようとされています。エッジAIをやられている方々も取り組んでいます。今、それを少しずつ異なったアプローチで得意な機関の方々に入ってもらいながら、問題に取り組んでいるという状況です。
ただ、私たちが実際に今実施している環境というのは、ある程度異質とはいえ、まだまだ究極の異質のところではありません。例えば今トラックの会社さんとかも実際に入っていただいていますけども、これを本当にもっともっと広くというふうになると、我々が今想定しているよりもさらにもう一段、異質性が増す、多様性が増すところが出てくると思いますので、そこまでいかなければなりません。
【辻井主査】 技術的にもかなり解決すべき問題があるという感じでしょうか。
【小野先生】 はい、ありますね。
【辻井主査】 傾向として、一つの大きな基盤モデルで何でもできるというのはおそらく無理でしょう。そういう意味では分散せざるを得ません。ただ、個別のものをどんどんつくっていくのではなく、どこかで集約するような部分がないとうまくいかないのではないかという直感はみんなあるんだと思いますが、そこに向かうための技術がまだ未熟という状態が続いているという感じでしょうか。
【小野先生】 はい。そして、今あるものの中を少しずつ改良していくと、どこまでできるのかというところを今、取り組んでいて、まだまだです。
【辻井主査】 理論的な解決がちゃんとあるともっといいと思いますが、なかなか難しいところに来ているという印象があります。
【原(隆)委員】 そこはまだまだ私たちも、小野先生とも一緒にやっていて、やることがありそうで、全く異なるドメインのサービスをつなげることは、うまくやらないと、本当にひどい精度になりますが、うまくやると意外と相性が悪そうなもの同士や、データの粗密があるような状況でも、意外と、よく分からないけどパフォーマンスは出るというところは実感としてあるので、その辺りは技術的なところを解決しなければいけないところがかなりあると思います。
【辻井主査】 もう少し見通しの良い理論や方法論が出てくるといいなという感じはしますが、その辺は大学側または学術側の使命という感じはします。
【原(隆)委員】 それと、難し過ぎると今度は相手先の企業さんにはよく分からず、こっちが入り込んで助けなければ、全くサービス展開できないというところもあるので、そこは一緒にやっていくということが重要だと話しています。
【辻井主査】 ありがとうございました。他にコメントや御質問はございますか。
【村上委員】 連合学習について企業側の観点からコメントしたいと思います。
【辻井主査】 お願いします。
【村上委員】 補足しますと、ドメインごとにデータの統一というのは割と、企業を超えて話そうという動きは最近出てきています。すでにこれだけAIが出てきて、自社データだけだと偏っていることをみんな認識しています。ただ、それが言語の壁があるというところはありますが、まずは日本国内でそういうデータをきちんと整えてというところは、ドメインを絞ってやるのが一番本当はいいのかと思っています。
先ほどおっしゃっていた、それからさらに業界を超えてというところは実務的には厳しいのかと思っています。ただ、データのフォーマットの統一や、フォーマットというか業界標準スキーマみたいなことを整えようということが、割とオープンデータなどの動きとかとも併せて、業界でいろいろ話されていたですけど、もう10年ぐらいたってもできていないのも現実です。というのも、業種によりますが、大規模な会社ですとITのホストや基盤の刷新が15年から20年に1度というのが普通なので、そうなると、ほかの会社と合わせて一気に変えるということがなかなか難しいと思っています。
ただ、最近の生成AIでは、逆にもうそういうものが一致していなくても、うまくつなげてくれるようなデータの中間レイヤーみたいなものをAIの力で生成するほうが私は近道ではないかと最近考えています。まさに各会社でためているデータの形など持っている情報量は違うので、逆に、それをうまく粒度をAIで合わせることはできないかということを考え始めていたりするので、そういうことのほうが研究としては実務により近づくのかと思いながら、今、皆様のお話を伺って聞いていたところです。
【辻井主査】 そうですね。確かに生成AIというか、LLMを見ていると、ちょっと高いレイヤーで意味的な関係を捉えるので、表面上のフォーマットの差がなくなってしまいます。ある意味、カルテが違ったフォーマットでつくられていても、おそらく統合できるということは、そのレイヤーまで行ってしまうとできるのではないかという直感はみんな持っていると思います。だから、今までのような形式変換をやたらやらなければならないということはなくなってくるのではないかという期待はあります。
【村上委員】 ありがとうございます。
【辻井主査】 よろしいでしょうか。それでは、次の御発表に移りたいと思います。
それでは、まず牛久先生、お願いします。
【牛久先生】 牛久です。私も動画があるので、手元から画面共有させていただければと存じます。見えていない、声が聞こえていない等があったら御指摘ください。
オムロンサイニックエックス株式会社の牛久と申します。よろしくお願いいたします。私からは、AI for Scienceと呼ばれる分野の紹介をさせていただきたいと思います。
まず、簡単な自己紹介ですけれども、私自身は右上に出ているようなコンピュータービジョンと、自然言語処理を融合するような形で画像からキャプションを生成するとか、テキストから動画を検索するとかいったような、Vision and Languageと呼ばれるような研究を基に東大で学位を取り、NTTの基礎研や、東大の原田達也先生の研究室で研究をさせていただいておりました。現職としては、オムロンサイニックエックスで研究をしているというのが、主たる勤務先になります。
オムロンサイニックエックスは、オムロンの子会社です。研究所として先行研究を、いろいろな大学や、研究所、ほかの企業の研究をするためのディビジョンと共同でやっていくというところです。今グループが3つほどあり、私は全体を統括させていただいている立場ですが、それぞれ知識や、情報処理、ロボティクス、また、それらにつながるインタラクションの部分の研究をしています。
私自身は、オムロンサイニックエックスに移ってから、Vision and Languageで、ACT-Iで先生方に世話になったり、一緒に研究させていただいた先生方も本日御参加されています。その中で、人の調理作業をレシピ化するということを注目してやっていました。これはオムロンとしてそういった料理・調理といったところを事業としてやるということではありません。例えば、ものづくりの一番身近な例として、人のものづくりである調理を題材に、こういうデータがあったときに、その重要な部分はどこだろうということと、マニュアル化、つまりレシピにするならば、どういうテキストとして記録しておくべきだろうかということをやる題材として調理を選んでいます。
実際にこういった形で、重要そうな経過を見つけてレシピ化するということをやっていたんですが、ものづくりとして、先ほど言ったように、料理というのはあくまで一つの代表例であり、ほかに注目をしていたのが実験作業です。ほかには、東京大学の佐藤洋一先生も似たような研究をされていらっしゃいますが、このような形で実験を作業している人たちの一人称視点や、場合によっては三人称視点の動画、映像を収録して、そこでどういう実験作業を行っているということをデータセットとして構築していくことで、人間の実験作業の理解や、将来的にはロボットに代替させる、みたいなことをやりたいなというあたりから、だんだんこのAIやロボットによって、こういった科学そのものをドライブしていくということをやっていきたいというふうになってまいりました。
現在、私や私のオムロンサイニックエックス周辺で、AIやロボットによって駆動されるようなサイエンスのプロジェクトというのが幾つかあります。1つ目がJST未来社会創造事業です。ここでは、ざっくりと無機化学、特に全固体電池の電極がターゲットにはなっていますが、無機の結晶構造として、こういうものをつくるとよいというところから実際につくって計測をして、そのデータを蓄積していきながら次のターゲットを考えていくということをやっています。
また、もう一つの、2023年頃から始まった、ムーンショット型研究開発事業では、有機化学を題材に、どういった形で仮説生成から実際の合成、そして検証が行えるかということをやっております。こちらはプロジェクトマネジャーとして、ほかの大学等の先生方とやらせていただいています。
また、理化学研究所の客員研究員として、今年度からやっているTRIP-AGISというプロジェクトにも一つのテーマをリードさせていただく立場として参画をしています。こちらは、今度、生命科学がメインのグループのところに在籍をしており、似たような形で今度は生命科学で文献を理解しながら仮説生成とその検証を行っています。
また、今年度から、前職東大の松尾研究室にいらっしゃった熊谷さんを弊社にお招きしています。彼は、機械学習によって機械学習自身の研究を自動化するということをやっていて、実は私もムーンショットのほうのプロポーザルの中に、情報からマテリアルズ・インフォマティクス、そして実際の化学のところの自動化をするんですと書いてあったので、すごく親和性があると思っていたところ、そこの議論が盛り上がって御一緒させていただいているというような形です。一つ重要になっていくのが、これは基盤モデルが重要になるだろうと思ってプロポーザルにもムーンショットのほうで書いていたところではあるんですが、いろいろな基盤モデルをつくられている方が国内外、そして産業・学術分野で、インターネット上のデータを主にして学習していくところと、さらに別の取組として、実際の人間の研究者とのディスカッション、実際のその実験作業及びそこから得られたデータを、さらにその学習データとして自分の中でさらに学習データを増やしていけるような科学用の基盤モデルが必要だろうということを考えています。
そのため、今の基盤モデルですと、ハルシネーションなどを中心にいろいろな問題がある中で、実際の人間の研究者と実際にやり取りができるような、そして次世界の実験環境とやり取りができるようなものをつくりたいです。
例えば、実験用の試料をうまく測り取るロボットや、それを混ぜるロボットをつくり、そういったものをLLMに対してシンボリックにプランニングさせながら実際のロボットを動かしていくということまでやっています。また、無機化学向けには、新しい結晶構造を生成できるような生成AIの一種みたいなものをつくったり、出てきた結晶構造が実際にどういった物性を持っているか、ということを推定するためのトランスフォーマーアーキテクチャを提案したり、データが蓄積していったときに、例えば、落ちるリンゴの様子を、時刻tとリンゴの高さyの関係性でデータとして取ったときに、その背後にある万有引力の法則みたいなのをAIとして、これを入力として出力できるのかということを法則発見としてやらせていただいています。
昨年度から、AIロボット駆動科学のイニシアチブというものを立ち上げさせていただき、先ほども御紹介したようなJSTの未来社会創造事業や、ムーンショットという4つのプロジェクト合同で設立し、夏にはシンポジウムを開催させていただいています。この中でも文科省からは清浦審議官にお越しいただき、産学官で、産業だとトヨタの渡辺元社長や、ソニーの北野CTOらにお越しいただき、本日いらっしゃる先生方にも一部御参加いただいて議論をしています。
ほかの動向を最後に御紹介させていただきます。例えば、一番有名な例だと、リバプール大学のmobile robotic chemist、光触媒の実験のために移動ロボットとアームロボットでこうやっていますとか、あとは国内だと、産総研だったり理研でやっている「まほろ」を使ったような自動実験の取組などが挙げられます。
世界的にAI for Scienceが、かなり精力的に研究されるようなプロジェクトや取組が増えてきている印象があり、先ほどのリバプール大学でも、プロジェクトが立ち上がっていますし、カナダのアラン・アスプル・グージック先生というケミストリーとAI分野、あと量子コンピューティングの分野でも非常に有名な先生のところでは非常に巨大なプロジェクトが始まっています。それ以外でも、サムスンや、マイクロソフト、ディープマインド、IBMなどでも研究開発や製品化が進んでいる分野になっております。
ということで、もともと科学技術のところでいろいろな知見を持っている我が国としても、さらに取組を進めていきたいと思っているところでございます。以上です。
【辻井主査】 どうもありがとうございました。続きまして、川原先生、よろしくお願いいたします。
【川原先生】 よろしくお願いします。私は、東京大学工学系研究科教授をしており、今日御出席の森川委員のところで学位を取らせていただき、IoT、ものづくりの研究をしております。今日、私が発表するのは、「生成AIの登場と情報学の諸分野の役割」とは言っていますが、3年ほど前から政府の中でJSTの専門委員を少しやらせていただいた際、AI関連情報を取りまとめる機会がありましたので、その調査の続きという報告、位置づけで、私の専門にかかわらず広めに状況をシェアしたいと思います。
2022年の秋ぐらいから調査をして半年ぐらいで、ちょうどLLMが来た頃、今後政府としてこういうことをやればよいのではないかということを、このスライドにしました。一、二年ではこういうところで競争領域になるので、文部科学省では5年10年後の先を見据えて、こういうことをやったらどうでしょうかと、あり得る未来と望ましき未来の両方を両面ににらんだものを書きました。実際にこのスライドに基づき、色々な政策が進んでいると実感をしております。
一つ反省があるとすると、一、二年で起こることが左の丸で、右側が5年から10年先と言っていましたが、さらに早く起こっているというところがあり、右側の大きな丸も一部どんどん盛んに世界中で行われているし、日本でも近時、コミュニティーが立ち上がっていると思います。
これらを受けて、去年のAI関連、AIのリスタートを受けて情報学がどうなっているかというと、すごく研究コミュニティが活性化しているのではないかと思います。真ん中の青い部分が基盤モデルの深層学習とかで、その中で、昔はその用途が識別中心だったのが生成もできるようになり、テキストと画像に限らず、いろんな入力でいろんなものを生成でき、役に立つようになってきています。
それから、基盤モデルは非常に大きなエンジニアリングの技術の結晶だと思いますが、それは半導体チップや、データセンターのネットワークも含めて、支える技術がその周辺にたくさんあり、それが結実したものであります。さらに医療や、先ほど牛久先生がお話しされた自然科学の分野も、様々な影響を受けているので、これで変わるオレンジの領域が拡大していると言えると思います。
一般的に、大規模言語モデルのような生成AIは、いろんな技術が組み合わさっています。核となる技術こそ、深層学習とか自然言語処理・コンピュータービジョンなどですが、忘れてはいけないのは、その周辺のデータサイエンスや統計、あるいはデータがたまるきっかけになったウェブをつくる話や、データベースの技術、また高性能計算GPUといった半導体技術、ネットワーク技術というものも含まれます。
この1年の進化で顕著なのがこのあたりの技術かと思っています。大規模言語モデルが出て、自分の研究が大規模言語モデルをよくする方向に使えるのではないかという提案が、いろんな分野から出ていると感じます。一番上はアラインメントで、これは倫理・安全性のためで、単にテキストの続きを言うだけではなく、自社のAIに人にとって好ましい受け答えをさせないと会社が傾くということで、大きな投資がついています。
学術的には強化学習や最適化が使われておりますが、こうした学問分野はすごく昔は、おそらく、自然言語処理とは言えなかった分野だと思いますが、そういうものが分野を超えて使われるようになってきています。さらに、社会的にはデータセットやコーパスの構築も、情報研究者だけではなく、倫理学者や社会学のテーマの方々との連携テーマとして盛んになってきており、これは総合知や文理融合という文脈では非常に有望なテーマではないかと思います。
続いて、品質を保ったままの軽量化についてですが、GPUを大判振舞いで、大きなモデルをつくっても、経済効率性がありません。もっとさくさく動いて、コストがかからないようにするためには軽量化が避けられません。これに対しても数々のアプローチがあり、しのぎを削る戦いがたくさん行われています。本当にいろんなアイデアが出ているという状況です。
これらの工夫や改良は、LLMをよくするためのものですが、AI一般の改良でもあると言え、ここで出た新しい方式が、自然言語処理や画像生成以外のところでも使われ始めているという印象を持っています。
また、AttentionがLLMを可能にしたブレークスルーの技術ではないかと言われていましたが、もっといいものがあるのではないかということが理論の研究者の間で出ている状況です。
分からない現象があったら、それを探求したくなるのが科学者の性だと思いますが、実験的なアプローチや理論的なアプローチでLLMの内部構造の理解をしようとする動きもあります。
前半の話題提供で、分散化が一つテーマになっていましたが、分散化というのも研究者にとっては惹かれるテーマ設定だと思っています。実は、集中型の方が、経済合理性があるかもしれませんが、分散にすると問題が難しくなるので、分散型を検討したくなるのです。
実際に役立つ、御利益が目に見える分散というものもいろいろあります。実際にGPUは並列計算をしていますが、並列処理というのは経済合理性がついています。先ほど前半の話でもありましたが、エッジAIも、キャリアとかの観点から見ると、エッジAIの計算資源を階層的に管理しないといけないので、分散方式を意味はあると思います。連合学習は大きな議論がありましたが、一番メリットがあるのはプライバシー保護の観点かと思っており、そういうところから採用が進んでいくと思います。いずれにしても、分散化は研究者にとっては魅力的なテーマ設定だと思っています。
それから、基盤モデル、深層学習をうまく使うことで進展する他の研究分野ですが、これも枚挙にいとまがありません。タンパク質の構造解析、それからマテリアルの発見もありますし、牛久委員が先ほど説明されました、ロボットの重要制御や行動計画の話もあると思います。半導体や回路の設計、数学の定理証明、通信は、最近、深層学習でどこまでできるか、という話がたくさん出てきています。森川委員のスライドにありましたが、NVIDIAがOpen Ranといった、通信ネットワークにたくさん深層学習用のGPUを使っていきたいというウィルを見せていますので、もしかしたら大きなゲームチェンジが起こるかもしれないと思っています。
また、チャット型のインターフェースの性能がさらに上がっていており、今朝もOpen AIの新しい「4o」というのが出ていましたが、あれの対話能力はすさまじいものがあります。医療は、人に対面して問診することが重要だと思いますが、そのデータの取り方、人に対して対話をしながら、色々な深掘りをして聞くことが、これまでにはない精度でできていくので、思い切りゲームチェンジが起こるのではないかと思います。
全ての情報分野に急速にLLM、生成AI、深層学習の波及効果が出始めている状況です。特に、マテリアル、ライフ、通信、ロボティクス、エンターテイメントは、従来強かった企業が一気に主役交代されるようなリスクもあると思っています。
今必要なこととしては、情報学の全ての分野でどのように生成AIに貢献できるか、生成AIをどのように利用するかを考え、利用を促進する必要があります。去年1年間でも、国内に特徴ある拠点が形成されたと思っています。AIPでは様々な理論研究が進んでいますし、アカデミア主導のLLMの直接的な開発拠点としてLLM-jpがあります。LLM-jpがあることで、民間企業もかつてないほどオープンにいろんな情報をディスカッションがされているし、協力関係ができているのかという気がします。PFNさんのように企業で非常に優れた研究が行われていて、そういったところの情報が、LLM-jpなどにも広がっていけば、すごくいいサイクルができると思います。
また、他分野に関しても、理研R-CCSなどがAI駆動科学の文脈でいろいろやっておられますので、いろいろ深層学習とか生成AIをきっかけにして、いろんな川上、川下の分野が盛り上がるといいなと思っていますし、今後、重点的に投資するのはこういったさらに幅広い分野だと思います。そういう意味で、森川委員のおっしゃるとおり、どこが当たるか分からないので、幅広く投資することに私も賛同したいと思っております。以上です。
【辻井主査】 どうもありがとうございました。それでは、最後に、岡野原先生、よろしくお願いします。
【岡野原先生】 では、Preferred Networksの岡野原より今日のお話をさせていただきます。よろしくお願いします。
まず、最初に、私は岡野原と申します。Preferred Networksを共同で創業いたしまして、大学時代は辻井先生のもとで自然言語処理でちょうど言語モデルなどを研究しておりました。今では、特に大規模言語モデルの開発や、ロボット、ライフサイエンスなど、いろいろなことをやっております。また、本もいろいろ書いておりまして、技術を一般の人向けに解説するということをしております。また、AI事業者ガイドラインなどの形で、事業者や研究者の立場として、どのようなリスクや可能性があるのかというのを意見させていただいております。
前半では、弊社の活動の紹介をさせていただき、後半は、提言をさせていただければと思います。
弊社、Preferred Networksですが、もともとAIを使った様々なソリューションを各領域でつくっているということでしたが、この一、二年で急速にその生成AI、基盤モデルと、あとはそれをつくる、使うための計算基盤と、あとはもともとつくっていた、それを支えるAIチップのほうに事業としては垂直につくろうというところを進めております。
計算基盤のところで言うと、弊社は今、MN-CoreとMN-Core2、この後続のところをつくっております。また、これらを使ったスーパーコンピューターが省電力性能ランキングGreen500で3度、世界一を取っています。
もう一つ、今日は後半で生成AIの話をするですが、非常にAIの事業として今伸びているのが、材料探索の部分で、弊社が今開発しているMATLANTISと呼ばれる原子レベルシミュレーターです。これは、研究者の方が第一原理計算と同じような精度でかつ高速に推論できるサービスです。これが今、世界最大規模の訓練データを利用しており、独自ニューラルネットワークを使っていまして、72元素の任意の組み合わせで第一原理計算と同等精度を実現するというものを商用化しています。
これはディープマインドですとか、あとはマイクロソフトなどが論文を出しているんですが、論文の内容を見ても、弊社の製品がまだかなり先行しておりまして、広く使われております。国内の企業・研究者にも80近くの企業団体が利用していまして、去年から海外の研究機関や企業でも急速に使われております。どれぐらいの規模で使われているかというと、1年間で18兆原子がシミュレーションされており、公開されている事例だと、例えば、トヨタさんの固体電池の開発や、花王さんの触媒、半導体の開発、東京エレクトロンさんなど、そういったところがかなり大規模に使っていただいています。
実際につくったモデルがかなり汎用的に使えるということで、今ここに挙げている製品(触媒、電池、半導体、MOFなど)が、まず非常に使われているんですが、さらに性能を上げていって、特に有機や生体、バイオロジーのほうもしようとしているというところと、あとはこれらのそれぞれの領域でもまだかなりやるところがあるので、そういった技術開発をしております。
もう一つ弊社の活動でいうと、現在、大規模言語モデルの開発を進めております。これはPLaMoとよびます。現在、GENIACと呼ばれるプロジェクトの下で、1,000億パラメータのモデルを2月から開発しており、これがちょうど半分、3か月で終わった時点で、一応今の速報値で日本語性能だと、世の中に出ているのでは、GPT-4以外には全部勝っています。残り3か月、まだ残り学習があるので、そこまでいくとおそらく、GPT-4の日本語処理性能と同じか、超すぐらいは行くのではないかと考えています(現在超えている)。
これは商用リリースを夏頃に目指していますが、もう一つ、1兆パラメータモデルというものも、これを実際の開発の準備を進めており、夏頃から開発する予定です。GPT-4が1.8兆パラメータと推定されていますので、それに匹敵するような規模というのを、我々が初めてオープンで行って、中で何が起きているのかというのを検証します。
一方で、エッジ向けに動く小規模モデル、中規模モデルも同時にリリースする予定です。このモデルが目指しているのは、特に日本が強みを持っている製造業産業の高度なタスクをサポートできるようなものを目指して開発を進めております。
今、実際に最先端のモデルをつくるのに必要な計算資源というのは非常に多くなっています。先ほど私が話しましたPLaMo、100Bと呼んでいる1,000億パラメータというのは、H100を数百枚から数千枚といった規模が必要になるんです。しかし、世の中でさらに大規模に計算資源を投入できるようなところで言いますと、既に数十万台のアクセラレータを使ったようなスパコン利用が急速に進んでいるような状況です。一方で、こうしたところは、かなりもう限界も見えているので、新しいチップ、ソフトウェアや学習手法が必要になっていると理解しています。
ここから、提言をお話しさせていただければと思います。まず、生成AIと呼ばれているような、今新しく広がっている部分の研究開発テーマについては、実際、競争が非常に激しい分野ですが、研究テーマ自体もその分無数にあり、それぞれ伸び代が大きいと思っております。大規模言語モデルや画像、音声などの拡散モデル、半導体、これはGPUの次のような新しい半導体向けの学習手法アーキテクチャ、理論解析、工学的改善、メッセージとしては巨大なモデルを必ずしもつくれなくても、競争力のある研究というのは可能でして、非常にインパクトのある研究というのは国内でも、海外でも多く出ていると思います。
一つは、昔は非常に大きいモデルでなければ出なかったような、いろんな現象というのも、かなり原理が解明されたり、工学的な改善が進んで小さいモデル、それこそLlama3ですとか、そういったモデルでもかなり研究できるようになってきていると思います。
もう一つ非常に重要になっているテーマは、AIのためのデータ設計や生成に関するサイエンスの部分です。今後、学習以上に学習をするためのデータ整備というのに実際に人的リソースだけではなく、計算リソースも割かれると考えています。今、進んでいる話としては、LLMや生成AIでつくられたデータを使い、生のデータではなく、そういったデータを使って学習するという活動が急速に進んでいます。そこでは、例えばウィキペディアや世の中に出ている全ての教科書の数十倍も大きいような知識データベースというのはすでに、つくられるのが進んでおりまして、そうしたデータを使って学習することで、生のデータだと何が入っているか分からないですが、学習データをコントロールできるということがありますし、品質も高くできます。
先ほどのMATLANTISもそういう意味ではシミュレーションですが、こういったシミュレーションによるデータ生成が現実的になってきています。一方で、データはつくれるとなった場合にどういうデータを使ったらいいのかですとか、あとはそのデータがもう人が見られないぐらいの量がもう最初からある状態で、どのようにそのデータを評価するのか、それらを、人間中心を保ったまま、AIをうまく活用してスケールする手法の確立が必要だと思います。
もう一つ、研究を支援できる、サイエンスを進化させるようなAIとして研究活動の支援、これは人がやる研究を置き換えるのではなく、あくまで人がやっている研究を支援するというのが現実的だと思います。そうした意味では、論文、表、グラフを読め、実験結果を理解できるようなAIが必要です。例えば、私は、特にAIの研究の調査ではAINewsというLLMを使ったキュレーションサービスを使っており、日々でてくる研究をフォローできています。半導体産業、もしくは日本で半導体産業が重要である中で、その研究開発の最先端のところの競争力を高められるようなAI開発が必要と思います。
一方で、今のLLMというのはまだまだその能力が足りていません。そこで、現実的な目標としては、3年で専門知識が必要なタスクをこなせるAIを開発します。例えば、弊社では、公認会計士や、弁護士資格取得に必要な試験を通るようなAIというのはかなり現実的な目標として今置いています。一方で、試験を通過したとしてもまだ使えないので、人と協調する部分のいろいろな研究が必要だと思います。
また、仕事を置き換えるという考えをよくされますが、そうではなく、特定の業務をサポートするというところで、現実的なタスクを解けるのかという研究開発がよいと思っております。
最後に、日本の研究者の研究拠点も競争力を持つためには、研究者が最先端の計算資源、AIモデルにアクセスできるようにするということが非常に重要だと考えております。一方で、大規模AIモデルの設計構築は、大変な部分を実際我々も経験してありますので、そういったところは企業などとうまく連携できるのかと思っております。
また、今後、企業と研究の間を行き来する人を増やしていくというところが、長い目で見ても非常に重要かと思っております。
以上です。ありがとうございました。
【辻井主査】 どうもありがとうございました。それでは、今、3人の先生方にお話しいただいた内容に関する質問、コメントがある方、挙手でお願いいたします。
杉山委員、どうぞ。
【杉山委員】 どうも皆さんありがとうございました。大変興味深い御発表でした。岡野原先生の話から出ていましたが、海外でもいろいろな取組があり、日本の中だけでマーケットが守られているわけではないので、海外企業とどう対峙していくかみたいな議論がもう少し必要だという気がします。先ほどで言えば、ハードウェアの話ですと世界一になったものがあるということで、すばらしいことだと思いますが、日本語のLLMだと、Open AIが日本に会社をつくってサービスを始めると言っているので、それが出てしまうとおそらくほとんどのユーザーは会社ではそれは使えないけど、家ではそれを使うという形になるのかという気がします。
そういった形で、日本の競争領域と海外の競争領域がどういう関係になっているかを、何か御存じのことがあったら共有していただけるとありがたいなと思いました。
【岡野原先生】 実際、今OpenAIだけではなく、AnthropicやLlama3、Command Rなどがかなり日本語もできるようになってきています。一方で、実際その日本の知識がどれぐらい含まれているかというのは、純粋にその含まれているデータ量で決まっているようなところもあり、そこは、英語に比べて、まだ大分日本語には改善の余地があると思います。
世界がどうなっているかというと、ほぼ全ての国や地域で、自国でLLMをつくれるような組織や企業というのが勃興しています。一番有名なのはフランスのMistralとかだと思いますが、シンガポールでも同じようにつくっていますし、カナダや、あとは特にアジア、中国はもちろん、ほぼ全ての国が自国でつくっています。あと起きていることとしては、寡占というより、実際のユーザー側は使い分けるということはかなり進んでおりまして、この用途だったらこのLLM、この用途だったらこのLLM、しかも同じLLMでも違うサイズのモデルを使い分けるというようなことが起きています。それだけ簡単にスイッチできるということでもあります。
実際、どこか一つがすごく寡占的に強くなってくるのは、ある点ではあるんですけども、そもそも生成AIの使われ方が非常に多様なので、いろんなすみ分けがあるのかとは思ってはおります。ニッチ領域がたくさんあるという認識です。
【辻井主査】 性能評価を見ると、システムごとに、そのテストプログラム、データセットによってかなり凸凹しますよね。ある場合には、テストデータがコンタミネートしていて、中に入ってしまっているのではないでしょうか。アリババのつくっているQianwenでやってみると、あるタスクはすごく性能が上がっているんですが、何が性能に効いて、どこの部分を変えると何が変わるとか、その辺りが外から見ていると分かりにくくなっています。実践している側からすると、性能評価をどうするかとか、データを集めるほうで競争するのか、アーキテクチャを変えるのか、どの辺りが目玉になりつつあるんでしょうか。
【岡野原先生】 まず、私から答えさせていただきますと、マーケティング的なところでベンチマークが一番分かりやすく、今だとMMLUが一番、みんなそこだけを見て、どれがいいかというのを選んでいますが、かなりコンタミネートしているのは確かです。それを見分けるような手法も、もちろん出ているので、それを見るんですが、なかなか一般の方がどれがいいかというのを選ぶときには、そのベンチマークを見がちです。
一方で、本当にビジネスの領域で、LLMを年間1億円から数億円を使っているような企業からすると、コストパフォーマンスをすごく厳しく見ています。今のモデルでも全然高過ぎるということで、安くするというプレッシャーがあります。もう一つが、ビジネス的な短期的な話と、もう少し長期で見ると、検証とPoCまでは何でもあります。実際に使ってみるときは、学習データが本当に大丈夫なものしかないかということを気にするようなところもあります。例えば、多くのLLMが、学習データに何を使っているのかが分からないというところで、多少性能がよくても、採用せずに、学習データの管理をちゃんとやっていますとうたっているような企業や、オープンソースを使っているように、そういう倫理を持ってやっているような企業も多少はあると思います。
【辻井主査】 ほかに質問やコメントがありましたら、よろしくお願いします。
荒瀬委員、どうぞ。
【荒瀬委員】 非常に面白いお話をありがとうございました。医療や公認会計士の試験には通るが、実務ではまだまだというお話があったと思いますが、最初の小野先生のお話でも、そろそろもう訓練データ自体が枯渇するだろうというのが見えていて、でも実務に行こうとするとギャップがあるというのは、どこに要因があるのでしょうか。問題は解けてきたけど、ウェブのほとんどのデータを使っているようなものだと、もう十分知識は持っていそうな気がしますが、それを使いこなせないというのは、どこに要因があるのかというのを、お考えをお聞かせいただけたらうれしいと思います。
【岡野原先生】 私から答えさせていただくと、まず日本語の高品質なデータは圧倒的に足りていないです。例えば、企業内の事業をサポートするために必要な学習用データだと、教科書や試験問題など、そういったところにしかほとんど、ウェブを探してもなかなかなくて、書籍データで書かれている場合がほとんど、特に専門領域になると多いんですけど、そういったのは足りていないです。
海外では、そういう書籍データも入れていると思います。例えば、Books3は権利問題として以前問題になり、私達のモデルには入れていないので、専門領域で弱くなっていますが、海外だと入れているし、日本の書籍データもかなり入っているので、そこは賢いです。
うちではなく、海外のところでもまだ足りていないという部分でいうと、学習のさせ方がまだ足りていないというところはあります。それは事前学習、次の単語予測ではなく、その後のいろんな推論の仕方などの改善が必要になると思っています。例えば、医療だと、絶対に間違えてはいけない、倫理的にアウトという問題は平気で間違えてしまったりします。さらに、今、金融でも、公認会計士をやっていると、とても文章だけでは学べないような、これは人間がそもそもどうやってそういう知見を学んでいるのかというのもよく分かっていませんが、それはもしかしたらマルチモーダルな経験などの概念も持った上で認識しなければ、文章だけ読んでもよく分かりません。字面では分かりますが、それが一般の現象に対して適用できるように汎化していないということがあるのかもしれないとは思います。
【辻井主査】 推論や、牛久先生の話にもありましたが、科学技術で論文などを使い出すと、ある種推論をさせたくなってくると思います。そのときに、川原先生の一部にありました、例えば、情報抽出のようなデータを、テキストをそのままと使うのではなく、構造化したり、あるいはこの情報が有効なのはどういうコンテクストなのかということを、コンテクストを長く取るのか、あるいはある種の構造化をしないと駄目なのかという、その辺りはどういう感じでしょうか。つまり、データをたくさん入れていけばいいのか、あるいは情報抽出的な技術とかコンテクストをもう少しexplicitに構造化するような技術がないと、推論の問題は解けないのかとか、その辺りは具体的にはどういう感覚をお持ちでしょうか。
【牛久先生】 今のお話ですと、データを増やすということ以上のアーキテクチャなりの工夫が必要なのかと思っています、というのが結論です。理由としては、先ほどの議論でもあったんですが、良質なデータをたくさん集められればよいというのはある種、真だと思います。しかし、一般的なトピックである日常会話に近い部分に比べると、こういった専門性の高い部分や、私がやっているような、AI for Scienceみたいなところですと、皆さん、新たなトピックを論文なりの文献として書いていくということをやっている以上、本質的にロングテールな部分で学習をしないといけません。
ですので、そういったところをデータドリブンに、今のLLMのような形で、知識とその文法的なところを全て埋め込み、そこからうまく出てくる期待をするよりは、例えば知識表現の仕組みをあえて並立でもって、それとLLMを組み合わせるといった形で、知識の部分を別途つくり、運用をよりサポートするような仕組みが必要かと思っております。私からは以上です。
【辻井主査】 それと生命現象みたいな話になると、ある種のコンテクストが大きく効いていて、ある種のデータの真偽性というのに短いスパンのテキストだけを見ていても駄目で、非常に長いコンテクストが関係します。その場合に、長いコンテクストをそのまま扱うというのは無理ではないでしょうか。Mambaのような長いコンテクストを使うような構造化をやらざるを得ないと考えていますが、その辺りはどう思われていますか。
【牛久先生】 おっしゃるとおりです。例えば、川原先生も言及されていた、トランスフォーマのポストアーキテクチャのSSMなども出てきていますし、トランスフォーマ自体でも長いコンテクストを扱えるようにしたいというのは当然やられています。ただ、トークンの数がどんどん増えていく状態にどう対応するかというと、そこは別の知識表現が必要ではないかと個人的には思っています。何か川原先生からコメントはございますか。
【川原先生】 トップの先頭集団の皆さんがおっしゃることには、モデルサイズをとにかく大きくしたらいいとかデータをとにかく集めたらいいというのは、それが無限に続くレースだとは誰も思っていないようです。理論的側面で、なるべく軽く処理するものが必要だと。Attentionも今まさに議論があったところですが、トークン長の二乗の計算量がかかるので、別の方法で、結果として長くコンテクストが取れるようにするという改良が進んでいるそうです。もしかしたら杉山委員のほうがたくさん情報をお持ちで、教えていただけるかもしれません。
【岡野原先生】 私からもコメントさせていただくと、最近注目している研究はMetaのAllen-Zhuという方が、Physics of Language Modelという、一連の研究をしている中で、記憶の仕組みがかなり解明されていますが、そこでは、構造化されたような知識を導入するため、テキストを100回から1,000回ぐらい見せないと、LLMが覚えられないというようなことが分かっていたりします。あとは、有名な問題として、学習データにA is Bがある場合に、B is Aが推論できないということもあります。これもA is Bぐらいなら簡単ですが、もっと複雑な場合だと、どのように一般化するのかはよくわかっていないところがあります。こうした知識獲得の面では今の学習では決定的に何か足りていないので、それを人間と同じような仕組みでやるか、もしくは計算機ならではの、計算機はもうリレーショナルな、例えばグラフのデータベースがつくることができたり、人間にはないような知識の持ち方があるので、それを組み合わせて、人間の秘密は解けないけれども、計算機的に解くというのはかなり現実的にビジネスとしても重要なテーマになっていると思っています。
【辻井主査】 そういう工夫をし出すと、どんどん不透明性が上がり、人間がうまくトレースできなくなってしまいます。原隆浩委員の議論にあった、understandabilityや、controllabilityという話と、能力のテンションはかなり強くなります。科学の問題をやり出すと、人間が最終的にフォローできていないという話になると困るのではないかという気がするんですが、それについてどう思われていますか。
【岡野原先生】 まず私から。可能かもしれないのは、すでに知識や知能みたいなものは明示化されて、それをどう操作するかということは、ニューラルネットワークでやりますが、そういう情報は外の、もうexplicitなモデルでやると、データベースとかでやるというのは多分可能で、今はその謎のデータベースがTransformerのパラメータ(例えばMLPブロック)で保持されているわけですが、それを外に出すというふうに進む方向は一つあると思います。なぜそのヒューリスティックスを選んだのかということは説明できませんが、どの知識をどういうふうに組み合わせて結論に至ったかということはできる可能性はあるとは思います。
【辻井主査】 前回の会議で結構議論になりましたが、倫理や、分かっていない知的能力を持ったシステムが訳の分からないことをするというのが、思っていないような、人類にとって不利益をもたらすんじゃないかという、そういう不安をみんな持っていると思います。今日のお話では、非常にオプティミスティックな感じを聞いていたんですけど、そういうネガティブな側面に対する歯止めみたいなものは、どう考えておられますか。その辺はあまりもう気にしなくていいんじゃないんですかということですかね。
【岡野原先生】 私からまず話すと、悪用が一番あり得る、まずいやり方だと思っていて、情報を抜き出すだとか、そういったところはあります。コントロールできないようなAIになったときに備えてやるというのは、基礎研究としては、Open AIがやっているように、5年10年ぐらいのスパンでやってみてもよいとは思います。正直、すでに今のAIは、例えば数学を解く能力は自分を超えていると思いますので、人をある面で超えた能力のAIと付き合うというのは既にあると思いますが、これに加えて意図しないような最適化がかかって、変な結果が出るということは、今でももう十分起きてもおかしくないような状況なので、そこは研究的に調べるとかはあると思います。LLMの開発でもガードレールの議論などはすごくありますが、技術的にこれというのはまだ定まっていないとは思います。
【辻井主査】 AI for Scienceのように、科学に使っているというときには、それほど意識はないと思いますが、人間の生活に関与し出すと、多様な価値観がAIの中にうまく入らないのではないかという危惧は皆さん持っていると思います。ある種の最適化というのは価値が定義できているとうまくいきますが、価値が多様化してしまっていると、正しいとは何かということがもう決められなくなる分野が多くあるのではないかという気がして、不安になっていると思います。それについて、コメントはありますでしょうか。あるいは、どういうふうなことをヘッド研究者としてはすべきかというような、個人的な話になってもいいと思います。
【原(隆)委員】 原です。その辺りは私もずっとマーケティングなどを、それこそKDDIさんと一緒にやっていたんですが、行動予測やレコメンデーションは、説明性が担保されるからといって重要性が上がるわけではなく、法令を守っているからよしというわけでもなく、人の受容性は全然その部分とは違うレベルのところがあります。要は、クリーンにやっているが、行動を予測され過ぎたり、当てられ過ぎるとおそらく気持ち悪いです。
その辺りの精度を上げれば上げるほど、ちゃんとやっても受容性が下がるということはすごくジレンマです。これには技術と、倫理的な部分と、人の受容性、感覚的なところをうまく研究していく必要があるのではないかということは、常々本当にここ数年ずっと感じています。説明性だけではないとすごく感じています。
【辻井主査】 そうですよね。アメリカの方が説明性ということを言っていましたが、実際には、もうすこし広い範囲の問題を抱えているなという感じがします。
【原(隆)委員】 受容性とは何か、ということが結構本質かと、最近すごく感じています。
【牛久先生】 今の議論はそのとおりだと思っています。私も、AI for Scienceの中で、結局人間の研究者とのインタラクションがアラインメントとしても重要だと思います。しかし、そのときに説明をするということは目的として一歩手前であり、それを納得して受容してもらうというところまで行くことが重要だと思っております。
【辻井主査】 Open AIのアラインメントの議論を聞いていると、アラインメントをするためのデータをつくることに人間側の価値をそろえようとしています。それがうまくいかない分野がたくさんあるのではないかという気がします。
【牛久先生】 そうですね。そういう意味では、ひとつ、RLHFは結構不安定であるということが、技術的な課題ではあると思います。より多様な意見やプラス1、マイナス1みたいなものだけではない多様なフィードバックをどのように受け入れるかということは技術的な研究課題だと思います。
原田科学官が挙手されていますね。どうぞ。
【原田科学官】 皆さん、非常にためになる話をありがとうございます。楽しんで聞かせていただきました。ざっくりとした質問ですが、日本人の研究者は今どんどん減っていて、ドクターコースに進まなくなっているのが、頭の痛いところです。そこで、海外から優秀な研究者をさらに日本に集めてこなければいけないと思っているのですが、どうすれば生成系のAIの研究で、日本に世界中のトップの研究者が来られるようになるでしょうか。それについて、お考えはありますでしょうか。
【岡野原先生】 これについては、海外から日本に来ているAI研究者・事業者と話したことがあるのですが、純粋に日本に来たいという海外の人は多く、研究者に限らず、かなり人気がすごくあるようです。現在、例えば、特に中国やロシアなどはほかの国から行きづらくなっており、日本に人が集まりやすいという環境要因もあります。その中で、日本で生成AIの研究ができる拠点があれば、やってみたいという人はいると思います。
ただ、例えば、待遇や給料を高くすると、消耗戦になります。最低限は出すとしても、条件面で競争力は出さず、日本でやっていきたいという人に、研究ができるいい環境があれば、集められるような感じにはなっていると思っています。
【原田科学官】 ありがとうございます。いい環境というのはどのようなイメージでしょうか。
【岡野原先生】 周りにいい研究者やメンターの方、計算機環境も最低限、データもあるという環境です。ただ、計算機環境はすでに先ほどから何回も言われているように、本当に大きなモデルをつくるのは、消耗戦なので、小さいサイズでも、重要ですが、やることはすごくたくさんあるので、テーマをうまく選んでやるのがいいと思っています。
【原田科学官】 でも、日本以外のほうがたくさん持っているでしょうか。どうすればいいでしょうか。
【杉山委員】 一言質問を割り込んでいいですか。今のやり方で、若手の研究員は来てくれそうかなという気がします。一方。マネジャークラスや、大学だと教授クラスの家族を持っている世代が、まったく引きつけられなくて、私はずっと困っていますが、会社ではいかがですか。
【岡野原先生】 実際、会社でも大変で、特に海外の人が日本でも働けるし、ほかでも働けますというときには、マネージャークラスの方は問題になるだろうと思います。そこはリモートワークなど、いろんなやり方があるので、本当は来てもらえるのがベストですが、次点が遠距離で一緒に共同研究できるというのもあるかも、時々来てもらうというやり方も選択肢としてはあるかもしれないと思いました。
【杉山委員】 私はもう唯一生きる道は、もうクロアポのような形で、3か月だけ日本に来てくださいというやり方かなと思っているところです。
【岡野原先生】 それもすごく需要があって、いいと思います。
【杉山委員】 ありがとうございます。
【辻井主査】 ヨーロッパの国でも、自国出身の人でアメリカに行っている人をクロスアポイントして、3か月程度来るという制度を取っている国は結構増えています。日本でもそういったことを考えなければならないという気がします。それから、若手に関しては、JSTのCRESTやERATOなどの代表者になる海外研究者は結構少ないです。だから、日本の研究コミュニティーはまだ閉じているのではないかという印象を持っています。もう少し積極的に、そういう人たちにもグラントホルダーになってもらわないといけないのではないかという気がしています。
【川原先生】 それはJSTが海外の研究機関と契約するのが簡単でないという問題のほうが大きいかもしれません。
【牛久先生】 そうですね。おっしゃるとおりで、ちょうど、JSTのムーンショットで、似たようなことを検討しています。海外の大学が入る場合は、権利的な帰属が日本側になるということがデフォルトになってしまうところに、それぞれの大学の、向こうのほうがURAはむしろしっかりしているので、それはいかがなものかとなりがちであるというところは構造的な問題かと思います。
【辻井主査】 相澤委員、どうぞ、お願いします。
【相澤委員】 最近本当にファンディングとしてサポートするべき予算の幅が、今までの100倍ぐらいになったと思っています。数十万円でありがたい大学の先生から1兆あってもできないというように幅が広くなって、特に大きくサポートすることも重要ですが、細かくサポートするバランスも重要で、そこが非常に難しい時代になったと実は感じています。
CRESTクラスの予算が1個あればいいというソリューションだけではなく、そこでも予算を最適化するためのAIが欲しいと感じています。
【辻井主査】 ありがとうございます。それでは、この後は前回と同じように、各先生方に対する質問を事務局のほうにメールで送っていただいて、できる限り回答いただいて、議論を続けていきたいと思います。
それでは、本日の議論はここまでとさせていただきます。それと、事務局から事務連絡があればよろしくお願いします。
【植田補佐】 事務局でございます。お時間が超過してしまい申し訳ございません。本日御議論いただきまして、誠にありがとうございました。
次回検討会につきましては、6月11日、火曜日の同じく16時から18時を予定してございます。先ほど辻井主査からございましたように、本日の御議論について追加で御意見をいただけるようでしたら、来週21日、火曜日の17時までにお送りいただければと思います。質問者として御指名いただいた方につきましては、可能な限りで御協力をいただければと思います。以上でございます。
【辻井主査】 御発表いただいた先生方、議論いただいた委員の方、僕個人としては結構面白く聞かせてもらいました。それでは、これで閉会とさせていただきます。皆さん、ありがとうございました。次回もよろしくお願いします。失礼します。
研究振興局参事官(情報担当)付