令和7年12月26日(金曜日)13時01分~15時10分
オンライン会議にて開催
(委員、臨時委員、専門委員)
大橋主査、木部委員、仲委員、宇南山委員、尾上委員、北本委員、治部委員、森田委員、安田委員、青島委員、後藤委員、田口委員、山中委員、米村委員
(科学官)
池田科学官、杉岡科学官、橋本科学官、松方科学官、松田科学官
山之内振興企画課長、助川学術企画室長、林学術企画室長補佐
【大橋主査】 皆さん、こんにちは。もう年も暮れ、本年最後の営業日のお忙しい中、御参集いただきまして、ありがとうございます。
ただいまより、第29回の人文学・社会科学特別委員会を開催させていただきたいと思います。
本日、全員の御出席と伺っております。大変お忙しいところ、改めまして、御参加いただいておりますことに感謝申し上げます。
本日の委員会の開催に当たりまして、事務局より配付資料と注意事項をお願いできますでしょうか。
【林学術企画室長補佐】 事務局でございます。本日の配付資料でございますけれども、事前に電子媒体でお送りさせていただいております。議事次第に記載のとおり、資料の1から資料の3をお配りしてございますので、もし不足等がございましたら事務局まで御連絡いただければと思います。
本日はオンラインでの開催となりますので、御発言の際は「手を挙げる」ボタンをクリックしていただきまして、主査から指名を受けましたら、マイクをオンにし、お名前を言っていただいた上で発言をいただければと思います。
主査以外の委員の先生は、御発言されるとき以外はマイクをミュートにしておいていただきますようにお願いをいたします。もし接続等で不具合ございましたら事務局連絡先まで御連絡いただければと思います。
本日の会議は、傍聴者を登録の上、公開としてございます。
以上でございます。
【大橋主査】 ありがとうございました。本日ですけれども、議題としては、大きく1つございます。人文学・社会科研究におけるDX・AI活用についてということでございまして、本日、前回に引き続いてヒアリングをさせていただきます。本日、大変お忙しいところ、宮川先生と大向先生に現地に御参加いただいています。両先生におかれては本当にお忙しいところありがとうございます。
本日は筑波大学の人文社会学系、宮川創先生からはAIを活用したユースケースについてお話しいただけるということでございます。また、東京大学大学院の大向一輝先生からはAI研究にかかる人材育成についてということでお話しいただけるということであります。
お二人の両先生の御発表に先立ちまして、前回の委員会で皆様方から頂いた御意見について、事務局から資料も作っていただいておりますので、こちらまず御説明いただけますでしょうか。
【助川学術企画室長】 学術企画室長、人文科学・社会科学振興室長の助川でございます。本日、12月の末のところ、お集まりいただきまして、誠にありがとうございます。
それでは、私から前回頂いた意見等につきましておさらいをしたいと思います。資料は表示しております資料の1でございます。
まず、2ページ目から4ページ目にかけてでございますけれども、こちらが12月5日、前回開催されました委員会で頂いた主な意見をまとめているところでございます。
まず、2ページ目でございますけれども、簡単に御報告申し上げます。まずは、一番上の括弧、「Humanitextの開発を経て感じたAIの利活用の意義」としては、言葉の壁を越えて研究資料にアクセスできるようになったことですとか、研究者の能力をよりクリエーティブなことに充てることができるようになったといったことが挙げられております。
次に、「AIに対する信頼性の確保」でございますけれども、ここにございますように、研究者自身が結局原典に立ち戻って真偽を検証すること、そしてそれができるような環境を構築することの必要性も挙げていただいたところでございます。
また、「AIを取り巻く研究インフラ」につきましては、AIの普及により、人文学においても研究へのコストが増大するというようなお話を頂いたところです。
ちょっと飛ばしまして、次のページ、3ページでございますけれども、「AIを利活用した研究に対する評価」としては、AI利活用の前提となる研究データの構築には相当な労力がかかっていることから、構築に携わった研究者が適切に評価されることが必要といった御意見を頂戴しております。
このお話の前提として、西洋古典についてはしっかりした正確なデータが存在していて、それをHumanitextが参照することができまして、それで発表者の先生方からも委員の先生方からもしっかりとしたデータが構築されていることの重要性にも触れていただいたところでございます。
また、黒の括弧で書いておりますけれども、これから必要なこととして求められるようなこととして考えられる一例として、博士課程のみならず修士課程を含めた学生に対する支援ですとか、人文学の面白さに気づいてもらうような仕組み、また、各大学に権利問題に対応できる人材がいるということが挙げられてございます。
続きまして、4ページ目でございますけれども、人文学・社会科学における権利問題に関する専門人材については、やはり実務経験が重要である等々の御意見を頂いております。
また、権利関係を含めた資料活用に対する問題を克服するためには、法律関係の知識のみならず、コミュニケーションスキルですとか倫理感といった観点も必要であるということが挙げられております。
その他、多々、多種多様な深い御意見を頂戴しておりますけれど、ここの説明では割愛させていただきます。
それで、今期、13期の委員会で議論いただいた、これまで議論いただいたことですとか、私どもが行ったヒアリングとかも踏まえまして、このように図化できるのではないかと書いてみたのが5ページ以降でございます。
人文学・社会科学の研究について、デジタル化ですとか、AIですとか、そういうのがどのような影響を及ぼしたのかについてということについて、かなり単純化しておりますけれども、整理してみたところでございます。社会、研究の発展というものはもっと複雑なものなので、ここまで単純化してしまうと、ちょっと単純化し過ぎるという批判もあるかもしれませんけれども、分かりやすくしたつもりでございます。
まず、左上ですけれども、「研究のデジタル化が進む前」とございます。もともとは伝統的には研究者の先生方が自らの手で原資料に当たって研究を行っておりまして、ただ、先生方、丁寧に当たっていただくわけですけれども、人力で行う、また、アナログである以上、個人が当たることのできる原資料の量にはおのずと限界があったところでございます。
続いて、それが資料のデジタル化というような形で進んでくると右上になります。デジタルの技術が進展して、研究資料のデジタルアーカイブ化が進むと、研究者は原資料を直接当たるということはもちろん、アーカイブされた資料にも当たって研究を進めることができるようになったところです。ここの研究者のところで、1人眼鏡をかけていない先生も入っておりますけれども、地理的に物理的に原資料にアクセスできなかったとしても、デジタルを通じて一定程度アクセスできるということが生じてまいりました。それによって、メリットとしてプラスのところにありますけれども、物理的にアクセスできなかった原資料についても、デジタルによって一定程度は参照可能になるという効果がもたらされてございます。
ただし、原資料の保全ですとか参照の価値ということが低減するわけではないということも付記しておきたいと思います。
ただ、これによる負の影響になりかねないものとして、もともとデジタル化が進む前でも生じるような問題ではあるんですけれども、著作権ですとか肖像権等の権利問題など、資料を所有する方と利用する方の間で調整を要する事項というのは、もともとあったのだとは思うのですが、それがより顕在化するようになってきたということがあるかと思います。
さらに、研究の中にAIを活用するというのが進んできて、これによる影響として、ここに原資料をデジタルアーカイブして、例えばオープン型のAIというものが研究者に対して例えば何かを提示するとかいうことがありますけれども、この影響として、AIを介した情報も研究に活用されるようになるわけでございます。それによって、プラスのマークにございますけれども、AIを活用することによって研究者個人では処理できなかった膨大なデータを解析することができるようになって、それで研究が加速化したり効率化したりするということは言えるかと思います。
また、AIが研究のあらゆるプロセスをサポートすることによって、研究の深みが増して、またほかの分野ともつながるということで幅が拡大するということが言えるかと思います。
一方なのですけれども、マイナスのところにありますけれども、ここオープン型AIに向かう矢印を点線で書いてクエスチョンマークで表現してございますけれども、オープン型AIというものがデジタルアーカイブされた資料をちゃんと参照しているのかどうか、あるいはウェブに存在する無数の情報からどんなものを参照しているのかというのは必ずしも明らかではなくて、なので、透明性・信頼性が担保されているかどうか必ずしも明らかではなくて、なので、研究に活用するには、場合によっては透明性・信頼性の観点から課題もあろうかと考えてございます。
このほか、ここの図には書かなかったのですけれども、例えば研究者の先生方が、AIを例えば翻訳に使うですとか、翻訳に使うというのは、和訳や、あるいは作られた文書を英語、外国語訳を使うですとか、あるいはAIを使ってアイデアを確立するですとか、そういうような形で使われている方もおられるかと思いますけれども、そういうような使われ方というのはあるかと考えております。
なので、ちょっと私ども、今ここで資料のデジタル化というフェーズと、更にAIの活用というフェーズを単純化して分けてみましたけれども、前回の委員会で御発表いただいた岩田先生と鈴木先生の事例を、先ほどの下の図中に埋め込んでみると、どこの部分を解消したのかというものが次の6ページ目でございます。
まず、図の真ん中のところにあるひし形でございますけれども、岩田直也先生に御発表いただいたHumanitextでございます。参照できるデータを信頼できる原典に絞ることによって出力される結果の信頼性を担保しているものでございました。
なので、この前提として、先ほど私が申しました信頼できるデータの構築というのが重要であるということが言えるかと思います。
左のところにあります権利問題専門人材のところでございますけれども、鈴木康平先生に御発表いただいた事例になります。AIの参照元になるようなデジタルアーカイブですとか、研究者が直接参照する原資料を適切に活用できるようにするために、権利問題という切り口で障壁となる事柄の克服ですとか、支援を行うというものでございました。
それで、7ページ目のところでございますけれども、これまでの議論を踏まえて、ちょっとこれもある意味単純化し過ぎているかもしれませんけれども、人文学・社会科学におけるAI利活用の現状、課題、効果、展望として、ちょっと整理を、何点かの観点に分けて整理をしてみたものでございます。
現状のところですけれども、AIの急速な進展と各国での取組が急速に加速しておると。ただ、その下の課題のところに書いてございますけれども、申しましたように、透明性・信頼性の確保については課題がございます。
ただ、これらの解決方法として、人文学・社会科学の特性というのは生きるのではないか。1つ目の黒丸でございますけれども、そもそも人文学・社会科学というものは結論に対して意味、解釈に重きを置く学問でございまして、AIの出した結論に対して透明性・信頼性を検証することができるだろうと考えております。
また、2つ目ですけれども、AIの回答の基となるデータインフラとして我が国の人文学・社会科学の知を適切に構築することですとか、その知を適切にAIに学習させる、活用させるということができるのではないかと考えております。
このようなことを通じて、黄色の箱でございますけれども、人文学・社会科学にもたらされる効果として、まず1つ目の丸でございますけれども、これまで人間が処理できなかった膨大なデータをAIによって解析できるようになって、結果、プロセスが高速化、効率化して、それによってより多くの、更に多くの研究とかを進めることができる。
また、多くのデータに当たることによって、例えばこれまでは抽出でしか調査できなかったものが、すべてに近いような形で調査できるとなれば研究がより精密化するというような形で質が向上するであろうと。
2つ目、3つ目でございますけれども、研究の筋道ですとか、推論立てとか、新たな知の候補の発見というものをAIが手伝ってくれるということで、人間だけでは見つけられなかった新たな値が創出される。更に、それによってこれまでつながることのなかった知見ですとか、あるいはその知見の先にいる研究者の方々も提示されて、そこでより広い人間とつながることによって、より総合的に事象を研究できるようになるということも言えて、これらによって研究者の想像力の発揮、新たなネットワークの構築というものにも役に立つのではないかと。
4つ目のところでございますけれども、今まで私申しましたのは、AIを活用すること、人文学・社会科学一般についてということで申しました。ここの4つ目のところは、前回、今回の発表は、西洋古典ですとか、古代エジプト語とか、そういうものでございますけれども、そのほかのヒアリングとかも踏まえると、人文学・社会科学一般というだけではなくて、分野の研究にも役立つのではないかということを例として挙げてございます。
例えばAIの活用のためになされるデータインフラ整備というものが、我が国の人文学・社会科学の知の蓄積ですとか、それを発信するとかいうことになって、そうすると、先ほどの図で申しますと、いろいろな物理的にアクセスできない人からもアクセスできるようになった。ということは、外国の方からも日本に関する研究をしやすくなるとか、遠く離れたところからもやりやすくなったということは、ひいて言えば分野の研究にも役立つのではないかと考えております。
更に一番下のところでございますけれども、翻訳、校正などが、という研究者の様々な営みが、AIの補助によって、当然学会等で決められたルールの範囲内でやっていただくことになると思うのですけれども、それによって一定程度効率化されれば研究者の負担軽減につながるのではないかと。
このような効果があって、それによって技術進展と課題解決というのが一緒になって人文学・社会科学の研究力強化につながる。AIが人文学・社会科学の振興の後押しをする1つになるのではないかと考えてございます。
前回頂いた御発表ですとか、これまで私どもが伺っていた話など、かなり単純化してまとめると以上となりますけれど、本日は、更にこの後、宮川先生、大向先生の御発表も併せまして、その上で、後ほどの御議論の中では、その中で、人文学・社会科学において、こういう技術を活用するに当たってどのようなことを例えば国として行っていくことが必要になるのかということの御知見を頂戴できればと考えてございます。
私からは以上でございます。よろしくお願いいたします。
【大橋主査】 ありがとうございます。資料1の方を御参考にしていただきながら、この後ヒアリングを進めてまいりたいと思います。
それでは、早速ですけれども、両先生から御発表をお願いしたいと思います。まずは、宮川先生、その次に大向先生の順でお願いし、両先生の御発表が終わった後、最後にまとめて質疑応答の時間に充てさせていただければと思います。
最初、宮川先生から「人文学におけるAI研究基盤」ということで、タイトルで資料も作成していただいています。プレゼンテーション20分ほどお時間いただけるということですので、御準備がよろしければお願いできますでしょうか。
【筑波大学(宮川)】 宮川でございます。筑波大学から来ました。本日はお忙しい中、お時間いただきありがとうございます。
本日は、人文学におけるAI研究基盤について、私の専門である古代エジプト語・コプト語、そしてアジア・アフリカの消滅危機言語研究での実践例を通して、今後の支援政策について何か参考になればなということでお話しさせていただきます。
今週すごく忙しくて、資料の提出がちょっと時間を間違えてしまってすみませんでした。ということでよろしくお願いします。
まず、簡単に自己紹介なのですけれども、私は筑波大学でエジプト学とコプト語を専門にしていて、古代エジプト語とか、コプト語とか、あと、歴史言語学とか、コーパス言語学を教えています。2022年にドイツのゲッティンゲン大学で博士号、Dr.philを取得しました。
特徴的なのは、古代言語研究にデジタル技術を活用していることで、これはドイツのプロジェクトからそのやり方などを教わって、そこで働きながら博士号を獲得したということで、デジタル技術と人文学の融合のような博士論文を提出しました。そういった中で7年間やってきて、デジタル人文学の基礎をドイツで学んだという感じです。
日本に帰ってきてからは、関西大学とか京都大学とか国立国語研究所さんで日本の文献資料とか、あと、琉球の諸言語、琉球には様々な、少なくとも6言語、八重山語とか、奄美語、与那国語、宮古語、国頭語、これちょっと人によっていろいろな説があるのですけれども、あと沖縄語ですね。あと、日本には八丈語もありますし、あと、北の方に行くと、アイヌ民族のアイヌ語があります。アイヌ語以外は日琉諸語族に入っているのですけれども、そういった言語のデジタルツール、デジタルアーカイブ、そういった言語資料のデジタルアーカイブとか、あと自動翻訳、アイヌ語の自動翻訳とか、最近ではタロコ語という台湾の先住民の言語、オーストロネシア語族に属するのですけれども、その自動対話システムとか、教育システムとか、自動翻訳などを作成しています。
私がやっているのはかなりデジタルヒューマニティーズと呼ばれる分野で、ヒューマニティーズとテクノロジーを掛け合わせた文理融合のアプローチをやっています。
背景知識で、ここではあまり時間がなくて、すぐに終わってしまうと思うのですけれども、古代エジプト語・コプト語が私のメインのサブジェクトでして、この言語は世界最長の書記期間を持つ言語で、一番古い文献は紀元前3250年頃ですね。古代エジプト文明の主要言語で、こういったヒエログリフなどで書かれました。ほかにも筆記体のヒエラティックとか、デモティックとかあるのですけれども。
コプト語はというと、本当は古代エジプト語の一部で、古代エジプト語の最終段階なのですけれど、コプト文字という、ギリシャ文字ベースの文字で書かれた古代エジプト語がコプト語ということで、大体紀元後3世紀、4世紀に、標準化されて、現在まで使われています。使われているといっても、母語話者は17世紀に最後の記録が残っていて、しかし、現在でもコプト・キリスト教、コプト正教会とか言われるキリスト教の一派で用いられており、文語として用いられていて、更に19世紀から言語復興運動が盛んになって、今も続いています。
研究の課題ですね。こういった言語、古代エジプト語・コプト語は資料がすごく断片化していて、ひどいときには、文献のページがそれぞれいろいろな博物館とか図書館に、世界中の博物館、図書館に散らばっていたりします。
また、方言も多様で、特にコプト語は6つ方言が、巨大な方言があって、ほかにも小さい方言がいっぱいあると。
あと、研究者人口が少ないですね。特にコプト語をやっている人はすごく少ないですね。古代エジプト語もやっている人は、コプト語よりは多いですけれども、全般的に少ないということです。
それでなぜデジタル化・AIが必要かということで、デリケートな原典をデジタル保全して、どんどん劣化していっていますね、羊皮紙とか、パピルス紙とか。それを世界中で共有できたら、世界中の研究者がそれをもって研究できると。
あと、解読の効率化ですね。今、トリノのエジプト博物館とかでやられているのですけれど、断片の自動接合とか、欠損文字の復元予測とか、こういったところでかなり時間を効率的に使えると。
あと、大規模分析ですね。手作業では不可能な原文献の横断的分析など、こういったことができるということで、やはり研究者人口が少ないということもあって、デジタル化・AIが必要ということで、かなりいろいろなプロジェクトが、特にヨーロッパを中心に行われています。
研究活動におけるAIの位置づけですけれども、私たちはやはり従来の研究方法とDH、AIの導入を両方やっていっている感じですね。どちらか片方だけやるというわけではなくということですね。もちろんDHでコーパス構築と検索で大規模に分析して、NLPパイプライン、自然言語処理でいろいろなタグづけなどを行って、それに更に分析してみたいな感じで、非常に定量的な分析や、今までにはできなかった分析もできるのですけれども、もちろん従来の方法もやっていって、手作業による文献調査もかなり必要ですし、また、OCRなどがつくった、出力した結果を手作業で修正するというのも非常に重要です。手作業で修正した結果でまた機械学習させて、またそれで新しい文献を認識して、それでまたその結果を人が直して、またそれをAIが学習してというHuman-in-the-loopの形でやるのが一番理想的ですね。あと、もちろん目視でのテキスト比較とか、今でも必要です。
従来のやり方だとやはりスケールが限定的で、1人の研究者ができるものというのはすごく小さいものですけれど、今、すごくたくさんの文献がどんどん劣化していって、早くこういった文献を翻刻したり研究したりしていかないといけないので、今、DH、AIと従来の研究方法を掛け合わせた研究が世界中で進展しています。
どんなことやるかといいますと、OCRとかHTR、手書きテキスト認識とか、自動で写本の画像とかからデジタルテキストを抽出すると、コードで抽出すると。
あと、形態素解析とかタグづけで、まずコプト語は実は結構、変な分かち書きがなされていて、あまり英語みたいにはなされなくて、句レベルで分かち書きがなされるのですけれど、内容語に機能語がくっつくという、それで単語を分ける必要もあるし、lemmaとか見出し語とか、いろいろ検索できるように品詞タグとかつけて、いろいろなこと、あと、統合解析、どれが仕事かやったりとかするのも重要ですし、僕は博士論文でやっていたのはテキストリユース解析で、インターテクスチュアリティー、間テキスト性の解析で、引用とか、引喩とか、当時の四、五世紀の修道院長はすごい聖書から大量に引用していて、全部聖書を記憶しているのが偉いとされていたので、それで大量に、古代訳ですね、しかも、かなり古代の古い聖書訳から引用などをしていたということで、平らにしているので、テキストリユース検出ですね、引用などの検出なども重要ということです。
こういった大規模定量的分析、そしてDistant Readingですね、これを従来のクロス・リーディングとか、もっとクオリティーの高い研究手法と掛け合わせることでいろいろなことができると。
やはりデジタル・エコシステムという、スキャンして、HTRにテキスト化して、自動タグづけで、検索可能データベースに登録という一連の流れや、それでHuman-in-the-loopですね、AIが出力したものを人間が修正して、それをまたAIが学習して、また人間が修正してという、新しいところ、認識で、それをまた人間が修正してAIが学習するというループ、いい好循環でやっていくというのがやはり一番重要かなと思います。
機械翻訳モデルの構築とか、言語モデルの構築は、やはりこういったことをやるにはすごく重要で、言語モデル、かなり正しい精度のいい言語モデルをつくると、いろいろなものが、OCR、HTRもそうですし、形態解析、統合解析などもすごく精度が上がります。今、それを私は取り組んでいます。
全体的にデータをベクトル化させて、それで、最近は、既存のLLMにベクトル化させたデータを与えて、そこから正しい答えを取り出せるというRAG、Retrieval-Augmented Generation、検索拡張生成というものを使って、古代エジプト語を解析できるようなAIをつくっています。
こういうことをやるとやはり時間的コストが削減されますし、あと、言語バリアの低減ですね。コプト学とか本当に、ラテン語、イタリア語、アラビア語、ギリシャ語、ドイツ語、フランス語、英語とか、こういった言語の論文を読まないといけないのですけれども、論文とか、あと1次資料ですね、あと古代エジプト・コプト語とかですね、もちろん。多言語モデルをつくれば、結構そういったものも、もちろん原典には当たらないといけないですけれども、ぱっと見てどういったことが書いてあるかとか、要約とかもつくってくれるということで、技術的ハードルもどんどん低下して、最近は本当にコーディングするのもかなりAIがやってくれるので、どんどんとコーディングの作業効率が上がっているのですけれども、そういったすごいいい面がたくさんあります。
それでつくっているのがTHOTH AIというもので、古代言語学習・研究支援のAIです。これはRAGを使って、ベースはClaudeなのですけれども、今6,500人以上、世界中でユーザーがいます。特にエジプトとかアメリカやドイツから多いです。一応この間EMNLPの、NAACLの附属ワークショップ、NLP4DHという、私もオーガナイザーになっているワークショップなのですけれど、そこで発表をして、中エジプト語からエジプト語への翻訳で、一応最高水準のSOTAになりました。
ちょっとだけお見せしたいのですけれど、時間がないので。これは私のホームページなのですけれども、ここで公開しています。今第2版をつくっていて、もうちょっとしたらもっときれいなホームページになります。
過去にあった結果とかはこんな感じで、ヒエログリフについて、いろいろなことを教えてくれたりとか、翻訳とかもやってくれたりとか、いろいろなことをやってくれるAIですね。翻訳が特に得意なのですけれども、私はおなかがすいていますとか、コプト語に翻訳、書くと翻訳してくれます。
こういったAIをつくっています。共有に戻ります。こういうようなものを使ってつくっていますと。写真で見せますけれども、私、今、「本を書いています」を訳してくださいと言ったら、文法解釈をつけてくださいと言ったら、こういったふうに訳して、文法解析をつけてもらえるほか、いろいろなことができて、この単語の音の再現をしてくださいとか、ここにある単語を見せてくださいとかでも出ることもできます。
今新しいデザインをつくっていて、THOTH AIバージョン2をつくって、これが結果なのですけれども、このコプト語のテキストに入っている引用を見つけてくださいということで、聖書から引用を見つけ出しているということで、見やすくというか、大分デザインを変えてやっています。 今、6,500人以上のユーザーがいます。
Mario Bishara氏というコプト語の言語復興運動家の人が、THOTH AIを使ってくれて、グリム童話のコプト語翻訳などを彼がベーステキストとしてつくっています。それで、彼はもちろん修正などして、それを出版しているのですけれども、かなりこういったところで効率化ができているということです。
あと、音楽とかもつくっています。もし時間があったらこの音楽など聴いてみてください。
それで、デジタル化の方もOCRとかHTRを使っていて、いろいろなアプリケーションを使っていて、最近、Transkribusをよく使っていて、こういったコプト語の版本も自動でデジタル化してくれたりとかします。画像データからCoptic OCRによるテキスト化、NLP Serviceによる自動解析で、あと、Coptic SCRIPTORIUMという、コプト語の大規模コーパスプロジェクトが全米人文科学基金のお金でやっていまして、そこにコーパスデータをたくさん提供しています。ジョイントプロジェクトもやっていまして、そこでかなりたくさんコーパスデータを提供しました。
あと、テキスト再利用というか、引用とかなのですけれども、その検出結果とかも一番よいものが出ています。人でやったら、これが先行研究で、手でやったものですね。それはあるパッセージの中で9個引用を見つけたのですけれども、別のソフトウエア、これは統計ベースのソフトウエアではもう少し増えて、LLMベースの取ったAIでは、16個という、かなり多いものを見つけました。人に対してプラス44%検出ができたという感じですね。
それで、時間があまりないのですけれど、やはりハルシネーションは一番大敵で、やはり専門家が見ないとどれがハルシネーションか分からないというのが結構ありまして、そこが一番AI使用の問題かなと思います。
あと、権利・倫理ですよね。コプト語は古いテキストばかりなのですけれど、今、タロコ語という、台湾先住民の言語でのAI対話型教育システムをつくっていまして、これは生きている方からデータをいただいて、それを基に学習、トレーニングをさせていくので、そういった問題が非常にあって、やはりコミュニティーベースで、データを提供してくれる方と親密に、綿密にコミュニケーションというか、了解を取ってやっていくしかないと思います。
今、タロコ語と現代語の自動総合翻訳アプリをつくっていて、小泉先生の科研費でこういったものをつくっています。「I am a student」、「Laqi mats ku」と言ったりとかします。で、下に文法解析をしてくれると。
この間台湾の原住民のニュースネットワークでニュースになりました。ユーチューブに接続できないので、お見せすることができないのですが、ここのユーチューブのリンクをクリックしていただければ行けるので、是非見てください。
あと、このテレビの中でも取り上げられているのですけれども、Suno AIという音楽生成をするソフトと、タロコ語のAIと、あと動画生成のAIで、楽曲のMVとか、ミュージックビデオとかもつくっています。これも是非見てみてください。
ということで、最近は、そのほかにもLAJaR+といって、文部科学省のAIなどの活用を推進する研究データエコシステム構築事業で、北本先生も入っていただいて、文法書からLLMとRAGで文法項目を取り出して、それをマッピングしていくということをしています。最初は日琉諸語でやっていたのですけれど、今は台湾とアイヌも入れてやっています。
今4年目ですね。3年はROIS-DSの研究共同課題でやらせていただいて、今は文部科学省の方でやらせていただいています。
ということで、時間がなくなったのですけれども、やはり倫理的問題とか、データの偏り、質というのは非常に重要で、これからそれらを克服していかないといけないというのとハルシネーションをどう捉えてやればいいのか。やはり専門家がずっとちゃんと見ていないと、そちらに依存してしまった間違った文書がどんどん出てきてしまうので、非常に重要かなと思いますし、あと学習データとかももちろんたくさんプライバシーの問題が入っていて、そこら辺をクリアしないといけないですけれども、できるだけ、学習データなどは公開して、Zenodoだとか、学術リポジトリ、欧州の大きなCERNがやっているZenodoってありますけれど、日本でもそういったデータセットのリポジトリ、大規模リポジトリがあって、義務づけるとか、何かそういったことがあればもっと進んでいくのではないかなとは思います。
という感じで、やはりインフラをもっと整備していただきたいというのと、AIめちゃくちゃ使える人と使えない人の格差がちょっと広がっているように、特に生徒、学生を見ていて思うので、そういった教育の方もしっかりしていければなと思いますし、あと、AI開発も、ローカルというか、もっと特定の言語、消滅危機言語とか、そういった大言語ではない言語に特化したAIの開発とかもしていければなと思っています。
あと、共有知の形成で、いろいろなやった失敗も含めたデータ、ナレッジベースみたいな、そういったもので、みんなで知識を共有してAI開発とAIを活用した研究をやっていければと思います。
では、これで発表を終わります。ありがとうございました。
【大橋主査】 ありがとうございます。大変盛りだくさんの内容で、ちょっと時間限られてしまって申し訳ございませんでした。
【筑波大学(宮川)】 動画を見せられずすみません。かなりリアルな音楽なので、是非聴いてみてください。
【大橋主査】 ありがとうございます。後ほどまた意見交換をさせていただければと思います。
それでは、お待たせしてしまいましたが、次、大向先生の方から「『人文学とAI』の人材育成」ということで、資料も御用意いただいています。
それでは、同じく20分ほどお時間いただけるということですので、お願いできますでしょうか。
【東京大学(大向)】 御紹介にあずかりました東京大学大学院人文社会系研究科の大向一輝と申します。今日はよろしくお願いいたします。
今、宮川先生からも非常にたくさん内容をお話しくださいました。私の問題意識としては、宮川先生のような人を教育カリキュラムで育てることができるのか、ある種の再現性を持った形でできるのかと、そういったところに今興味を持っておりまして、そのところからお話をできたらと思います。
まず、私自身の、今日の話の立脚点ということでもありますけれども、御紹介をさせてください。私自身はもともとは情報学をバックグラウンドとしておりまして、6年前ぐらいに東大の文学部の方に移ってまいりました。大本が今でいうところの人工知能技術の1つであるところの生物の進化を模倣したアプローチということで、現状、非常に流行して、よく使われている脳の仕組みを模したものとは違いますけれども、こういったところから研究をスタートさせております。
その後、インターネット上での知識共有・コミュニケーション等々に興味を持ち、ここで生み出されるデータ自体が今のAIの土台を形づくっていることにはなっているのですけれども、そのような活動をしてまいりました。
国立情報科学研究所に就職いたしまして、そこでは学術情報サービスCiNiiという、非常にそこそこ大規模なデータ流通プラットフォームというものを構築、提供しながら、学術全体を支える活動をしておりました。その他、文化庁あるいは国立美術館で進めていますマンガ、アニメ、ゲーム等々の現代文化に関するデータベースなんかにも関わっております。今は東京大学におきまして、デジタル人文学に関する研究、教育を進めております。その中でAIとの関係性を考えているということになります。
その他、学会活動といたしまして、人工知能学会、6,000人ぐらいいる非常に大きな学会ですけれども、そちらの理事であるとか、デジタルアーカイブ学会の理事ということで、今日冒頭にお示しいただきました構図のある意味下半分部分に関する活動を今は行っているということになります。
その他、大学の方では文学に関するデジタルアーカイブづくり、そしてこの後紹介する教育活動ということで進めているところです。
まず、東京大学大学院人文社会系研究科で行っておりますデジタル人文学そのものに対する教育プログラムを今年度からスタートしております。おおむね様々な講義等は10年前ぐらいから少しずつ進めていたのですけれども、より明確な形として打ち出しております。ここでは人文学の研究、主に言葉、人、社会というものを対象とした研究であるわけですけれども、そこに対してデジタル技術を使った分析手法を教えていく方法論というテーマと、一方で、やはり資料が最近はデジタル化が急速に進んでおり、しかし、そのプロセスなどはなかなか見えないところもあるということで、研究基盤ということに対しても理解をしてもらえる、そういった大学院生を育てたいということで様々なテーマを掲げておりますけれども、その中にやはりAIというものが非常に大きく入り込んできているということになります。
我々は特に大学院生を対象としておりますので、大学院生というのは基本的には自身の研究テーマを持っている。そこで更にデジタル技術をどう学んでいくかという立場を持ってやっております。
これまで少しずつ進めてきたのですけれども、特にAIを使ってどのような研究成果が生み出されつつあるのかということを先に次のページでお知らせしたいと思います。全て今年行ったものということになるのですけれども、4件ございます。
1つ目は、中世アラビア語の医学文献の翻訳者推定と書いておりますけれども、中世アラビア語の科学知識というのは、それまでに古代ギリシャで培われてきたものが移転されてきたわけですけれども、一体その文献を誰が翻訳したのかということが問題になっておりまして、様々な研究が行われておりました。ここでは、その課題を解くためにAIを使ってみようということで、アラビア語の言語モデルを改良していくと。実際には既に明らかに翻訳者が分かっている文献を、どの文章を誰が書いたものかというようなものをたくさんデータをつくって、それを使って、分類器、自動分類をするためのシステムをつくっていくということになります。
これを動かした結果なのですけれど、既存研究とは実はある文献は異なる翻訳者がやっているのではないかという、これは統計的な傾向ということになりますけれども、そういったものが示唆され、この後、議論を通じてこれが正しいかどうかを確認していくということになります。
2つ目の研究は、ヴェーダ・サンスクリット語と呼ばれる紀元前1500年ぐらいにインドで話されていた、使われていた言語のOCRシステムということになります。サンスクリット語自体のOCRというのは今はインド中心に開発を進められていますけれども、非常に古い時代のものというのはまだまだ手つかずの状況であるということで、こちらもデータを整備して、既存のモデルを改良し、それで実際に過去の文献が読み取れるのかということも検討しています。
こういったことをやっていきますと、古典サンスクリットというのはヴェーダ語よりも新しい時代のものなのですけれども、そういったところには存在していない記号等を認識させるためには、それ相応のコストを払って読み取ることをやらなければいけないと。こういったことが研究活動の中で行われているということになります。
次に、話は打って変わるのですけれども、今度は古代ローマ文献を対象としたRAG・Graph、RAGの比較ということで、RAG自体は、今日先ほど宮川先生もお話しくださったものや、岩田先生の主要なあれもあるかと思いますけれども、ある文献テキストに対して、ベクトル化、数値化を直接行った方がよいのか、あるいは、左下にあるように、一旦テキストを何らかの物事と物事の関係性のネットワークとして表現するという処理を自動化させた上で、その後、何らかの問合せに対応するというフローを取った方がよいのか、こういったものを比較するということをやっております。
これは実際にやってみると、一長一短としか言いようがないという状況ではありまして、しかし、こういった自動的なネットワーク化というのもぱっと見は非常に物事を分かりやすくしているように見えながらも、やはり専門知識がきちんと反映されていないということも確認されており、今後、専門家による精度の高いネットワーク、情報の整備の必要性を示唆したと、こういった研究になっております。
4つ目は今度は急にまた現代に飛びまして、新型コロナ禍において積極的疫学調査というのが、保健師さんが手作業で患者さんに聞き取りを行っていたのですけれども、こういったものの効率化を行っていくために、患者さんが語る自然言語から、いつ誰がどこで何をしたといった情報を的確に切り取るためのAI開発を行っております。こういったものはかなり複雑な構造を取らねばならず、一気にAIにさせようとすると非常にハルシネーションが起こりやすい問題ということでもありますので、こういった問題を幾つかに分解しまして、既存のデータからどんな構造であるべきかということを推測させる。推測させた構造に合致したデータを元のテキストから変換させる。幾つかのステップを組み上げることで、複雑な情報をきれいに取り出すということをやろうと。今年度こういった研究をやってまいりました。
こういったことは私たちのチームの若手研究者あるいは大学院生が取り組んでいるわけですけれども、こういったことが可能になるために、ふだん私たちがどういうことを彼らに伝えているかというところが今日の話題の中心ということになります。
もともとデジタル人文学は、プログラミングやツールを使いながら大量のデータを処理して新しい知見を導こうという学問分野だと思いますけれども、大きな問題として、情報技術自体を習得するために非常に時間がかかるということです。時間がかかればかかるほど研究対象そのものに向き合う時間を圧迫してしまいますので、ここにおいて、どこまでこの教育を強化していけばいいのかというのが非常に悩みでありました。
さらには、そうやって苦労して学んだものが一夜にして技術が無価値になってしまう可能性もなきにしもあらずということ、ここに対するある種のおそれというのもございますので、どこまで展開させていくのかが難しいところでありました。
一方、今のAIは、学んでから使う技術というよりは、学ぶ前にもう既に使えてしまうというところまで整備されているということであり、かつ、言語によって指示すると、それに対する応答が返ってくるということで、非常に気軽に使える技術であると。
プログラムも、学ぶよりも生成させるということが可能になっているので、この辺り、前半の問題点が大きく解消する非常に重要な技術だと考えております。
さらには、AIが知的な振る舞いを内包しておりますので、なかなかプログラミングを学ぶだけではできなかったような課題、例えばテキスト中から一般人らしい人名の名前を取ってきてほしいとかという、こういったものは一般人の人名というのが定義できませんので、辞書を用意するというアプローチが全く使えなかったところが、我々が実際にテキストを読むごとく、それらしい文字を見つけてくれる、あるいはこういうテキストにはどんな感情が含まれていますかといった、我々のような読みを模倣してくれるということにおいても、単なるこれまでのプログラミングという道具を超えた存在にもなり得るだろうと思います。
こういった中においてどう向き合っていくのかというところで、ここで示している、このページで示していることはある程度穏当な考え方だろうと思います。それは自分ができることをAIにもやってもらおうということで、ただし時間的制約を超えてたくさんのものを読ませるということで、OCRあるいは手書き文字認識、固有表現、固有名詞と認識、分類といった自分ができることを代行させるということになります。
量を増やすことができれば研究テーマにも広がりが出てくる。例えば、単純に量を増やして記述統計的にある種の資料の性質を見るということは当然できますけれども、例えば歴史研究において、隣接地域の資料まで読み込んでいこう、あるいは少し時代が前後する資料に関しても読み込んでいくということが可能になれば、そのことだけでも1つの大きな研究テーマとして位置づけられることになりますので、こういった量を増やしていくということ、しかし「読めること・できること」は変えないというアプローチは極めて有効かと思います。
それのある種、同じことかもしれませんけれども、ここでも、様々議論が進んでいるデータの構造化と共有というのも、AIによって非常に支援される部分があるだろうと。これはある研究者が1回読んだ、その読みというものを固定化して、ほかの人が体験を共有できるようにするということですけれども、そこにおいて、構造化、形式化のルールが一定のコミュニティーで合意された。そのルールに基づいているというものをAIにつくってくれということはある程度容易なことかと思います。
実際に簡易な構造化であれば、AIによる自動化は可能だと思っておりますし、ここに非常な手間がかかってきた。これを若手、学生がかなり時間をかけると、また実際の研究の時間を圧迫してしまうという、どうしてもインセンティブが欠如していくという構造を克服できる可能性があるということです。
ただ、これ以上の使い方が実際には社会的にも期待されていることだろうと思います。ここでは翻訳プロセスを通じて研究対象を拡大あるいは越境していこうというアプローチが求められるのだと思います。
ここで翻訳と呼んでいるのは、複数言語間というだけではなくて、地域においても少しずつ言葉の使い方が変わっていく、時代によっても変わっていく。あるいは、画像資料とテキスト資料、動画資料、そういったメディア間もまた翻訳という言葉で呼んでいますけれども、この言語モデルというものがベクトル空間への数値的な情報へのマッピングというもの、どんなメディア、どんな言語であろうとやってくれるということでありますので、これまでであれば文字列の類似で見ていたことが、意味的な類似を把握することができ、その結果によって、先ほどの最初の例でも、例えばギリシャ語の知識がアラビア語にどう移っていったのかとか、そういった非常に大きな問題も捉えていけるようになるはずであろうというわけです。
個々の研究者は、何もかもの言語をマスターすることはできませんので、未習得の言語、あるいは他分野のデータも使いながら研究をしていくということによって、未知の発見、これまで人文学的に行われてきた定説の再確認等々ができるものと思われます。
しかしながら、これは完全に1人ではできない領域に踏み込んでいくということで、AIを頼るということは、手段としては認められるわけですけれども、実際に自分より詳しいAIというものに何か問題を託したときに、その結果をどのように信頼してよいのか、このメカニズムを知らないものをどう信頼するかということ自体がやはり大きな問題になってくると思います。
現在の生成AIは、よく言われるように、これは確率的なおうむ返しをしているだけなのであると言われます。実際にはたくさんの言語のコーパスを集めてきて、統計的なパターンを学習し、それを模倣するというのが言語モデルの基本的な考え方であろうと思います。
この例で、「吾輩は何々である」と書いてありますけれども、ここでこの黒い部分は皆さんが想像する言葉は多分1つなのではないかと思います。それは猫という言葉だと思いますけれども、「吾輩」の後に「猫」が来るということは別に論理的に決まっているわけでもなければ必然性があるわけでもない。しかし、我々は文化や教育によってトレーニングされていて、ここに猫以外の言葉を思い浮かべることが難しいという状態でもあるわけですけれども、こういったことをAIも模倣しているわけです。
現代のAIも極めて流暢に答えを返してくれますけれども、流暢であることそのものが正確であることを保証しないことも指摘されていますけれども、一方で、我々が、今語っている言葉も、また常に論理的かつ正しいことなのかということを改めて問う機会にもなっていると思います。
また、AI、言語モデルを学習するにおいては、事前学習と事後学習という、大きく分けて2つのプロセスによってなされております。事前学習というのは、先ほどの言語の統計的なパターンを丸ごと模倣していく方向に向かうわけですけれども、そこにはデータ自体のバイアスという問題が必ず存在しています。
これを事後学習というプロセスによってある種倫理的な答えを返す、我々が求める答えを返すように、そういう振る舞いを身につける操作が行われているわけなのですけれども、では一体、元の観念、価値観というのは誰のものなのかということも問われなければいけませんし、あるいは当たり障りのない答えを返すAI、そのようにトレーニングされたAIは、あまりオリジナリティーのある答えを返してくれないというある種のトレードオフもある中において、こういったシステムをどう設計していくかということが、技術者だけに全てお任せできるのかというところについては大きな議論が必要だろうと思っております。
実際にAIというのは現実に存在する技術を極めて巧みに組み上げられた人工物だと考えられますし、実際そうであろうと思います。そこにはこれまで試行錯誤が様々存在しており、その時々で起こる問題を繰り返し解決してきたという、そういう歴史もあります。人工知能学会においてもこういった歴史を知るための絵巻のようなものをつくっていたりして、こういったことも使う側が知っておかねばならぬことだろうと思います。
あるいは、この技術は現実的なものであるが故に、社会的、経済的あるいは物理的な制約というものを必ず受けており、その姿がどうであるかということも理解する必要があります。それは電気代をものすごく使うであるとか、0.1秒では何も答えてくれないとか、そういったことも含めて、技術というのは魔法ではない、神秘なものではないということを認識する必要がありますし、このことはかつてもインターネットや検索エンジンというのが現れてきたときに、我々は時間をかけて受容してきたはずでありますし、これは大学の教育研究を含めて、今はそれをうまく使っているわけですから、ここに対する議論というのは使う側も当然入っていかねばならないということかと思います。
実際に技術者、あるいは情報学の研究者とコラボレーションということも進めつつあります。やはりデータというものが、特に人文学の現場では、皆さん自分のパソコンに膨大な量が入っている場合もあります。これをうまく使ってもらう。その結果をAIの形で実装してもらって、また検証していくというようなコラボレーションの在り方というのはでき始めているところかなあと思います。
人文学にとっては、読むこと、それは情報学にとってはデータをつくることかもしれませんし、実際によい読みがよいAIをつくり、そのAIがまたよい読みを助けるという、ここではHuman-in-the-loopという言葉がよく出てきますけれども、人文学研究においては、AI-in-the-loopということで、AIが入っていく中で、人文学で行われていた解釈、議論、合意のシステムの中にAIをどう組み込んでいくかということを議論の対象とできればと思っております。
こちらが最後のスライドということになります。まだまだ始まったところということで、我々もカリキュラムに明確にAIを冠した事業というものは、これからつくっていかなければならないと、そういう状態になっております。そういうことを仮に実施するとして、やはり大規模計算リソースへのアクセス環境というのは、重要かと思います。何ができるか分からない段階においては、湯水のように技術を使ってみなければいけない、最初から節約をしなければいけないということでは発想が生まれづらいということではあるんですけれども、やはり人文学、情報学、分野によって研究予算規模の違いがあるので、ここに対してどういうアクションが取れるかということは議論できればと思います。
また、教育プログラムという面では、先ほど私がお話ししたようなAIがそもそも何であるのかということについては、ある程度定性的な理解が必要だろうと思いますし、ここから先は、人文学、情報学の相互理解を目的としたある種のプロジェクト型の研究、あるいは学習カリキュラムの設定等も必要かと思います。
最後に、AIと人文学の関係においては、やはりそれが実際に学術的業績として評価される場が必要であろうということで、私自身もデジタルアーカイブ学会や人工知能学会等々でお互いが交じり合える場をつくっていくことを何とか進めていきたいと思っておりますので、こういった場に関しても何らかの御支援を賜ればと考えております。
また時間が長くなってしまいましたけれども、以上となります。ありがとうございました。
【大橋主査】 宮川先生、大向先生、ありがとうございました。宮川先生から古代エジプト語、コプト語に関して、御研究されている中で、実際どういうことをされているかということとその中で感じられた課題について御指摘いただいたのかなと思います。大向先生からは、正に冒頭頂きましたけれど、宮川先生のような人材をどうやってリプリケートするのかという観点での人材育成ということでお話しいただいたということなのかなと思います。
たまたま両先生とも言語に関するところを起点にしてお話を頂きましたが、そうしたことを含めて、皆さん、是非意見交換させていただく場を設けさせていただきたいと思います。本日、全員御出席ということなので、できれば皆様方全員に御発言いただければ有り難いなと思っています。一人一人やり取りをしていくとちょっと大変なので、ある程度委員の方の御発言をまとめてから、両先生に御感触、コメント等いただければという形で進めさせていただければと思います。
毎度のことですけれど、御発言希望の方、挙手にてお知らせいただければ、私の方からお声がけさせていただきます。いかがでしょうか。
それでは、田口先生、お願いできますでしょうか。
【田口委員】 御発表どうもありがとうございました。非常に勉強になりました。たくさんいらっしゃるので、簡潔に私から質問を申し上げたいのですけれども、まず宮川先生の御発表、これ非常に本当にいろいろな点で勉強になったのですけれども、1つお伺いしたいのは、コプト語のAIシステム、THOTH AIですか、こちらはClaudeを使って特化型のAIをつくったということだと思うのですけれども、これ、Claudeの使用料とかもかかるでしょうし、かなり予算のかかっているプロジェクトなのかなと思ったのですけれども、予算はどういうふうに確保していらっしゃるのかということがまず1つ。
それから、やはり国際的な研究者の協力ネットワークみたいなものも必要になってくるプロジェクトなのかなと思うのですが、そういうものはどういうふうにつくっていらっしゃるのか。もしかするとおっしゃったように研究人口が少ないということで、もともと自然に研究者の国際ネットワークができていたということかもしれませんが、いずれにしても、研究者の国際ネットワークをどういうふうにつくっていらしたのかということをお伺いできればと思いました。
それから、大向先生の御発表についてなのですけれども、途中のところで、いい読みをつくるためにAIを使うというようなお話ありましたけれども、これ非常に重要な観点だなと思ったところなのですが、いい読みまで行かなくても、現状で、例えば翻訳でAIを使うというようなことは私も学生にはできるだけ推奨しているのですけれども、しかし、AI翻訳に頼り過ぎてしまう、あるいはそれを信頼し過ぎてしまうということになると、それもまた問題かなと思っていまして、やはりAIの翻訳は、本当におっしゃったとおり、それらしいことをどんどん出してきますので、何となくだまされてしまうといいますか、こんな訳でいいかもと思ってしまう可能性があって、だけれど、よく見てごらんと。よく見ると、これはちゃんと元の文法構造を反映していないよねとか、文脈からすると意味がずれてしまっているよねというようなことをちゃんと指摘できないといけない。ちゃんとそれを自分で見つけられなければいけないと。
ということは、やはりもともと研究者が持っていたような読解能力を人間の研究者は持たねばならないということにもなるかという気もしまして、その辺りについて何かお考えありましたらお伺いしたいなと。場合によってはもちろん従来型の研究者の能力を養成するためにもAIが使えるという面はあると思うのですけれども、その辺り、従来型の研究者の能力とAI使用との関係という辺りについて伺えればと思いました。
以上です。
【大橋主査】 ありがとうございます。ちょっと数人まとめさせてもらってから御発言いただければと思います。
森田先生、お願いします。
【森田委員】 本日は大変有益なお話をどうもありがとうございました。まず宮川先生に対する質問なのですけれども、先ほどの田口先生と関連していますが、やはり関連する人が少人数だからできたということではないかと思うのです。この場合、恐らく研究者のネットワークをつくった上で、コプト語なり古代エジプト語なりのデータベースをどこかに集約していると思うのですが、どこに集約するというのはどうやって決めているのかという点について、ちょっと細かいですが、教えていただければと思います。
それから、大向先生の方なのですけれども、今日の報告ではかなり省かれた点になると思いますが、最初の冒頭の方で東大ではデジタル人文学プログラムというもので人材育成を始めているのだというお話がありました。しかし、これができるのは恐らく、東大に教員やスタッフが十分多くて、東大だけで必要なインストラクター陣がかなり賄えるというところあると思うのです。これに対し、やはり全国ほかの大学だとはなかなかこれを教えられる教員って1つの大学の中だけではそんなにいないと思うのです。
これに対し例えば米国ですと、毎年夏休みに様々なデータ分析の手法に関するワークショップを幾つかの機関がやっております。ミシガン大のICPSRなどがそうですが、私自身もそういうところに10年以上前に通って、それで技術を習得したというのがありました。ですから、お話にあったように東大だけでやるのではなくて、日本国内でどこか、別に夏だと暑い東京でなくてもいいと思うのですけれども、何かそういう技術・ノウハウを学べる、デジタル人文学に関する技術を、どの大学の学生でも学べるような、そういう広く公開された機会を設けるという、そういう枠組みはつくれないのでしょうか。これは質問というよりかは提案になるかと思いますが、以上です。
【大橋主査】 ありがとうございます。青島先生、いかがでしょうか。
【青島委員】 非常に貴重なお話ありがとうございました。私も簡潔に大向先生に1点だけなのですけれども、AIに関する人材育成で何が一番肝になるのかなと。例えば昔ですと研究の方法論みたいな授業があって、一通り作法を教わるわけですけれど、今、ここにも書かれているように、正に学ぶ前に使えてしまうわけですよね。この間も生成AIの普及をしている企業人のプレゼンを聞きましたが、子供と一緒にワークショップをやりながらAIエージェントをつくるとか、そんな感じでして。大学とか大学院でAIを使った研究という観点から人材育成する場合に、従来のやり方と異なって、どの辺りが肝になるのかなということを、御意見があったら教えていただきたいと思います。
以上です。
【大橋主査】 ありがとうございます。もう少し行かせてもらって、仲先生、お願いします。
【仲委員】 ありがとうございます。私は、人文社会学者が実際にこういうAIを使う、ということについての具体的な質問なのですが、私自身は面接法の研究をしていて、前回、この委員会に出て関心を持って、発問の分析というコーディングをAIにやらせてみようと思ったのですね。そこで感じた疑問が4つありまして、急ぎ、言います。
定義を渡してあとは演繹(えんえき)学習、みたいなことを、ChatGPTの有料版でやってみたのです。やりながら思ったのは、そもそも商業AIでこういう作業をしていいのかというのが1つ目です。
2つ目が、プロンプト、定義を最初に入れるのですけれど、あとはプロンプトがやってくれるのですけれども、プロンプトだけで学習をさせられるのかというのが2番目の疑問です。
3番目は、たくさんの言語のデータや、今までにやった研究の発話分析のデータはあるのですけれど、それをChatGPTに送ってしまっていいのかどうか。「これって外に出るの?」とChatGPTに聞くと、「いや、出ません」「学習もしません」とか言ってくるので、学習しないのではできるようにならないし、どうすればいいのだろうと思いながら、データはどこまで入れられるのかというのが、3つ目の疑問です。
最後の4つ目なのですけれど、ChatGPTはだんだん少しずつできるようになってきたのです。しかしこれって、私のアカウントで入った、そのChatGPTならできるのだけれど、それはプログラムの形になっているのか、アルゴリズムの形になっているのか、これをほかの人に使ってもらおうというようなことができるのか。
このような4つの疑問が出てきて、ちょっとお尋ねしたいと思いました。
以上です。
【大橋主査】 ありがとうございます。以上、1回ここで切らせていただいて、御質問についてコメント等いただければと思います。
それでは、宮川先生からいただけますか。
【筑波大学(宮川)】 よろしくお願いします。ちょっとだけシェアだけしてもいいですか。
最初の御質問で、料金とか、APIの料金、結構かかっているのではないかということなのですけれども、最初は一般公開していたのですね。そうしたら、「あー」とか、意味のないことをいっぱい入力する人がいて、「ハロー」とかですね。そうすると、これら「あー」とか言っても、全部律儀に返してくれるのですよ。そういったものを排すために、「あー」をヒエログリフで表記すると以下のようになります、とかですね。こういったふうに、すごくどうでもいいことに答えるのにすごいお金がかかっている、APIのお金がかかっているということが分かりました、いろいろ分析していったら。
それをストップするために1回メールを送ってもらった人にだけパスワードとログイン情報を渡して、それでログインしてからTHOTH AIを使ってもらうということにしたら、かなりお金が削減できました。本当に学術的な質問とか、コプトの復興運動をしている人が本当にこういった言い方を知りたいというときに使ってくださったりとかして、それが今は一番いいかなと思います。ログインとかパスワードで少し使用を制限するとかですね。今、何か全部ヒエログリフの転写ばかりになってしまっていますけれども。
ネットワークをつくるのは、マルチメディアを活用していて、これタロコ語の音楽ですね。音声と音楽と動画全部AIでつくっています。
(映像上映)
【筑波大学(宮川)】 こんな感じで、全部音楽をAIでつくっているのですけれども、そうしたら何かいろいろバズって、タロコの村でAI音楽とダンスを合わせた祭典をやろうということになり、若い人たちが結構踊ってくれて、それでお年寄りも入ってきて。
(映像上映)
【筑波大学(宮川)】 それも全部AIでつくったやつで、あとはアバターとかも、これは僕ですけれど、長老のアバターをつくって、長老がタロコ語を教えているような感じでやっているので、デモをしているのですけれども、何かそういった感じで、特にソーシャルメディアですね、コプト語の方も、コプトの歌を昔つくったのがかなりバズって、それで協力者がたくさん出てきたみたいな感じで、これが最初につくったコプト語の音楽です。
(映像上映)
【筑波大学(宮川)】 これ全部AIでつくっているのですけれども、もちろん文法や言語の方はちゃんと直しているのですけれど、そういったところで結構マルチメディアを使って、あとSNSとか、そういうところで存在をアピールしていっていたら、結構協力者もだんだん増えていったという感じです。もちろん学術的なネットワークは前からあったのですけれども、それ以外にも言語復興運動家とか、いろいろな人たちの助けを借りたときは、やはりこういったマルチメディアで宣伝していて、そこから知った方が多かったので、それがすごく宣伝の助けになりました。
コプト語のデータベースとか、データセットとか、データベースとか、コーパスとかの集約なのですけれど、一旦、ドイツ研究振興協会と全米人文科学基金のジョイントプロジェクトでKELLIAというプロジェクトがあり、僕はそこでリサーチフェローとして働いていたのですけれども、それはコプト語、いろいろなデジタルヒューマニティーズのプロジェクトがあるけれど、それでスタンダードをつくったりとか、データを相互共有してやろうということで、結局みんな、GitHubを使うことに落ち着いて、どのプロジェクトにGitHubで上げて、相互に報告し合ったりとか、コミットし合ったりとか、新しいコラボレーションをつくったりとかして、できたものはドイツ研究振興協会が入っているので、Zenodoで公開しないといけなくて、Zenodoで公開したりとか、そういった感じで、GitHubのプラットフォーム、開発を共同でできるような、開発者向けのプラットフォームがあるのですけれども、そこで大規模なプロジェクト同士で、小規模もありますけれども、共同開発をやっているという形です。
ウェブサイトとかも最近は全部GitHubに上げて、ANMとか、DNSサーバーの方で少しドメインをいじって、それでGitHubページの方を表示しているけれど、実際はURLは筑波大学とか、ゲッティンゲン大学とか、そういうふうにできるので、そういうこともやっています。
【大橋主査】 よろしいですか。
【筑波大学(宮川)】 はい。
【大橋主査】 ありがとうございます。大向先生いかがですか。
【東京大学(大向)】 私の方に頂いたものをかいつまんでということになりますけれども、やはり翻訳等でも読みを間違えるというときに、専門用語の読みを間違えるというか、それも字面どおりに受け取ってしまって別の翻訳を返してしまうということが最も大きいのかなと。文法を間違えるということはかなりなくなってきていると思いますので、やはり学術用語をどう扱うかという中において、まだまだ実際には人文学には大量にこれまでつくられてきた膨大な辞書、辞典、参考図書の類いがやはり反映されていないが故のことなのかもしれませんし、それがもちろん全てAIに入ったからといって、また別の分野で使われている同じ言葉の用語をどう取り扱うかというような問題も出てくるかもしれませんけれども、やはり今、RAG等が注目されるのが、専門性をちゃんとAIにどう扱わせたいかという、その部分の努力というのが、なかなかビッグテックが直接そこまでやるのかと言われたら、そういうのはまだまだ優先度的には高くなかろうということでもあり、もしAIに人文学の研究者がコミットするというのであれば、その辺りの強化が必要だろうなと考えております。
あとはやはりAIを学ぶ場というのをどう広めていくかということが重要というのは御指摘のとおりかと思います。実際には情報系の学部・学科をお持ちのところであれば、今私が少しお話ししたようなことは話せるのだと思うのですけれども、一方で、実際の技術を人文学の言葉で語ることができる、あるいは人文学の課題を情報系の言葉で語るということは、それなりの知識というか、経験というか、そういう場がなければなかなか相互交流というのはまだまだ難しい状況かと思いますので、実際に何かこういったサマースクールなのか、教える人を教える、そういったところからもしかするとスタートできるといいのかもしれないと考えております。
最後の仲先生の方でも、様々な疑問が存在していて、これは一定程度答えのあることもあると思います。例えばそれは利用規約をそもそも信頼していいのかとか、そういうこともあるでしょうし、あるいは入力した即座にそれをAIで学んでほかの人にその答えをしてくれるという仕組みにはなっていないとか、様々つくり手側から見れば、多分こうだろうなというようなお答えはできるわけだとは思うのですけれども、このこと自体の情報の共有がまだまだできておらず、そのことがちょっと最後から2番目のところで御指摘いただいた、結局AI時代に何の人材をつくればいいのかというときに、そもそもAIが何なのかということと、やはりこのメカニズム上できることはここまでなのである。これ以上のことを、出てきた結果がいかにりゅうちょうであったとはいえ、受け取ることは難しいのではないかという、その一定のラインを多くの研究者、学生がやはり知っていかなければいけないだろうなと。そこが人材育成の最初のポイントだと思っています。
今の時点で検索エンジンの結果を丸のみして、そのままコピペしてレポートを出してくる学生がどれぐらいいるか分かりませんけれども、これは当初はかなり危惧されていたことだと思いますけれども、少しずつ距離感が分かってきて、ネットにないものはないし、ないものは何らかの方法で学ばねばならないということも、20年ぐらいかけて理解できてきたとは思いますので、やはりまずAIと技術の相対化というところがまずやらなければいけないことの第一歩かなと思っています。
以上です。
【大橋主査】 ありがとうございます。もし追加でまた御意見、御質問あればいただければと、お時間の範囲でいただければと思います。
続いて宇南山先生、お願いできますでしょうか。
【宇南山委員】 ありがとうございます。今日はお二人とも言葉そのものを研究対象にしているという先生方のお話だった感じがして、社会科学、経済学をやっているわけですけれども、そのところから少し本筋ではないところで質問させていただきたいのですが、やはり社会科学者としては、例えば日本経済について分析をするというときに、特に外国人のトップ研究者に日本社会を研究してもらう、非常に重要な視点になっていて、その場合にすごく大きな障壁になるのが日本語であったりするわけです。
また、ヨーロッパ系の研究者とのコミュニケーションというのも、必ずしもネイティブでない同士が英語でコミュニケーションすることが経済学だと多いのですが、それもなかなか難しいことが多いということで、宮川先生なんかですと、かなり恐らくは多国籍、ネイティブの言葉は違う人たちとコミュニケーションを取っていらっしゃると思うのですけれども、エジプト語とかコプト語そのものではなくて、研究上のコミュニケーションを取るときの言語上の障壁を解消する手段としては、AIというのは活用可能なのでしょうか。若しくは情報収集をする際の言語の障壁をどの程度をAIは解決できるのか。それによって外国の研究者とのコミュニケーションがどれぐらい可能なのかというのは、宮川先生、大向先生、両方にお伺いしたいなと思います。すみません、よろしくお願いします。
【大橋主査】 ありがとうございます。続いて木部先生、いかがでしょうか。
【木部委員】 どうもありがとうございました。私は少数言語、危機言語の保存活動をやっているものですから、宮川先生の低資源言語をどうモデル化するかということにものすごく興味があり、大事だと思っています。宮川先生も琉球の諸言語の分析、構造化をやっていらっしゃると思うのですけれども、危機言語の記述をしていると、まず3点セットを作る、文法書、辞書、それからテキスト。フランツ・ボアズ以来、この3点セットをつくるということが危機言語の記述の基本であるという方針でやってきたわけですね。
今日のお話を聞くと、このテキストが重要で、テキストをたくさんAIに入れれば、それをAIが翻訳してくれる、あるいは答えを返してくれる。そうなると、辞書は作る必要がないような気がするのですけれども、辞書というのはどういう位置づけになるのでしょうか。私などは、辞書は知識基盤の典型だとずっと思ってきたので、辞書がどういう位置づけになるのか、お伺いしたいと思います。
それから、大向先生の御発表の、対象の拡大、越境というところで、文字列の類似から意味的な類似へ。つまり、意味的なものも推測して答えを出してしまう。「吾輩は猫である」という文を、文化的なものを推測して答えを出してしまう。そうすると、意味記述というものの位置づけはどうなるのかというのを教えていただきたいと思います。特に私は危機言語とか、自分の知らない言語の意味記述をどうするかというのに苦労してきたので、それについて教えていただければと思います。
以上です。
【大橋主査】 ありがとうございます。続きまして、米村先生、お願いできますでしょうか。
【米村委員】 お二人の先生ありがとうございます。教育プログラムとして人材を育成するという点からお二人の先生にお伺いしたいと思います。
お二方とも、データを作る側、提供する側として本当にプロフェッショナルでいらっしゃって、そういう方たちが増えていくことが重要である一方で、教育プログラムとしては、使えるようにする、あるものを使いこなせる、AIも含めて活用できるような人材の育成も基盤としては重要だと思います。作る人を育てるのと、使える人というのでしょうか、初期的、基本的な部分ができる人を育てる教育というのは連続線上に考えられるものなのか、それぞれ違った観点が必要なのかという点など教えていただけましたらと思います。
【大橋主査】 ありがとうございます。尾上先生、いかがでしょうか。
【尾上委員】 両先生の御発表ありがとうございます。大変勉強になりました。大向先生のお話の中の、AIアライメントのところなのですけれども、ここでデジタル人文学を考えたときに何か特徴的な一般的なAIアライメントと違うようなことがもしあれば教えていただければと思います。
【大橋主査】 それでは、治部先生にコメントを頂いて、それでリプライというか、御回答いただく感じでお願いします。
【治部委員】 ありがとうございます。私は今大学におるのですが、キャリアの初期に10年ほどは記者をしていたものですから、メディアリレーションの観点から事務局にちょっとお尋ねとお願いで申し上げますので、ちょっとほかの先生方と視点が異なります。私はこの会議を是非メディアに傍聴して、取材をして記事なり番組なりで報道してほしいなと強く思います。今日のお二人の先生のお話も非常に興味深く、人文学の分野でこのようにAI活用しているということをほぼ一般の国民は全く知らないという状況があると思います。
仕事で現在も新聞やテレビ、オンラインメディア等々をよく見ておりますが、そういうところで報道されているAIの話は通常、著作権や倫理の問題、あとは大学に関することですと、ほぼ学生がレポートをAIで作ってしまうという問題に絞られているように思います。
試しにちょっと会議を聞きながら、人文学・社会科学プラスAI活用でグーグル検索をしてみますと、1ページ目に出てくるのはほとんど文部科学省のこの会議の資料がほとんどです。検索結果1ページ目にある唯一のメディアの記事というのは、フォーブス、つまり海外記事の翻訳になります。では、違う単語でどうかと思って見ますと、文系プラス研究プラスAI活用で見ますと、やはり出てくるのは大学生のレポートのAIで、ほとんどコピーのようなものを書いてしまうといった問題、あとは、ビジネスマンの転職の話等々になってきます。
つまり、現段階でほとんど人文学・社会科学分野、文系分野において、ここまでAIを活用した研究が進んでいるということ。また、その課題はこのように、政府の会議体で議論されているということを国民が多分ほとんど知らない状況であるということについて、メディア出身者として危惧するものであります。
それはやはり国立大学の運営費交付金が2日前のニュースでは2%増額にようやくなったということがあるのですが、国立大学の資金というのは税金ですから、たとえ研究に関わらないような方たち、多くの一般の方たちからも理解ないし、少なくとも肯定的な、好意的な感情を持たれているということがこの分野にとって非常に重要であると思いますので、とてもいい会議なので、私もこれから出るときにはメディアの友人たちに是非傍聴してほしいということを言っていきたいと思いますし、事務局におかれましては、お忙しいとは思いますけれども、メディアリレーションということもお考えいただけたらいいなと思います。
以上です。
【大橋主査】 ありがとうございます。それでは、ここで一旦切らせていただいて、宮川先生からいかがでしょうか。
【筑波大学(宮川)】 宮川です。ありがとうございました。まず、宇南山先生からの御質問で、研究上のコミュニケーション、特に研究者間では、AI、そういったコミュニケーションの障壁を解決できるのかということですけれども、実際にAIを使ってコミュニケーションあまりしたことがなくて、やはりみんな英語を使えますし、コプト学は非常にインターナショナルな学問で、ドイツ出身の人とか、エジプト出身の人とか、アメリカ出身の人とか、いろいろな人がいて、大体全部コミュニケーションは英語で行っています。時々、エジプト出身の人でアラビア語しかしゃべれない方もいらっしゃって、アラビア語を何とか話してコミュニケーションを取ったりとかしますけれども、基本英語がかなり通じるということで、もちろん分野特有のジャーゴンとかタームとかもあって、そういったものもちゃんと共有できているので、それでやはり少人数、研究者が少人数の分野というのはそういった感じで結構一体感があるというか、会議に行っても大体同じ人という、そういう感じなので、研究上の共同研究をやる上でのコミュニケーションはそんなに大変ではないです。慣れたら大変ではないですけれども、やはり現地の修道院とかに行って写本を見せてもらうとか、そういったときはやはりエジプト、アラビア語エジプト方言のコミュニケーションが必要なので、あと、現地の方のコネクションとか、そういったものが必要なので、そういったところはやはり結構エジプト方言でも方言差があって、南の方だとちょっと違う言い方をするとかあって、そういったところをAIでカバーできたらなと。スマートグラスとかに翻訳とか何か、地域の特有の単語とか出てくるとか、そういうことができたら面白いのですけれども、まだそこまで実用化は、私どもの方はしていません。しかし、かなりそういったものが既に、スマートグラスで翻訳を眼鏡の中で表示させるとか、そういうのはできているらしいので、近い将来、そういうのが簡単に手に入るのではないかなと期待しています。
木部先生、ありがとうございます。今日御紹介できなかったのですけれども、THOTH AIをつくったとき、一番効果的だったのは実は辞書だったんですね。Coptic SCRIPTORIUMとKELLIAプロジェクトという、私がKELLIAプロジェクトで働いていたのですけれども、そのタッグでつくったコプト語辞書ですけれども、これTEI/XML、デジタル人文学のテキストマークアップの標準形式でつくったもので、すごく重いファイルで、もとのコプト語英語辞書、一番大きなものプラスいろいろなデータをつけていて、例文とか、語源データとか、そういったものをたくさんつけていたデータになっていて、今、GitHubで公開しているのですけれども、それが実は、どのデータ、どのナレッジを与えたときが一番結果がいいかっていろいろ試して実験して発表もしているのですけれども、一番よかったのが、辞書ですね。辞書の中に例文がたくさん入っているし、あと語源データとか、いろいろなデータも入っているから単純な辞書ではないですが、例文集よりも辞書の方がよかったので、やはり記述言語学者の3点セットですね。辞書、文法、会話集というか、テキスト集ですね、これ全部あったらやはり一番いいのではないかと。一応全部入れているのですけれども。文法は実はあまり、最初の頃は、あまり文法は効き目が薄かったんですけれども、多分辞書とテキスト集と一緒に文法データ、ベクトル化した文法データを入れると、細かいところは結構うまくできるようになっていったので、細かいニュアンスとか、文法の機微とか、そういったところがよくなっていったので、やはり記述言語者の3点セットのデジタル化とベクトル化は、消滅危機言語のAIツールの開発に関しては非常に重要だと思います。
最後ですが、メディアについて、意外と私も今年になって結構メディアから取材を受けるようになりました。文部科学省のNISTEPな研究者2024年度に選出していただいた後、結構いろいろな新聞社から声がかかって、テレビ局とか、ユーチューバーとか、いろいろな人から声がかかって、最近は共同通信でAIと人文学の取材を受けて、神戸新聞とか京都新聞とか愛媛新聞とか、いろいろな地方紙に載ったりとかしていますし、東京新聞社とか、いろいろなところからも取材を受けて、もうすぐそういった記事が出ると思います。あと、朝日新聞からはエジプト学の取材も受けて、どちらもあるのですけれども、そういう取材も増えてきていると思います。しかしやはり、僕なんかよりもいろいろな先生がすごいことたくさんされているので、大向先生はじめいろいろな先生がされているので、そういったデジタル人文学を本当に一般に知っていただくということはやはり重要だなと思っていて、そういった取材が本当にいろいろな方になされて、それで国民の皆様に私たちがやっていることが知られるというのが本当に重要だと思うので、御指摘は本当にすごく有り難いと思います。ありがとうございます。
【大橋主査】 よろしいですか。大向先生、どうですか。
【東京大学(大向)】 では、こちらもかいつまんでになりますけれども、研究コミュニケーションの言語ということで、もちろん現状が英語が中心であることは間違いないのですけれども、一方でこれだけ翻訳というのが、ある程度使えるものになってきている中において、例えば中国とかで開催される国際会議なんかだと、既にプレゼンターは母語で話して、リアルタイム翻訳が表示されるという形で、多言語、どんな言語でも対応できるかどうか分かりませんけれども、多言語化へのチャレンジが始まっているのは現実かと思います。デジタル人文学のカンファレンスでデジタルヒューマニティーズという、その名のとおりの会議があるのですけれど、来年の開催は韓国で行われるのですが、少し自動翻訳の部分でのプレゼンテーションをトライされると聞いています。ちゃんと事実を確認しますけれども、そういうことが少しずつ進んでいると思います。
一方でやはりそこの中でまた専門用語をどう扱うかという話が出てくるのではないかと思いますし、やはりそこの用語関係を専門家同士がきちんとそろえていくという活動は、ここはより重要性が上がっていくのではないかと考えております。
更にメタ的に言えば、やはり翻訳の中で誤読や誤訳みたいなことが当然起こるわけですけれども、そこからやはりまたコミュニケーションを引き起こしていくということは、これは実は人文学にとってはとても大事な価値観であろうと思っておりますので、こういったトライアルはどんどん進めていくべきではないかと考えております。
木部先生のコメントに関しては、完全に宮川先生のコメントのとおりだと思っておりまして、やはりこれはAIの学習においても、いかにレアな言葉のつながりをAIの学習時点で見せるかということ自体が重要だと指摘されています。それはAIのために人文学をやるということではないとは思うのですけれども、しかし、そこでやはりいろいろな努力を払ってつくられてきた情報が取り込まれることによってよくなっていくということは、これは確かだと思っております。
一方で、今のところは何が取り込まれたかが全く、取り込まれた側が分からないということ自体がやはり問題、あるいは不信感を生んでいるという面もあると思いますので、そこをきちんとよりオープンなデータでつくるAIのプロジェクトなど行われておりますけれども、ああいったことをきちんと支えていくことによって、やはり使われていくことのリスペクト、コントリビューションということの可視化がより進んでいくことを期待しております。
米村先生の使う側、つくる側の距離感というのは、私自身としてやはりここがきちんとコミュニケーションが取れないと、やはり何の技術を使っているのか全く分からないまま、結果だけを享受してしまうことによる様々な問題点が表出し始めているのが現状だと思っておりますので、やはりつくる側、使う側の対話の場というのを積極的に設けていきたいと考えております。
あと、AIアライメントについて、デジタル人文学そのものに特有というわけではないかもしれませんけれども、AIアライメントに使うためのデータというのがまた誰かによってつくられている、あるいはつくったデータを、つくったAIを評価する枠組みですね、今はAIがAIを評価して採点するということに、それ以外の方法が取れないわけですけれども、今度採点するための問題もまた誰かがつくっている。その状況をきちんと専門知を持つ人々同士もそこに加わっていく、あるいは場合によっては、こういった問題では正しくある分野の能力が評価できないのではないかという問題提起をしていく。そういった関わりというのは、やはり人工物のところのAIを組み立てていくときに、人文学の専門性が生かされるべき領域だと考えております。
メディアについても、アウトリーチは非常に大事だと思っておりますので、この辺は先生方の意見に同意しています。
以上です。
【大橋主査】 ありがとうございます。事務局からもしあれば簡単にお願いします。
【助川学術企画室長】 人社室長の助川でございます。治部先生ありがとうございました。メディアとの関係でございますけれども、まず前提として、本日の会議も公開されておって、どなたがということはちょっと控えますけれども、メディアの方、通信社の方とか、専門誌の方とか、あるいは業界誌用ではないのかな、分野を限って発行されている方とかも、通常見てくださっておられます。
私どものところにも、例えば取りまとめとかがあるときには取材とかはちょっと増えておりまして、その際には、私どもとしても、例えば今年の頭にありました前回の取りまとめのときにもありましたけれども、その概要等を報告するとともに、その際には、実は過去の資料を取りまとめて文書を作っているだけではなくて、幾つか図みたいなものも、参考資料もくっつけているのですけれど、そういうものもお届けできた方がメディアの方にも分かりやすいかなと思っておりまして、附属資料、参考資料となっておって、それも併せてPRしているところでございます。
今回みたいなものも、例えば事務局から、今日の資料ではないのですけれど、以前デジタルを活用したものの事例として御紹介しているものの中には、もともと私どもがメディアで知った研究というのもありまして、そういうパーツパーツで報道はされていると思います。
また、私どものところに来た場合には、こういう事例がありますよというのをお届けするとともに、人文学を振興する意義だとか、そういう話も併せてお届けしているつもりです。結果、AIだとかデジタルを活用している部分が見えづらくなるとか、そういうこともあるかもしれません。
ただ、私どもとしては、あわせて、特に役所側としては、振興の意義というところもお届けしたいと思っております。
メディアの方々としても、それが一般の方々に届くときに、具体的に何やっているのというのが分かりやすくないと多分書きづらいのかなと想像しまして、そうすると、例えば先ほど宮川先生のところにも取材があったという話ありますけれども、具体の事例だとかは、私どもが御説明するよりも実際に先生方がお話しされた方が届きやすい面もあるかと思います。そういうときには是非一般の方々にも分かりやすいような形でお届けいただければ私どもとしては幸いでございます。
どうもありがとうございました。
【大橋主査】 ありがとうございます。お時間があと10分強でございまして、何とか時間内に終えたいという思いがあるのですけれども、若干手短にお願いできればと思います。
それでは、山中先生、お願いします。
【山中委員】 ありがとうございました。両先生のお話大変勉強になりました。宮川先生にお聞きしたいのですけれども、先生が最初、研究者人口が少ないとおっしゃったので、ちょっと期待したのですが、コプト語、6,000人も登録なさっているというお話があったと思います。私などは日本の古典芸能とか古典文学を研究していると、もっともっと世界の研究者人口が少ないように感じています。デジタル、AIの活用による人社の研究発展といったときに、やはり前回も今回も世界的な研究のお話が多いですし、人材育成にしても、AIを使ってどんどん若い人たちが世界に出ていって、世界中の研究者たちといろいろな研究をする。コプト語だって、先生は少ないとおっしゃいますけれど、日本の古典をやる人よりはきっと多いだろうと思うのですね。
そうやって数が多くて、研究者が世界中に広がっていれば、お金の集めようもあるし、人的資源もあってAI活用も進めていけるのだろうなと思うのですが、では日本の古典をやる者は、AIの活用の中でどういうふうにやっていったらいいのかなということを思いながらお話をお聞きしていました。
先生はタロコ語のこともなさっているというので、こちらは一体どのぐらいの研究人口があるのか。大きな予算をつけて大きなプロジェクトを進めていけるのか。それとも、これは先生がコプト語で大きな成果を上げられているから、それを応用しながらこういう小さな言語のこともできるということなのか、その辺のところをちょっとお聞きしたいなと思いました。
以上です。
【大橋主査】 ありがとうございます。続いて後藤先生、お願いします。
【後藤委員】 後藤でございます。お二人の先生方どうもありがとうございました。まず、事務局の最初の論点に関しまして、恐らく今回出していただいたもの、すごくまとまっているのですけれども、1つだけ。恐らくAIを使うことによって、人文学の価値の再発見みたいなものも、AI時代における人文学の意義を新たに見つけ出すということになると思いますので、そういう議論もあったかと思いますので、是非追加をいただければと思います。
また、それから、メディアさんへの連携というのは本当に大事ですので、今事務局から説明があったとおりですけれども、面白い事例というのはもちろんのことなのですけれど、人文学の大きな変化の可能性みたいなのを模索しているという、その大きな流れ、うねりみたいなのが知られていくような何か工夫ができるといいのではないかなと思っておりますというのが1つ目です。
それから、お二人の先生方のお話については、本当に二人とも完全に同意するといいますか、というところでございますけれども、私たちのプロジェクトの中でも、歴史学に限る形ではありますけれども、histrian-in-the-loopという表現を進めておりまして、特に歴史学とAIという関係を更にブラッシュアップしていこうというふうなことをやっております。
そういう中で、少しだけお二人の先生方にちょっとだけ深めに聞いておきたいことを申し上げます。宮川先生の方につきましては、特にAIのためのデータ基盤をつくるというときに、今回もちょっと課題というところであったかと思いますけれども、特に重視しなければならないことというのはどういうことがあるかということをお伺いしたいと思います。ヨーロッパなどで、データを作る際の共同研究の在り方とか、そういうものがあれば、すみません、時間がないので一例で結構だと思いますので、何か情報いただければと思います。
大向先生の方につきましては、最後の人材育成のところで、プロジェクト型の研究の設定というのがありましたけれども、具体的にこれはどのようなものを想定しておられるかという辺りについて、大向先生のお考えがあればお聞かせいただければと思います。恐らくプロジェクト型の研究によって、自分たちの方法論の基礎をもう一遍見直すとか、そこから伝達していくというのは、ある意味、これがかなり重要な人材育成の肝になってくると思いますので、その辺りについてより具体的なお考えがあれば少しお聞かせいただければと思います。
すみません、以上でございます。
【大橋主査】 続いて安田先生、お願いします。
【安田委員】 ありがとうございました。私も農学とか全然分野外なのですけれども、その中の議論で、例えばAIを通じて農村である技術を広めるというときに、どうしても現地の言語だとか、ローカライズされたリージョナルなAIが必要という話になると思うのですが、実際にこういうAIを使われている側の方の立場として、どこまでジェネラルなAIを使うことができるのか、どこまで特化させて何かを学ばせるのは確かだと思うのですけれど、それがある程度広い分野で有用に使えれば更にいいかなと思うのですね。AIの学習にコミットする人も増えますし、ユーセージとか、それ自体の汎用性も広がるというところであると思うのですが、広げ過ぎてしまうとあまり逆に使い勝手が悪くなってしまう。そこら辺のバランス感覚で使って、実際につくった方の体感みたいなものを教えていただきたいなと思いました。あと、ヒエログリフとか、あと日本の草書なんかも、結構初めに人間がちゃんと目で見て判読、意味と併せて判読して学習させなきゃいけないというところが、かなりマニュアルでやらなきゃいけない大変な作業というのも出てくるのかなと思うのですけれども、そこら辺のコストとかがどのくらいかかるのかなというところもちょっと関心があって、もし分かれば教えていただきたいなと思います。
というのは、AIをこれから活用するのに、信頼できるものをつくっていく上で、どのぐらいそこら辺にコストがかかるのかというところが結構大事かなと思ったという次第です。
あと、最近学ばせたものが何なのかということを1つちゃんと明記するということは重要だと思うのですけれども、それプラス、引用のトレーサビリティーが、よいAIを使っていくことによって、この文献のこの部分を使いましたということが明らかになっていくことで、大分どこで誤訳が生じたとしても、どこで起きたのかということが学術的にたどっていけるので、そこの部分も重要なのかなと思うのですけれども、そこら辺は、今、ディープサーチとかだと一応、もとの文献とかを出してきてと言ったら、出せるようになる、学習させたものでどのぐらいの精度のものができるのかなというところも教えていただけたらと思いました。
質問が多くてすみません。私からは以上です。
【大橋主査】 ありがとうございます。北本先生、お願いします。
【北本委員】 お二人ともありがとうございます。では、1つずつ質問したいと思います。宮川先生の方は、生成AIを使ってバズるコンテンツをつくれたというところで、こういったことは、パブリックリレーションズとか、パブリックヒューマニティーズの点で非常に有望だと思うのですね。
一方で、やはりAI生成は不正確という批判がよくあります。やはり正しさと面白さの争いみたいなことがあって、その点にどうやって答えているのかというところを教えていただきたいと思います。
大向先生の方は、人材育成、非常に重要で、AIを使って何でもできるようになってきたというのは確かだと思います。一方で、これもプロンプトって一種の自然言語プログラミングみたいなもので、プログラミングを何にも知らないと、やはり物事を正しくやることというのは決して簡単になっているかどうかは分からないと思います。
そういうときに、何をどういうふうにやったらいいかという一種のAIリテラシーみたいなものをどうやって育成するかというところは課題だと思います。これは具体的な技術を学ぶというよりかは、もうちょっと手前のセンスみたいなもので、これ、全員が持っているかどうか分からないのですけれども、そういったところで何か試みがあるかどうかということを教えていただきたいと思います。
以上です。
【大橋主査】 ありがとうございます。それでは、先生方いただけますでしょうか。
【筑波大学(宮川)】 宮川です。ありがとうございました。まず山中先生の御質問からですけれども、すみません、これはちょっと僕の説明が不完全だったところもあるのですが、THOTH AIのユーザー6,500人超えたということなのですけれども、かなりメインはエジプトのコプト教徒の方が多いですね。コプト教徒は、礼拝や祈りとかでコプト語を使ったりとか、コプト語で何か文を書いたりとか、特に宗教的な文脈ですけれども、そういった方がほとんどですので、結構そこから聖歌の意味とか、聖なる教会で歌うような歌の意味とか、そういった検索をする人がかなり多いです。6割方かな。
あと、コプト語だけではなくて、それ以前の古代エジプト語もできるAIなので、古代エジプトマニアの人もかなり使っています。研究者に限らず、古代エジプトマニアの人がすごく多いので、ファンが多いので、最近は大エジプト博物館も開館しましたけれど、日本の方でもそういった方が使ってくださって、いろいろフィードバックをもらったりとかしたりとか、アメリカ、ドイツ、エジプトが多いのですけれども、いろいろな方が使っているようで、やはり結構そういったところも、アクセスアナリティクスが重要かなと思いました。
コプト学者の方は、全体的に数えたわけではないのですけれども、一番大きな学会とか見ていても、200人ぐらいかなあと思います。もちろん日本古典の学問も相当学者の方は少ないとは思うのですけれども、コプト学の方も結構少ないのではないかなと思います。ただ、宗教があるので、コプト語を使っている人はかなり多いので、そういった人たちがユーザーの大部分を占めているということですね。
後藤先生の御意見は私も全く同意します。Historian-in-the-loopもすごくかっこいいですね。それだったら、linguist-in-the-loopとか、いろいろな標語をつくれると思います。もちろん専門家、expert-in-the-loopとか、すごく重要だと思いますね。
それでAIのためのデータ基盤のことで重視しなければいけないことというのですけれど、僕はドイツでコプト学のためのデータ基盤のプロジェクト、開発のプロジェクトにばりばり関わって、給料ももらって、それで生活していたわけなのですが、そういったところでかなり重視されていたのは、データを交換できるようなみんなが使っているような標準的な形式でデータを公開することということで、具体的にはテキストデータとか、コーパスデータだったら、TEIですね、テクスト・エンコーディング・イニシアティブのガイドラインズに、P5に準拠したTEI/XMLですね、XMLフォーマットでTEIのガイドラインズに準拠したものを使えということで、そういったセミナーとかに行かされてというか、行くように促されて、行って、TEIを勉強して、マスターして、自分でもTEIを書けるようになって、それでデータを毎日つくっていました。
画像の方は、共有の方は、IIIFとか、メタデータの方は、METS/MODSを勉強したり、MARC21を勉強したり、いろいろ標準形式は、Dublin Coreを勉強したりとか、CIDOC CRMを勉強したりとかしていて、LODですね、リンクト・オープン・データばりばり勉強したりとか、そういった世界的な標準形式でデータをつくって、そのデータセットをZenodoのような大きなリポジトリに上げるというのが結構理想的らしくて、そういった感じでやっていました。あと、APIの提供とか、そういったことも重要視されていて、そういった勉強をかなりしました。日本でもそういった勉強ができるところが増えていくといいなとは思っています。
安田先生なのですけれども、どこまでジェネラルなAI、これ結構難しいところです。和製AIとか、ソブリンAIとかやって、それも日本語に特化したもので結構いいものができているとか聞いたことがあるのですけれども、マルチリンガルな、国際的な企業がどんな言語でも取りあえず学習させてやっていって、Claudeみたいにコプト語もまあまあできるし、ほかのいろいろな言語がかなりできるというAIも存在して、どちらがいいのかというのは今のところ難しいのですけれど、体感としては、多言語モデルの方が、言語の構造というか、普遍的な文法みたいなのが備わっているみたいな感じがして、新しいことをRAGとかで検索させたり、ファインチューニングで覚えさせたりとかするときも、多言語モデルの方が性能がいいかなという感触があります。というか、最近本当多言語モデルしか使っていないのですけれども、商業的なものでなくても、オープンソースのものとかも、Kimiとか結構使ったりとかもして、ローカルでファインチューニングしたりとかもしているのですけれど、多言語モデルというか、ジェネラルな方が、細かいこともできるというか、教えたらすぐにやってくれるとか、何かそんな感じがします。
引用のトレーサビリティーは全くそのとおりで、非常に重要なことだと思います。そういった、最近もディープリサーチとか、いろいろな商業的なAIが、引用とかうまくできるようなモデルをつくっていますけれども、ウェブを全部RAGにして、ウェブから検索拡張生成ができるみたいな感じでやっていけば本当にそういったトレーサビリティーがすごく強いAIができるのではないかと思っています。
北本先生の御質問、非常に重要な御質問で、生成AIをつくってバズったら、確かに、特に学者だけでなく、コプトだったら、言葉だったら、コプト正教とコプト・キリスト教徒の方々から注目が集まったりとかしますね。
もちろんそういったところは重要で、バズるというのは重要で、それでいろいろな共同研究ができたり、助成をもらったりとか、いろいろなことができるのですけれども、バズるにはやはりちょっと正確性が落ちるところがあると。テキストだったら何とか生成AIを使ってテキストをつくって、修正できるので修正してやればいいのですけれども、特に動画とか画像とかって結構難しくて、なので、僕は結構、タロコの方だったら、画像とか、MVの画像とかは、アニメ風にして、本当にこれは実際のタロコの村ではないという感じにして、忠実に再現したものではないのでということで、テキストの方はちゃんとエキスパートによる修正をもらってとか、そういった感じでバランスを取ってやっています。コプトの方は、実際に自分で写真撮ったものを映像では使っているとか、特に画像生成とか映像生成になると、そういった不正確さ、どこまでも直してもうまくいかないというときがあると思うので、そこら辺はかなり工夫をしたりとかバランスを取っていかないといけないなと思います。ありがとうございます。
【大橋主査】 大向先生、いかがでしょうか。
【東京大学(大向)】 時間超過しているところ恐縮です。最初の山中先生の古典に対する取組ですけれども、やはり古典研究の中でも、当時の作者が一体そもそも何にアクセスできていたのかということを考えていたときに、私は例えば中国の別のものなど、そういったこととの関係性を、日本語、中国語、しかも古い時代の言葉を踏まえて意味の関係性を見ていくというようなことの可能性はあるかと思いますし、また、その古典自体がまた後世の文学等々、作品にどう影響しているかということもまた研究の重要なテーマだと思われますけれども、ここも、AIの力というか、先ほどの類似性を見る力というのがうまく、シチュエーションをセッティングすることができれば、新しい研究の方向性、あるいは活性化につながっていくのではないかなと期待しているところです。
後藤先生のプロジェクトということなのですけれども、私自身としては、人文学の中で、もともと研究の中でつくられているデータというのを使って、実際にAIを何らかの形でトレーニングした結果を実際にまた人文学の人が見ていくという、その体験をしてもらうことは結構大事だと思っています。今だとどうしても提供されたものをただ享受するだけということではあるのですけれども、この技術は、データを与えれば、ある意味成長していくものでもあるわけで、そのことをまずどうやって体感してもらうかと。ある意味その状況に自分たちが、ユーザーというだけではなくて巻き込まれていくるのだということ自体も、うまく経験できると、そこでまた相対化が始まるということにつながっていければいいかなと思っております。
安田先生のコストの話で、これはコストがかかるものであると。しかし、人文学研究者は、確かに既にそういう意味においては、コストはかけているし、その成果をどのように利用していけばいいのかという問題なのかもしれないと思っています。
一方で、人文学の外から見たときに、人文学がコストを負担してくれているみたいな言い方をすると、それはまた非常にリスペクトを欠いたコミュニケーションになってしまうということでもあると思っておりまして、何もコストのために研究しているわけではない。それはコスト、ごめんなさい、やはり何か知りたいことを知るためにやっていることがある意味において別の新しい用途が見つかっているということのポジティブな意味をうまくお互いのコミュニケーションの中でつくり上げていくことが非常に重要なのかなと。そのことがこれまでまだデータとして使われていないものをまた活用していくという道にも広がっていくのではないかと思います。
最後の北本先生のお話で御質問ですけれども、やはりAIをどうそもそも使いこなすかというときに、もはや、今、もっともプロンプトを使いこなしている人のプロンプトを見ると、プログラミングにしか見えない。明らかにAIの内部の動作原理を一定程度推測しながら、それを踏まえた上できちんと命令を与えることができれば、望みどおりの結果が返ってくるという状態になっているのではないかと思います。
一方で、薄い質問には薄い回答しか返ってこないという、ある種、問いかける側の鏡としか言いようのない振る舞いに近づいてきているなというのは個人的には思っておりまして、であるならば、やはりどのように指示を出していくのか、相手に伝わる指示とは何なのかというのは、対人間、対AIにかかわらず、きちんと自分自身の能力として見つけなければいけないということでもあると思いますので、その意味において、教育というのはあまり変わらないことなのかもしれないとも一方では思っております。
以上です。
【大橋主査】 ありがとうございました。宮川先生からちょっとメッセージも頂いているようですので、御覧いただければと思います。まだまだ追加の御質問とか御意見とかあるかなあと思うのですが、ちょっともうお時間、私の不手際で恐縮ですけれど、過ぎてしまいまして、そういう意味では、資料1も事務局から頂きましたので、それに対するコメントも含めて、もし両先生に対して、更に追加のコメントあれば、是非後日メールで構いませんので、事務局にお伝えいただければと思いますし、もしそのようなコメントが来ましたら、先生方、御多用中、恐縮ですけれども、御対応いただくようにお願いできればと思います。
それでは、以上となりますが、もし全体を通じて委員の方々からあればと思いますが、よろしゅうございますかね。
お時間過ぎて申し訳ございません。もし事務局から何かあればお願いします。
【林学術企画室長補佐】 最後に事務連絡をさせていただきます。
本日の議事録につきましては、後日メールにてお送りしますので、御確認をお願いいたします。
先ほど主査からもございましたけれども、議題に関しまして、追加の御意見ございましたら、後日事務局のメールまでお送りいただければと思います。
次回の開催日程につきましては、調整の上、またこちらも後日改めて御連絡をさせていただきます。
連絡事項は以上でございます。
【大橋主査】 ありがとうございました。それでは、これにて閉会といたします。年の暮れも暮れ、最後まで御参加いただきまして、ありがとうございました。年明け、また議論の取りまとめも含めて御議論を続けさせていただければと思います。
本年も本当ありがとうございました。どうぞよい年を迎えいただければと思います。ありがとうございました。
―― 了 ――
研究振興局振興企画課学術企画室
電話番号:03-5253-4111(内線4226)
メールアドレス:メールアドレス:singakuj@mext.go.jp