令和7年12月5日(金曜日)16時02分~18時08分
オンライン会議にて開催
(委員、臨時委員、専門委員)
大橋主査、木部委員、仲委員、宇南山委員、北本委員、治部委員、森田委員、安田委員、青島委員、後藤委員、山中委員、米村委員
(科学官)
清水科学官、杉岡科学官、松方科学官、松田科学官
淵上研究振興局長、助川学術企画室長、林学術企画室長補佐
【大橋主査】 それでは、お時間になりましたので、ただいまより第28回人文学・社会科学特別委員会の方を開催させていただきます。
本日、大変お忙しいところ、また、金曜日の夕方の慌ただしいお忙しい中、御参集いただきまして、ありがとうございます。
本日の委員会の開催に当たりまして、事務局から委員の出欠、オンライン会議の注意事項、また配付資料などについて御説明いただきます。お願いします。
【林学術企画室長補佐】 事務局でございます。まず、委員の先生方の御出席状況でございますが、本日は、尾上委員、それから田口委員が御欠席となっております。
本日はオンラインでの開催となりますので、事前にお送りしておりますマニュアルに記載のとおり、御発言いただく際は「手を挙げる」ボタンをクリックしていただきまして、指名を受けましたら、マイクをオンにしていただいて、お名前を言っていただいた上で御発言をいただければと思います。なお、主査以外の委員の先生方は、マイクの方をミュートにしていただきますようにお願いをいたします。
もし途中、何か不具合等ございましたら、事務局連絡先まで御連絡をいただければと思います。
なお、本日の会議ですが、傍聴者を登録の上、公開としてございます。
資料につきましては、既に電子媒体でお送りさせていただいておりますが、議事次第に記載のとおり、資料の1から資料の4をお配りしておりますので、もし資料の不足等ございましたら事務局まで御連絡いただければと思います。
以上でございます。
【大橋主査】 ありがとうございます。本日はオンラインでの開催です。よろしくお願いします。
それでは、本日、議題2つございますが、メインは最初の議題でございまして、「人文学・社会科学研究におけるDX・AIの活用について」ということでございます。資料も作っていただいていますので、まず趣旨の方を事務局に御説明いただければと思います。
【助川学術企画室長】 ありがとうございます。学術企画室長の助川でございます。よろしくお願いします。
初めに私から本日の趣旨について簡単に御説明申し上げたいと思います。資料1の2ページ目を御覧いただければと思います。こちら、7月30日の前回の会議資料から一部分更新したものでございますけれども、前回は、今後の人文学・社会科学研究のあるべき姿とは何か、この赤で囲まれているところでございます。委員の先生方から御意見頂戴いたしまして、その次の会、すなわち本日以降の会議で、今後の人文学・社会科学研究のあるべき姿を実現するに当たって、各観点の目指すべき状態ですとか、現状の課題とは何かということ、さらには現状の課題を解決するための方策はどうあるべきかということを御議論いただくこととしてございました。
次の3ページ目は、前回頂戴した御議論の振り返りでございます。主な意見としてごく簡単にまとめてございますけれども、人文学・社会科学においても、AI for Scienceといいますか、AIの利活用が急速に浸透しているということを踏まえた御意見を多数頂戴しております。まず、赤で書かれているのが2か所ありますけれども、AIの利活用によって人文学・社会科学研究にどのような影響があるのかという点については、AIを活用することによって研究は加速する。ただ一方、2つ目のポツ、見えるものの分析を通じて、可視化されていない人間の営みや社会の営みを追求するといった人文学・社会科学の根本は変わらない。
また、3つ目として、研究プロセスの暗黙知が形式知になって、これまでの研究の方法を見直す機会にもなるだろう。
4つ目として、我が国のデータが点から面に広がって、世界的に優れたデータベースをつくることができるといったお話を頂いたところでございます。
次に、赤の2つ目の方ですけれども、AIの利活用における課題などにつきましては、正確な情報の発見を行うためにはメタデータの充実が必要になるということ。
あるいは、データに対して責任を有する研究組織ですとか、共同利用の基盤というものが重要となるだろうということ。
3つ目として、これまでも御指摘いただいておりますように、人文学において、人文学・社会科学において、データというのは、いろいろな質のものがございますので、質の違うデータをいかにして結びつけるかということが重要になるだろうということ。
4つ目として、データの構築ということには評価がなかなかなされなくて、評価の問題とセットで連携して検討することが必要だということ。
最後のポツとして、AIが生成した結果の正誤を判断するのが人文学・社会科学の専門知になると。人文学・社会科学においては正解が複数ある中で、複数の正解を単一化するということなく、AIでどのように課題を解決するかということを考えることが重要である。
といったような御意見を頂戴いたしました。これ以外、いろいろ頂戴した意見の詳細については、6ページ、7ページにございますけれども、今は少し省略させていただきます。
先だっての会議でこのような意見が多かったことも踏まえまして、7月からこれまでの間、私ども事務局においていろいろな有識者の方々からお話を伺ったところでございます。その内容について、資料2に移って簡単に御報告申し上げたいと思います。
資料2「人文学・社会科学研究におけるDX・AI活用に関する聞き取り結果」の2ページ目です。事務局の聞き取り調査では、前回の委員会以降、人文学・社会科学のバックグラウンドをお持ちのデジタルヒューマニティー、DH研究者の方々ですとか、情報学のバックグラウンドをお持ちのDHの研究者などを中心に先生方からお話を伺ったところでございます。
聞き取りに当たっては、そこの下のところに「聞き取り事項」と書いてございますけれど、幾つかの項目について、先生方のバックグラウンド等を踏まえて御意見を伺ったところでございます。
様々な御示唆を頂いておりまして、網羅的に紹介することはできないのですけれども、次の3ページ目のとおりにまとめております。もう少し詳しいのは、資料の後ろの方に出ていますが、3ページ目を御覧いただきたいと思います。1つ目の丸でございますが、濃淡の差はそれぞれだけれども、特に若い方を中心に研究にAIを活用することは当たり前となっておって、2つ目のところ、AIによって研究が加速することによって、研究者がより考察ですとか解釈ですとか、そういうのに時間を割けるようになるなど、時間の使い方に革命的な変化をもたらす。それのみならず、評価の対象が、調査や翻訳するということ自体から、解釈に比重が増えるといった変革をもたらすのではないか、ということを頂いております。
3つ目の丸として、今後の人社においても、人文学・社会科学においてもAIが普及することを見据えたときには、先生方の持つAIへの意識、一部ではAIがブラックボックスであるという認識で忌避感を持たれたり、あるいはAIは他人(ひと)事であるといった意識を変える必要があったりするのではないかということも頂いております。
また、4つ目の丸でございますけれども、これまでの人文学・社会科学は自然科学とは性質が異なって、比較的資金よりも時間の確保が重要とされてきたけれども、その関係性が変わってくるなど、研究者のスキルを含め研究に必要となるものが変化すると。
以上のように、人文学・社会科学がAIによって変化しているのではないかと考えてございます。
資料1に戻りまして、今度は4ページ目でございますけれども、以上、申し上げました、私どもからの事務局によるお話を伺ったことですとか、前回の会議ですとかを踏まえますと、やはり国全体としてAI for Scienceを推進していく中で、人文学・社会科学におきましても、研究分野の特性などにも留意しながら、これを推進していくことが必要ではないかと考えております。ただ、それに当たっては、その分野の特性と申しましたけれども、特にこのような論点について配慮する必要があるのではないかということを下に4つほど挙げてございます。
1つ目の四角でございますけれども、AIをどのように利活用して研究を一層広げていく必要があるのか。具体的には、ユースケースの創出ですとか、成功事例の共有ですとか、横展開とかをどのように実施していくのか。
また、2つ目の四角でございますけれども、AIの利活用を進めるためには、前提としてデータ基盤の整備が必要であって、これをどのように進めていく必要があるのか。
3つ目の四角として、人材育成と書いてございますけれども、AIの利活用を進めるための研究支援人材ですとか、研究者の育成ですとかをどのように確保していくのか。
4つ目の四角として、特に人文学・社会科学において、よく生じ得るAIの利活用によって懸念される権利問題などの法的・倫理的問題にどのように対応するのか、といった点があろうかと思います。
ただいま申し上げました点について、必ずしも全て網羅的ではないとは考えておりますけれども、本委員会で御議論を深められればと考えておりまして、今回と次回の委員会で関係する先生方をお招きしてお話を頂きたいと考えております。
具体的には、次のページ、5ページ目でございますけれども、本日12月5日と次回12月26日の2回に分けて4名の先生方からお話を伺うことをお願いしてございます。
本日は、1つ目のポツ、AIを活用したユースケースについて、岩田直也先生、名古屋大学のデジタル人文社会科学研究推進センターの岩田直也先生から、また2つ目の、デジタルですとかAIの利活用に係る権利問題について、人間文化研究機構のデジタル・ヒューマニティーズ推進室にいらっしゃいます鈴木康平先生からお話をいただければと考えております。
また、次回、12月26日におきましては、引き続きユースケースについて、筑波大学人文社会系の宮川創先生、及び、人材育成に関して東京大学大学院人文社会系研究科の大向一輝先生からお話を頂きたいと考えてございます。
冒頭でございますけれど、私からは以上でございます。どうぞよろしくお願いいたします。
【大橋主査】 ありがとうございました。本日は、前回までいろいろDXとかAIの活用について御議論いただいたということで、事務局でも、様々、有識者の方から聞き取りを頂いて、御紹介いただいたのはまとめでしたけれど、資料2の後ろの方に相当いろいろな御意見いただいているところです。
そうした聞き取りの一環として、今回と次回の委員会で、聞き取り、ヒアリングをさせていただくということでございまして、本日につきましては、名古屋大学の岩田直也先生、そして人間文化研究機構の鈴木康平先生、両名から御発表いただくということでございます。
本日、岩田先生と鈴木先生におかれましては、大変お忙しいところ、お時間頂きまして、ありがとうございます。
最初に、岩田先生からAIを活用したユースケースということで御発表いただいて、その後鈴木先生に御発表いただいて、最後、意見交換させていただくというふうな段取りで進めさせていただければと思います。
それでは、岩田先生、タイトルは「人文学研究の『高度化』と『民主化』に向けたAI活用モデル」ということでございます。よろしくお願いいたします。
【名古屋大学(岩田)】どうぞよろしくお願いします。私の専門は西洋古典学、中でも古代哲学です。長年この分野の研究をしてまいりましたが、2022年末のChatGPTの登場を受け、2023年頃から、生成AIは研究の在り方を革命的に変える可能性があると痛感し、本格的に取り組み始めました。現在はHumanitext Antiquaという西洋古典に特化した対話システムを開発・公開しており、本日はそのユースケースについて御紹介させていただきます。
まず、Humanitext Antiquaとは何かについて御説明します。これは原典と対話するRAGシステムです。現段階で、西洋古典の主要な著者約100名、およそ1,000作品の原典を対象としています。これはAIにテキストを事前学習させているのではなく、RAGの仕組みを用いて、ユーザーの質問に近い文脈をその都度データベースから取得し、大規模言語モデルがそのコンテクストを読み取って回答を生成するシステムです。人文学研究において非常に重要な点として、全ての回答に原典の出典を必ずひもづける機能を実装しました。ユーザーがどこでそのように語られているのかを常に確認できるようにすることを、開発当初から念頭に置いています。
特に、研究を革命的に変えるのは意味検索です。従来はキーワード検索しかできず、キーワードが一致しなければ情報を拾えませんでした。しかし、意味検索では、ユーザーの知りたい内容に概念的に近い情報を取得できます。ただ、我々が扱うのは古典ギリシア語やラテン語の原典であるため、そのままでは検索精度が上がらないという課題がありました。そこで、コンテクスト指向翻訳、Context-Oriented Translationという独自の手法を考案しました。これは、英語をピボット言語としておき、原典の断片を、それだけで文脈が完結するような英語の要約に変換して中間データを生成し、それに対して検索をかける手法です。これにより、検索が困難だった古典語においても高精度な意味検索を実現しました。
本日、実演の御要望を頂きましたので、実際の画面を御覧に入れます。Humanitext Antiquaという名称で、西洋古典に特化したシステムとして既に一般公開しております。現在は無料で使用でき、GoogleのGeminiやOpenAIのGPTなど、複数の最新モデルを選択して利用可能です。また、出力形式もユーザーの研究目的に応じてカスタマイズできるようになっています。
具体的な利用例として、西洋古代における友情について教えてくださいという質問を投げてみます。一般的なChatGPTであれば、ネット上の情報を無作為に拾って回答しますが、本システムでは、整備された原典データベースの中から質問に近いソースを特定します。 例えば、プラトンの友情論に関連して、アルビノスの『プラトン哲学講義』第33節や、プラトンの『リュシス』215bといった具体的な箇所がピンポイントで引用されます。ユーザーはテキスト番号を頼りに即座に原典に当たり、AIの回答が正しいかどうかを検証することが可能です。このように、ざっくりとした質問からでも関連テキストを一覧として取得できるため、まだ読んだことのない資料や、予期せぬ関連性を発見できる可能性があります。これにより、哲学、歴史、文学といった分野を横断した検索が可能になり、研究スピードが加速するだけでなく、これまで視野に入らなかったテキストも含めた広範な影響関係を分析できるようになります。
この取り組みは、Japan-led Innovation、日本主導のイノベーションにもつながると考えています。これまで西洋古典学のツールは欧米主導で作られ、我々はそれを受容する立場でした。しかし、西洋古典に特化したこのようなAIモデルやシステムは海外でもまだ例がありません。このシステムを世界に先駆けて構築・発信することで、日本独自のイノベーションを示し、国際的なプレゼンスを高められると考えています。
次に、AI活用を始めたきっかけとハードルについてお話しします。きっかけは、キーワードの一致ではなく、概念や文脈に基づく最適なテキスト発見へのニーズでした。例えば、フィリアという単語で検索すると数百件がヒットしてしまい、その類義語まで含めると網羅的な調査はほぼ不可能です。研究者の、こういう概念を調べたいというニーズに応えるには、生成AIが不可欠でした。ただし、ハルシネーションのリスクがあるため、典拠の明示は絶対条件となります。
開発のハードルについては、私自身が人文学者であり、技術的な実装スキルやエンジニアを雇う予算がなかったことが挙げられます。しかし、ChatGPT等の支援によりコーディングが可能になり、最近ではVibe Codingのように、AIがコードを能動的に生成・修正してくれるようになりました。これにより、人文学者がエンジニアを雇わずとも、AIとの協働でシステムを構築できる環境が整いつつあります。 これからの人文学者に必要なのは、フルスタックのエンジニアリング能力ではなく、データを使って何を実現したいかという設計能力や、出力結果の検証能力、そして異分野と協働するためのマインドセットです。
最後に、データリポジトリの課題について触れます。 現在、我々のデータはTEI/XML形式でアーカイブされており、これは人間が読むため、あるいは保存用としては非常に優れています。しかし、AI、特にRAGでの利用には必ずしも最適ではありません。テキストを断片化して抽出すると、文脈が途切れ、他テキストとの参照関係も失われてしまうからです。したがって、AI活用を高度化するためには、TEI/XMLとは別に、グラフ構造を持ったデータ、GraphRAGを構築する必要があります。テキスト間の参照関係だけでなく、批判、皮肉、賛美といった解釈レベルの関係性をグラフとして記述していくのです。これは機械的な処理だけでは不可能で、ドメイン知識を持つ人文学者の解釈が不可欠です。
今後の課題は人です。モデル自体の改善よりも、質の高いドメインデータを網羅的にモデルに与える工夫の方が、最終的な出力品質に大きく寄与します。そのためにはデータ構築を行う人材が必要ですが、論文至上主義の評価制度の中では、データ作成は評価されにくく、協力者が集まりません。また、人文学分野、特に研究職を志望する学生が激減しており、ドメイン知識を持つ次世代の研究者が育っていないのが現状です。情報分野の学生を増やしても、古典のドメイン知識がなければデータは作れません。ハイブリッド人材の育成が急務ですが、そもそも母数となる学生が不足している点は深刻なボトルネックです。
結びとなりますが、人文学研究においては、AIモデル自体の性能向上にばくだいなコストをかけるよりも、データの設計力と構造化に注力し、コンテクストの質を高めることが重要です。それにより、限られたリソースでも研究を大きく発展させられる可能性があると考えています。
私の発表は以上になります。ありがとうございました。
【大橋主査】 ありがとうございました。後ほどまた意見交換させていただければと思います。
【名古屋大学(岩田)】 よろしくお願いします。
【大橋主査】 ありがとうございます。それでは、続きまして、鈴木先生の方から、DH/AI活用に係る権利問題ということで、タイトル、「DH研究やAI for Scienceに係る権利問題の支援」ということで御紹介いただこうと思います。
御準備がよろしければお願いします。
【人間文化研究機構(鈴木)】 では、私の方から「DH研究やAI for Scienceに係る権利問題支援」ということで、私ども人間文化研究機構で取り組んでいる取組を中心に御報告させていただきます。
まず、初めになのですけれども、先ほどの岩田先生の御報告とも関連するかと思うのですが、現在の生成AIは信頼できる情報資源とは言えない状況かなと思っております。先ほどの御報告の中でもハルシネーション等のお話があったかと思いますが、生成AI自体が信頼できる情報源とは今のところはなっていないのかなと思っております。
DH研究やAI for Scienceを推進するに当たっては、やはり信頼できる情報支援が必要だと考えております。先ほど岩田先生の御報告の中でも質の高いデータが必要というお話ありましたけれども、私もそのように考えておるところです。
そのような信頼できる情報資源の構築に当たりましては、しばしば権利処理が必要になる場面があるかと思っております。特に人文社会系は、著作権ですとか個人情報などの問題があるかと思うのですけれども、自然科学分野等においても権利処理が必要になる場面はあるのではないかと思っております。しかし一方で、各大学では必ずしもそういった人材については確保できていない状況かなと思っております。
私ども人間文化研究機構、NIHUと略しますけれども、NIHUではDH研究を推進するために、情報資源の構築とともに権利問題への支援にも取り組んでおりますので、本日はその取組と今後の展望につきまして、私の私見になりますけれども、御報告をさせていただきます。
NIHUでは、取り組んでいるデジタル・ヒューマニティーズ促進事業というものを2022年から6年間の重要課題として推進を掲げているのですけれども、その中には、情報資源の構築ですとか、各大学等におけるネットワーク構築、若手育成のほかに、私が本日御報告するような権利処理についても取り組んでおりまして、その御報告をいたします。
権利処理につきましては、DH権利相談窓口というものを2023年10月から設置をしております。この窓口なのですけれども、NIHUの各機関、NIHUには、歴博、民博、国文研、国語研、日文研、地球研の6機関があるのですけれども、そこの6機関に加えて、私が所属している機構本部からDH研究に関連する権利相談というものを受け付けております。DH研究に関連するといいましても、もう少し広めに相談も受け付けているところです。
その相談に当たりましては、「知財連携コーディネーター」という者を公募しまして、私がそこに着任して対応をしております。通常一、二週間程度で相談に回答するようにしておりまして、私のほかに著作権ですとか肖像権に詳しい弁護士の方とも連携して取り組んでおります。ただ、回答については、私の研究者としての見解を示すものと位置づけているところです。
こちらの相談窓口で受け付けた質問に関しましては、相談者さんですとか、具体的な相談対象となった資料などは分からないように少し一般化して、NIHUのDHウェブサイトというものをつくっているのですけれども、そこでQ&Aとして公開等をしております。こちらも後ほど少し御紹介いたします。
この相談窓口の利用状況なのですけれども、2023年10月30日に開設しまして、先月末11月30日までの約2年間で133件の相談に対応しております。こちらの相談については、1件当たり数行程度で回答できるような簡単なものもあるのですけれども、多くのものについては、A4用紙で二、三枚程度の、どうしても正確性を考慮するとそのぐらいの回答分量のような形で回答をしているところです。
これまで受け付けた主な相談内容としましては、本日御報告するものと関連するものとしては、情報解析と著作権の関係についてもそこそこ頂いております。あるいは引用に当たるかですとか、デジタルアーカイブに伴う著作権ですとか、肖像権・プライバシー問題などについて相談を受けております。
このような相談を受けたものも一部含んだものとして、2024年3月に、こちらに挙げております「デジタル・ヒューマニティーズ研究に関する権利問題ガイド」というものを作成、公表しております。こちらはDHに関する権利問題を支援するためのツールということで、著作権ですとか肖像権、個人情報の専門家をメンバーとした検討会を立ち上げまして、そこでの検討を通じて作成したものになっております。
こちらのガイド、権利問題ガイドでは、前半では著作権、肖像権、個人情報、プライバシーについてごく簡単な概要を御説明した後に、後半でDH研究に関する主な権利問題等につきましてQ&A方式で解説をしておるところです。
こちらについては、先ほど御紹介した権利相談窓口で受け付けた御相談について、一部一般化して公開するのがよかろうというものにつきまして、2025年3月に追加のQ&Aを公開しております。こちらは今後もQ&Aを追加していく予定でおります。
こちらについてもNIHUのDHウェブサイトでクリエイティブコモンズのCC-BYで公開しておりますので、自由に御活用いただくことが可能です。
そのほかに、DH権利相談窓口では、著作権に関するセミナーですとか研究会についても開催しているところです。
まず、人文機構、NIHU内部向けとしましては、年に2回程度各機関の教職員に向けた入門的な内容のセミナーを開催して、著作権に関するリテラシーの向上を図っているところです。例えば著作権に関する入門的な内容ですとか、あるいはクリエイティブコモンズ、最近、論文のオープンアクセスなどでも様々な活用の要望がありますけれども、クリエイティブコモンズライセンスについての入門的な内容などを御紹介しております。
また、一般にも参加できる研究会として、今年の6月には即時オープンアクセス義務化方針とクリエイティブコモンズライセンスについて、私の方から御説明したものを開催しまして、こちらの当日の資料と録画につきましても公開をしております。先ほど確認したら、当日の資料については357件ダウンロードされていたようですので、そこそこ見ていただけているのかなと思っております。
また、年度内、年明けになるかと思うのですけれども、デジタル知識法という、EUの方でそういったものの提案がなされておりますので、それについてゲスト講師の方をお招きして、講演とディスカッション等の研究会を行う予定でおります。
また、NIHUのDH促進事業では、DHに関する講座動画を作成しているのですけれども、その1つとしまして、デジタル資料をめぐる権利関係に関する動画というものを作成して公開をしております。
以上が権利相談窓口で取り組んでいる主な内容でして、次のスライドからは、先ほど御紹介した権利問題ガイドに掲載している御相談について少し御紹介できればと思います。
まず1つ目がデータの法的保護というところで、例えば、かなりこの質問と回答については一般化して簡略化しているのですけれども、例えば質問、相談として、データには著作権はないと聞きましたと。研究データとして利用されるものであれば、著作権などの権利を気にせずに自由に利用できるのかというような、こういった趣旨の相談は度々寄せられるところです。
例えばこれについての回答をごく簡単にまとめますと、まず、著作物として保護されるのは、思想又は感情の創作的な表現が保護されます。一方で、実験データといった事実を単純に示したにすぎないものですとか、あるいは誰が表現しても同じようなものになる表現については、幾ら作成に労力や金銭が投じられていても著作物として保護されることはないということを説明しまして、研究データというときには、主には自然科学の研究における実験データが想定される場合が多いので、データには著作権がないと言われることがあるというような解説をしております。
ただ、これに続きがございまして、研究に用いられるデータは様々なものが含まれるというのは皆様御案内のとおりかと思います。そして、その中には著作物として保護されるものも少なくないと考えております。例えば、写真や地図などの画像データにつきましては、研究データとしても分析対象となりますが、多くの場合、著作物として保護されています。これは特に人文系のDH研究などでは、写真ですとか地図といった、あるいは文学作品なども対象になりますけれども、そういったものは研究データとして扱うとしても著作権が発生している場合が多いと考えられますので、結論としましては、研究データだからといって著作物ではないとは一概に言えませんというような回答になります。
また、研究データとして扱う場合には、著作権だけではなくて個人情報なども問題になりますので、そういったところについても権利問題ガイドの方で解説を載せているところです。
2件目に御紹介したいのが、DH研究ではよくありそうな事例なのですけれども、権利が消滅している資料に対する利用条件が課されている場合ということで、例えば明らかに著作権の存続期間が満了しているような古文書について、この古文書を持っている人、所有者からデジタル化や公開の条件を提示されていますと。そのような資料について、著作権がない場合にもこのような条件は有効なのかという御相談。
これにつきましては、著作権の期間が満了している場合については、デジタル化ですとか、デジタル化したデータの公開に当たって、所有している方が著作権に基づいて条件をつけることはできないというのが、これは最高裁判所の判決でも示されているところです。
ただ一方で、資料には、所有者はその資料の所有権を持っておりますので、資料の所有者の所有権に基づいてデジタル化のための資料の現物を貸し出すかどうかを決めることができます。
貸し出す際には、デジタル化や公開についての契約を結ぶこともできますので、そのような契約をした場合には、原則としてその契約を守る必要があると考えられるところです。
相談の最後の御紹介として、著作権で保護されている作品の情報解析ということで、存命の小説家のある作品をデジタル化して、計量テキスト分析、テキストマイニング等を行いたいと考えていますが、著作権法上問題はないかというような御相談で、これはDH研究でもよくあることで、存命の小説家の作品ですので、当然著作権はまだ残っているというものになります。
これにつきましては、昨今の生成AIと著作権との関係ではよく話題に上がるのですけれども、著作権法30条の4というものがありまして、その中には、細かいのであまり詳しく本日は御紹介しませんけれども、ここに挙げたような条件を満たした場合には情報解析等で利用できるということになります。
結論としましては、今回のような相談につきましては、情報解析に当たりますので、基本的には利用できると考えられるところです。
ただ、こちらについては、昨今の生成AIとの関係で、30条の4という規定の解釈についても様々な意見が出されているところですので、今後も少し注視していく必要があるかなと思っておるところです。
DH・AI for Scienceの推進における権利問題の障壁として考えられるものとして少しまとめているのですけれども、冒頭申し上げたとおり、DHですとかAI for Scienceの推進にはデータが重要になると考えられるところです。
特に人文社会科学系においては、著作権のある資料ですとか個人情報を研究データとして扱うことも多いと思われますので、研究データとして扱ってよいのか迷う場面も少なくないのではないかと考えられるところです。
ただ一方で、私が受けている相談などからしますと、日本の著作権法上は情報解析での利用というのはかなり自由にできる状況に現在のところありまして、また、個人情報につきましても、学術研究目的で取り扱う場合には例外規定もございますので、相談者の方が思うほどに非常に大きな制約があるとは言えない場合も少なくないかなと思っております。
ただ一方で、もちろん現行法でDH研究ですとか、あるいはAI for Science、あるいはそれらに限らない研究活動において必要になる利用が全てカバーされているわけではもちろんございませんので、制度上の手当ての必要性は今後も議論をする必要はあるのかなとは思っておりますけれども、現行法の解釈によっても研究を推進することはそこそこ可能なところはあると考えております。
一方で、特にDH、人文系のAIを活用していくに当たっては、著作権などの問題がない場合であっても、特に資料の所有者さんの心理的なハードルと申しますか、そのようなものがあって利用が難しくなっているケースも少なくないように思われます。先ほど御紹介した、著作権が切れている資料について利用条件を提示するですとか、そういったところですけれども、ただ、それも著作権法上は利用できるということにはなるのですけれども、様々な条件をつける背景には、資料が意図されない方法で利用されてしまうのではないかといった不安ですとか、あるいは、所有者の方というのは、これまでずっと資料を保管するという役割を担ってきてくださった方ですので、そういった方の意思を無視してまでデジタル化を進めるというのはかえって信頼関係を損なうことになって、今後の研究が進まなくなるというところも考えられますので、その辺りは、法的にというよりは、倫理的な配慮が必要になるのだろうと思っておるところです。
ただ、このような状況なのですけれども、これを全国の大学でいきなりこういった権利相談ですとか、権利処理についてできるかというと、まだまだ人材が足りない状況かなと考えております。それをどうすればいいのかというところで、これは完全に私が少し考えただけで、全く詰められていないところではあるのですけれども、参考になる事例として、アメリカの大学では、著作権リテラシー向上のための施策として、コピーライトライブラリアンというものが任命されているという報告があります。国際図書館連盟(IFLA)というところが2018年に「著作権教育及び著作権リテラシーに関する声明」というのを出しているのですけれども、ここで著作権リテラシーというのは、著作権で保護された資料の利用について広い見識に基づいた決定を下すことができる十分な著作権の知識と言われておりまして、この宣言、声明の中で、全ての専門図書館職員が著作権に関する基礎的知識を持つことを保証するとともに専門のコピーライトライブラリアンの任命を検討するようなことを提言しております。
実際に米国の有力大学ではコピーライトライブラリアンあるいはコピーライトオフィスのようなものが設けられている大学があるという報告がありまして、例えばイリノイ大学のアーバナ・シャンペーン校では、コピーライトライブラリアンによる著作権の相談ですとか、講習会、講義では情報提供が行われているというような、ホームページを見たらそのように書かれておりましたので、私がNIHUで行っている相談窓口のような活動が行われているのかなと思っております。
日本にもこういうコピーライトライブラリアンを導入できないかなというのが法改正を伴わない解決策の一つとしては考えられるのかなというところで挙げております。
まず、DH研究ですとか、AI for Scienceの推進には著作権の権利処理というのは恐らく不可欠になるだろうと。
一方で、スタッフが少ないと思われるところです。必ずしもこれは研究者レベルの、著作権の研究者ですとか弁護士レベルの著作権に詳しいスタッフが必要ということではなく、いればもちろん越したことはないですけれども、そこまで至らなくても、必要な情報源を提供できる程度の知識を持っている方が各大学にいるのが望ましいのではないかと考えておるところです。
また、政府の方で推進されている論文のオープンアクセスを含めたオープンサイエンスの推進に当たっても、著作権のリテラシーを高める支援というのは今後必要になるだろうと考えております。
そういったところで、NIHUにいる私としてどのようなことができるのかなというのを少し考えたときに、例えばNIHUへ出向ですとか、実務研修を通じて、権利問題への対応を含めた、私がやっている支援業務も含めたDH研究の実務的な知識を身につける機会を提供して、全国の大学にまた戻っていただいて、それを自分の大学の中で広めていただくような仕組みというものを構築できるとよいのではないかなと思っておるところです。
これは、文科省さんの行政実務研修ですとかNIIさんの実務研修が行われておりますけれども、それのDH版、あるいはAI for Science版のようなイメージでおるところです。
ここではコピーライトライブラリアンというふうに先ほどのアメリカの事例から持ってきておりますけれども、もちろん図書館職員の方に限定するわけではなく、URAの方ですとか、あるいはほかの方でもよいと思うのですけれども、そういった人材を一度研修等で育てて各大学に戻していくというのが現在取り組める1つの方法なのかなと思っております。
とはいえ、NIHUの中でも権利問題について今対応しているのは私だけですので、こういうものをもし本当にやっていくとしたら、私の組織、NIHUの中でもそういった人材をまずは育ててからでないと難しいので、少し時間がかかるのかなと思いますけれども、こういった方法が1つあり得るかなと考えておるところです。
私からの報告は以上でございます。ありがとうございました。
【大橋主査】 鈴木先生、ありがとうございました。岩田先生からは御自身のプロジェクト、Humanitextというプロジェクトについての御報告いただいて、鈴木先生からはDH権利問題の射程とその支援についてということで多分お話しいただいたのかなと思っています。
以降、御質問なりあるいは御意見なりあれば是非いただければと思います。1対1のやり取りだと少し時間が結構かかってしまうかなと思うので、三、四名ぐらいまとめて御意見いただいた後、岩田先生、鈴木先生にまとめて御回答いただくようなやり取りを三、四回できればいいかなと思っています。もちろん複数回御質問されても全く構わないのですが、そういうふうな形で進めさせていただければと思いますので、御発言希望の方おりましたら、基本的に全員に御発言いただきたいと思っています。いま安田先生から挙手いただいておりますので、お願いできればと思います。
【安田委員】 ありがとうございました。非常に勉強になりました。コピーライトライブラリアンの件で少しお伺いしたいのですけれども、このような人材を育てること自体にどのぐらいのコストと時間と研修みたいなものがかかるのかというところを少し教えていただけたらうれしいです。
【大橋主査】 ありがとうございます。続いて、仲先生、お願いします。
【仲委員】 ありがとうございます。大変勉強になりました。幾つか質問があるのですけれど、言わせていただいて、質問として適切なものがあったらお答えいただけましたらと思います。
最初の岩田先生の御報告なのですけれども、例えば、ギリシャの古代の文書が検索されて出てくる、そのベリフィケーションというのを考えたときに、具体的にどうやっているのか。例えばOpenAIのモデルとGeminiのモデルと並行してやってみてぶつけるというようなことをされるのか、どうやってベリフィケーションを行うのかというのが1つです。
それから2つ目は、この検索が、文脈もちゃんと拾ってきて適切だったよねというようなフィードバックがかからないとAIも学ばないのかなと思うのですけれども、そのフィードバックというのは、結局のところ、研究者が返す、あるいはうまくいかないなといって何度もやり取りをする、そういうことによって可能になるのかという、少し関連するのですけれど、この2つです。
あとすみません、鈴木先生のデジタル・ヒューマニティーズ。これも大変ありがとうございました。2つあって、1つは、こういう判断をするときに、今、よりどころとなるのは法律ということになるのか。時々刻々と情報環境が変わってくる中で、今の法律で不足があったりするようなことも感じておられるのか、あるいは十分今までのやり方でできるとお考えなのかというのが1点目です。もう一つは、例えば最近のAIは、個別の1つのオリジナルというよりは、何かいろいろ混ぜて、モーツァルト風とか、何とか風とか、何か混ざっているのかなと思うと、この混ざってしまったら著作権というのはなくなるのかどうなのか。すみません、この2つです。
以上です。
【大橋主査】 ありがとうございます。それでは、米村先生、お願いできますでしょうか。
【米村委員】 米村です。お二人の先生、ありがとうございました。まず、岩田先生には、タイトルに高度化と民主化とありますが、民主化についてもう一度御説明をいただけると有り難いです。
それから、鈴木先生には、相談内容は、法律だけでは対処できないような問題、例えば資料の個別性や所有者の方の事情や心情など複合的な問題なのだと思うのですが、それに関して教えていただきたいと思います。
というのは、Q&Aをまとめて公表してくださっていて、とても有用だと思うのですけれども、Q&Aだけではまとめきれない対応というのが必要で一般化はなかなかできないものなのかどうかという辺りを教えていただきたいです。
以上です。
【大橋主査】 ありがとうございます。たくさん御質問もありましたので、ここで少し一旦区切らせていただいて、岩田先生、鈴木先生の順でお答えできるところをお願いしてもよろしいでしょうか。
【名古屋大学(岩田)】
御質問ありがとうございます。まず、仲先生から頂きましたギリシア語・ラテン語のベリフィケーションの手法についてお答えします。現状のHumanitextでは、回答に含まれるテキストの出典箇所をピンポイントで提示する機能を実装しています。したがって、AI同士で検証させるのではなく、ユーザー自身が提示されたリファレンス、参照元に基づき、原典や翻訳を参照して、本当にそう書かれているかを確認することを想定しています。一般的な汎用モデルでは、出典が出たとしても、第○巻程度までしか特定できず、ページ数や行数までは分からないケースが大半です。そうなると、ユーザーは確認のために膨大なテキストを読まねばならず、結果として確認を諦め、不正確な情報のまま利用してしまうリスクがあります。そのため、ユーザーが必ず原典に立ち返ることができる仕組み、そしてそれを促す設計にすることが不可欠だと考えています。
次に、検索精度の改善フィードバックについてです。現時点では、ユーザーからのフィードバックをAIに直接学習させて自動的に改善する仕組みは実装しておりません。現在は、定期的に専門家による評価を行い、その指摘に基づいて文脈の区切り方、チャンクや作品構造の扱い方を手動で調整・アップデートするというプロセスをとっています。ただ、ユーザーの声をダイレクトに反映して検索精度を向上させる仕組みは理想的ですので、今後の実装課題として検討しているところです。
最後に、米村先生から御質問いただいた、民主化の意図について御説明します。西洋古典はデジタル化が進んでおり、多くの原典がオンラインで閲覧・検索可能です。しかし、既存のデータベースは基本的にギリシア語やラテン語での検索が前提であり、専門的な語学力がなければ十分に活用できないというハードルがありました。一方で、西洋古典は知の源泉であり、専門外の研究者、学習者、あるいはアーティストなど、広く一般の方々にとっても有用なリソースです。今回のシステムのように生成AIを活用すれば、母国語(日本語)で問いかけることで日本語の回答が得られ、たとえ翻訳が存在しない著作であっても、その内容や概要を把握できるようになります。このように、専門教育を受けていない方でも古典の知見に触れられる環境を作ること、それが私の考える「知の民主化」であり、非常に大きな意義があると考えています。
【大橋主査】 ありがとうございます。もし追加とか、漏れとかあったらまた挙手いただければと思いますので、お願いいたします。
それでは、宇南山先生お願いします。
【宇南山委員】 宇南山です。非常に勉強になりました。まず、こちらの岩田先生の方に質問させていただきたいのですが、私は西洋古典とか専門でないのとAIのモデルというのはそんなには理解しているわけではないのですけれども、こういったタイプのAIをまさしく活用した研究をしようと。特にAIそのものを研究対象にしていないような研究者がやっていこうとした場合には、恐らくどこかの誰かが開発したAIのモデルというのを使うことになるのかなあと理解しているのですけれども、その場合、計算するためのハード、コンピューターそのものとかをどのようにメンテナンスしていて、AIのモデルが変わったよというときのアップデートとかというのを、まさしくAIそのものの進歩があったようなときには、どの程度の負担が考えられて、どういったタイプの研究者を研究グループの中に置いておかないと対応できないのか、そういった運用面での実態みたいなものがもしあれば教えていただければと思います。
もう一つ、こちらのDHの方、非常にこれも興味深いのですけれど、こういった相談というのは、例えば弁護士資格みたいなものは必要ないのかというのが少し気になったのと、人材としてまさしく知的財産法を専門にするような弁護士レベルの人材までは必要ないのでしょうか。そこら辺、実態というか、実感みたいなものを教えていただければと思います。
以上です。よろしくお願いします。
【大橋主査】 ありがとうございます。続きまして、森田先生、お願いします。
【森田委員】 本日はありがとうございます。どちらの先生の御報告も大変勉強になりました。
それぞれ1点ずつ、岩田先生の方には質問とそれから鈴木先生の方には感想になります。まず岩田先生の方につきましては、今回、これ非常にすばらしいプロジェクトだと思うのですけれども、岩田先生のこの研究を利用して、先ほどの例えばプラトンの友情についてとか、新しい論文を書けるわけですよね。そういったものが書かれたときに、多分理想的な世界だと、その論文を書いた人が、この論文はHumanitextの岩田先生のこのモデルを使って書きましたみたいな謝辞や参照を書き加えてくれると、こういうシステムをつくるインセンティブもあるし、やる気も出てくると思うのです。岩田先生の研究は、多分そういう意味では基礎になるシステムを提供するようなタイプだと思うのですけれど、そういったところの手当てについてはどうなっているのかという点が質問でございます。
それから、鈴木先生の方につきましては、先ほどの安田先生の御質問にもありましたけれども、私も、コピーライトライブラリアンと言うかどうかはともかくとして、こういった仕事をされる人がおられるというのはすごくいいことだと思っています。今現在、日本全国で法学部のある大学でしたら、大抵知的財産権法の担当の教員がいます。私の同僚にも1人いるのですけれども、大体大学の中で何か知的財産権――理系では発明とかの関係もありますので――の問題があると呼ばれて、いろいろ教えろと言われるのです。やはり彼らを見ていて少しかわいそうだなと思うのは、知的財産権の教員の先生方というのは本来、教育と研究のために雇われているのであって、そういう学内のボランティア的な仕事のために雇われているわけではありません。ですから、やはりコピーライトライブラリアンのような仕事を専門にするという人材をどこかで提供してもらえると非常に助かるなと思いました。
それから、仲先生の御質問に対する私からの回答、法律家としての回答なのですけれども、一応法律にはいろいろ書いてあるのですけれども、法律に書いてある基準は多くの場合抽象的なのです。それが具体的な事例でどちらに振れるのかというのは、個別具体的な事例の様々な要因によって変わってきます。そこで、裁判所や法律専門家の判断の出番になるわけです。ですから、基本的には法律に書いてあるのだけれども、それを具体的に事例に当てはめるときにどちらに振れるのだというのは、裁判例の発展とかを知っている専門家でないと回答できないというところがある、というのが仲先生の御質問に対する回答になるかと思います。
以上です。
【大橋主査】 ありがとうございます。
続いて、山中先生、お願いできますでしょうか。
【山中委員】 大変勉強させていただきました。ありがとうございました。私は、岩田先生のお話は、ようやくついていくのが精いっぱいで、感想だけなのですが、私も古文書を扱う研究をしていますので、自分たちの研究仲間のことを考えたとき、マインドセットの更新が必要だということは、非常に共感しました。論文重視だけではなくて、こういうデータを作ってくれる人にちゃんと光が当たらないとなかなか難しいなというのが感想です。
それから、鈴木先生のお話については、専門職を養成するということでお聞きしたいです。半分感想かもしれませんが、やはり法律だけではどうしようもない部分があるのだと、鈴木先生もおっしゃったとおりで、本当に所有者の心ひとつで見せてくれるか見せてくれないかということがある世界です。もし本当にこういう専門職ができるのでしたら法律だけではなくて、いきなり資料の所有者のところに押しかけていってしまって失敗するようなことがないようなアドバイスができる人が必要かと思います。既に父親からの遺言で絶対研究者には資料を見せるなと言われている、というような場所があるのですが、そういう相手でも、こういうふうに説得していったらだんだん心を開いてもらえますよ、こういう順番で手続を踏むといいですよ、というようなアドバイスまでしてくださる専門職があったら本当にいいなと思うのですが、その辺はいかがでしょうか。
よろしくお願いします。
【大橋主査】 ありがとうございます。一旦ここで切らせていただいて、岩田先生、鈴木先生からお願いしてもよろしいでしょうか。
【名古屋大学(岩田)】
まず、宇南山先生からの、AIモデルの管理・更新コストについてお答えします。我々のプロジェクトでは、クラウド上で公開されているモデルをAPI経由で利用しており、ローカル環境でAIを運用しているわけではありません。そのため、モデルの更新自体は、コード内の指定を1行書き換えるだけで済み、技術的な負担はそれほど大きくありません。もしシステム管理を完全に外注している場合、僅かな更新でも業者への発注が必要となり、予算確保のタイムラグで古いモデルを使い続けざるを得ないという話も耳にします。その点、人文学の研究プロジェクトであっても、ある程度自分たちでコードの内容を把握していれば、即座に対応可能です。ただし、APIの利用料は従量課金であり、大規模な研究を行おうとするとランニングコストがかさみます。一般的な人文学研究費の枠内では賄いきれないケースも想定され、学生の利用などには予算上のハードルがあります。ローカル環境で動かすという選択肢もありますが、数百万円単位のハードウェア投資が必要な上、利用できるモデルの性能は最新の商用クラウドモデルに比べて劣るのが現状です。
次に、森田先生からの「クレジット表記とインセンティブ」についてです。御指摘の通り、開発者としては非常に重要な課題だと認識しています。しかし現状、人文学分野においてはAI利用に対する拒否反応が根強く、「AIを使うべきではない」「教員が推奨するなど言語道断」といった意見も少なくありません。本来であれば、Humanitextが提示した典拠と回答に基づき、研究者が思考を発展させながら論文を書くというプロセスは、研究の高度化に資する健全な営みです。しかし、今の雰囲気では「AIを使ったことを隠したい」というモチベーションが働きやすく、実際に利用されていても表立ってクレジットされる事例はまだ確認できていません。開発側としても、実際にどのように利用され役立っているのかというフィードバックが得にくく、モチベーション維持が難しい側面があります。利用者が堂々とAI活用を公言できる環境づくりは、今後の大きな課題だと考えています。
【大橋主査】 鈴木先生、お願いします。
【人間文化研究機構(鈴木)】 御質問ありがとうございます。安田先生から頂いた御質問とも、ほかの方々の御質問とも関係するのですけれども、人材育成にどのぐらいコスト、時間がかかるのかというところで、すみません、あまり詰められた検討ではないので、少し私の本当に今思いつきということになってしまうのですけれども、最低1年程度は欲しいなと思ってはおります。
というのも、私も10年以上著作権ですとか知的財産法を研究しておりますけれども、こちらに着任して相談を受けておりますと、全然これまで考えたことがなかった課題というのが割と頻繁に相談にありまして、そういうことを考えますと、1年程度、実際にどういう相談者とのやり取りをするのかというところも体験いただいた方が、山中先生の御質問とも関連して、そういう法律だけではないところについてもいろいろ体験といいますか、実務として携わっていただいた経験を各大学に戻って生かしていただくのがよろしいのではないかなと考えております。
関連して山中先生から頂いた法律だけでない部分というのは、私もそのように感じておりまして、またそれとも関連するのですが、権利処理だけでその方が専門でやっていくというよりは、もっと広く、データの取扱い、研究データの取扱いについて広く権利処理を含めた業務として育成をして、それを各大学に戻していくという方がいいと私も思っていますので、法律面ですとか、所有者の方とのやり取りですとか、あるいはデータマネジメントも含めて、そういったデータ人材のようなものが育成できるとよいのではないかと考えておるところです。
仲先生からの御質問、1点目は森田先生から御回答いただいたので、私も同じでございます。生成AIで、今、様々な著作物が混ざって生成されてくるというところで、生成されてきたものが既存の著作物と似ているかどうかというところがまずは重要になってきますので、混ざったからどうというところではないというのが御回答になります。
次に、米村先生からの、法律だけでなく、個別性を考えなければいけないのかと。資料の個別性ですとか、そのような複雑性があるのかという御質問だったかと思うのですけれども、それはかなりあると思っております。
実際相談を受けていても、公開できないような事情があるような御相談ですとか、あるいは、資料それ自体がセンシティブなものという場合もありますので、そういった公開できないようなものもございます。
そういったこともありますので、一般向けのセミナーだけですとなかなかその辺りの機微感というのがつかめないかなと思っておりまして、実際の実務を通した研修ですとか、出向の、恐らく、先ほど少し宇南山先生の弁護士資格は必要ないのかというところの御質問とも関連して、守秘義務等もあるので、やはり出向してもらわないと厳しいのだろうなとは思っています。一度籍を移してもらわないと難しいのかなと思っているのですけれども、そういった複雑性はございます。
宇南山先生の御質問の弁護士資格は必要ないのかというところで、こちらは私どもも検討しておりまして、まず私がやっている相談窓口は、人間文化研究機構という法人組織内で完結しておるところでして、いわば企業の法務部のような形になっておりますので、自分の組織内の相談を受けて、それについて私の研究者としての見解をお答えするという形にしております。
また、今の相談窓口は、弁護士の方とも連携しておりますので、その辺りについても問題ないと考えております。
また、相談に対して、報酬を取っておりませんので、特にいわゆる非弁行為にも当たらないのではないかと考えてはおりますが、これを仮に人間文化研究機構以外の大学に対して提供した場合には少し議論があるところかなとは考えておりますので、今は人間文化研究機構の法人の中でのみ御提供しているというところです。そういったところもありまして、各大学にそういう相談できるような人が1人はいるとよいのではないかというような御提案になっております。
弁護士レベル、あるいは学者レベルまで必要なのかというところで、理想を言えば、もちろんそのレベルの方がいらっしゃるのはいいとは思うのですけれども、森田先生もおっしゃったとおり、法学部のある大学には大抵知的財産法の教員の方がいらっしゃるのですが、私も知り合いがたくさんいるのですけれども、やはり森田先生おっしゃったとおり、特許ですとか著作権とかに呼び出されるけれども、私は別に実務をやっているわけではないというのはお伺いするところでもありまして、とはいえ、そこまでの人材をそろえるというのもやはり難しいかなと思っております。各大学でさえ、知的財産法を担当している研究者というのは、大きな大学で2人いるかいないかぐらいでありますので、それで弁護士の方も著作権専門にやっている方というのはそれほど多いわけでもないというところになると、各大学に1人ずつ、そのレベルの専門家を置くというのはやはりなかなか少しハードルが高いのかなと思っておりますので、必要な情報源にアクセスできるような方を育成するというのが現実的なところかなと考えておるところです。
恐らく頂いた御質問には私の方からお答えできたと思うのですけれども、不足がありましたら、またいただければと思います。
【大橋主査】 ありがとうございます。
それでは、続けさせていただいて、続いて青島先生、お願いします。
【青島委員】 どうもお二人の先生方ありがとうございました。大変勉強になりました。
まず、岩田先生の方から、感想からですけれども、4ページ目にAIとの協働による人文学者の技術的エンパワーメントというのがありまして、私は社会科学者ですけれど、本当に日々これは感じておりまして、正にコーディングの壁とか、こういうようなものが本当に取っ払われてAIを活用するというのは非常に重要なことだなと改めて思いました。
それで、この検索システム、非常に興味がありまして、我々もいろいろな文献とか検索するのですけれど、AIも使って、最近はかなり出典も出してくれてよくはなっているのですけれども、やはりいろいろな間違いがあります。
このシステムですと、間違いもないし、ページもきちんと特定してあるものを検索してくれるというのはすばらしいなと思ったのですが、これができるのは、そもそも100著者、1,000作品という、ある程度限定をこちら側でしているということなのかというのが1点目です。
もう一つは、多分一番の面白いポイントというのは、文脈指向翻訳というところかなと思ったのですが、主語・背景補完というのは、ユーザーが出した問いを少し補完して問いを変えるということなのでしょうかね、というのが私の質問です。
続きまして、鈴木先生の方は、正にこういうコピーライトライブラリアン、是非近くにいてくれて有り難いなと思いました。こういう育成、非常に重要だなというのは本当に思いました。
私の領域の研究との関係でいうと、個人的な質問になるのですけれど、我々よく質問票の調査をして、質問票を設計してデータを取るわけですけれども、その場合、質問票そのものはコピーライトの対象になるのか、取ったデータというのは、対象にならないと考えるのか、その辺りについて少し切り分けがもし分かれば有り難いなと思いました。
以上2点です。よろしくお願いします。
【大橋主査】 ありがとうございます。後ほどお答えいただくとして、続いて、木部先生、お願いします。
【木部委員】 どうもありがとうございました。岩田先生のモデルは非常に魅力的です。私は、日本語の研究をやっているのですが、そこに応用できるのかということをお伺いしたいと思います。私は大学時代に古典文学を習っていまして、大体、昔の作品というのは、コピーが多くて、その出典がどこにあるかを探してくるのが演習のとても大きなテーマだったんですね。例えば江戸時代の作品だったら、平安時代の作品に出典があることが多いのですけれども、日本の場合、中国の古典に出典がある場合もあるのですね。当時は、何となく見当をつけて、中国の文献なんかも見当をつけて探すという、すごく非効率的なことをやっていました。このシステムだと、日本語のデータがあって、中国の古典のデータがあって、その間をつなぐ、例えば日本語の翻訳で両方をつなぐというようなことが可能であれば中国の出典も探せるのかということをお伺いしたいと思います。
それから、鈴木先生の発表は、人間文化研究機構でいつも伺っていますから大体理解できました。コピーライトライブラリアンが各大学あるいは研究施設にいるというのはとても重要ですが、その方が1人で判断できないこともたくさんあると思います。そういうときに、こういうライブラリアンたち、ライブラリアンでなくても権利関係の知識を持った方たちがネットワークを結んでお互いに相談し合う、そういうシステムを考えるところまで必要じゃないかと思うのですけれど、それはいかがでしょうか。
【大橋主査】 ありがとうございます。続いて北本先生、お願いします。
【北本委員】 岩田先生、鈴木先生、ありがとうございました。
まず、岩田先生へのコメントと質問です。クレジットの件については、検索エンジン的な使われ方をされていることが一つの原因ではないかと思っています。出典を探すときに、例えばグーグル検索エンジンを使ったとして、それにクレジットをつけるかというと、多分つけないと思うのですよね。
研究の出発点として使われるシステムはクレジットされづらい面があります。Humanitextでアイデアを得て、それをベースに研究を進めたとしても、出発点となったサービスはクレジットを受けづらい。ましてや、それが当たり前のサービスになると、ますますクレジットされづらくなる。ここが難しいところだと考えています。
次に質問ですが、AI Readyなデータという言葉はかなり重要だと思っています。ただ、TEIからナレッジグラフへと言ってしまうと、フォーマットを変えればいいように捉えられてしまう可能性もあるかなと思います。どちらかというとこれは、人間の読み方と機械の読み方が違うから、構造化のやり方も変えるべきというお話だと思うのですが、そのためにはフォーマットの問題だけでなく、そもそもどういうデータをつくるべきかが重要になります。そのような点について、ガイドラインのようなものはつくれるでしょうか。もう少し抽象化した形で表現できるか、何か知見があれば教えてください。
次に鈴木先生への質問ですが、コンテンツの利用者と提供者の間で、質問内容が違うのかという点をお聞きしたいです。利用者と提供者で著作権に対する考え方はかなり違っていて、やや分かり合えない面もあると思いますが、説明の仕方を変える、あるいはお互いの理解を促進する、といったあたりで、何か試みがありましたら教えてください。
以上です。
【大橋主査】 ありがとうございます。ここで一旦切らせていただいて、岩田先生、どうでしょうか。
【名古屋大学(岩田)】
まず、青島先生からの典拠特定の仕組みについてお答えします。御推察の通り、我々が独自に構築したデータベースに検索対象を限定しています。Google検索などの外部ツールはあえて使用せず、研究者が使用する信頼性の高い原典データのみから文脈を取得し、回答を生成しています。ただし、著作権切れの少し古い版しか使えない点はやや問題ですが。これにより、無関係なウェブ情報を排除し、原典に基づいた正確な出力を担保しています。作品数を増やす場合は、このデータベース自体を拡充していく形になります。
2点目の文脈指向翻訳と補完についてですが、ユーザーの質問文を意図が伝わりやすいように拡張・英訳する処理も行っていますが、より重要なのは原典データベース側の処理です。原典を断片化して保存する際、単に切り分けただけでは代名詞の指示対象や文脈が失われてしまいます。そこで、断片化する段階で、その断片だけで意味が完結するように、AIを使って主語や背景情報を補い、要約のような中間データを生成しています。これにより、ユーザーの質問意図に最も近い文脈を高精度に取得できるようになります。
次に、木部先生からの他言語・他分野への応用についてです。我々は現在、古典ギリシア語・ラテン語でこの手法を用いていますが、これは現在のベクトル化(埋め込み)モデルにおいて英語が最も高精度であるため、英語を介在させています。日本の古典文学や中国古典においても、それぞれの言語から英語、あるいはAIが理解しやすい言語へ高精度に翻訳・意味変換ができれば、原理的には同じシステムが実現可能です。AIが断片の意図を正確に理解さえできれば、言語を横断した出典探索も可能になると考えられます。ただし、現状のRAGシステムでは、質問に近いものを取ってくるだけなので、Aというテキストを批判しているBや、影響を与えたCといった、テキスト間の複雑な関係性までは提示しきれておらず、そこが今後の課題です。
最後に、北本先生からのAI Readyなデータ構造についてです。TEI/XML自体を廃止するわけではなく、保存用の正本、カノニカルなデータとして維持しつつ、AI活用のためには別のデータ層が必要だと考えています。具体的には、クリーンなテキストをベースに、テキスト間の批判、引用などの参照関係や、人物・場所などのエンティティ情報を抽出し、プロパティとして付与した知識グラフのような構造を検討しています。現状の単純なRAGでは、原典と注釈、研究論文がごちゃ混ぜに検索されてしまうという問題があります。これを解決するために、「原典」を核とし、そこに注釈や外部データベース(Wikidata等)がどうひもづくかという階層性や関係性をモデル化する必要があります。RDF(Resource Description Framework)などの既存技術も含め、Humanitextプロジェクトの今後の展開に最適なデータ構造とは何か、正に現在議論を進めている最中です。
【大橋主査】 ありがとうございます。鈴木先生、どうでしょうか。
【人間文化研究機構(鈴木)】 御質問ありがとうございます。まずは青島先生の質問票に著作権があるかなのですけれども、あまり考えたことがなかったのですけれども、定義上は、今日のスライドの10枚目でお示ししたように、思想又は感情の創作的な表現であれば著作権が発生しますので、質問票にそのような思想、感情が表れているようなものであれば発生はするのかなとは思いますので、少し個別ケースになってくるかなとは思っております。
ただ、よくその分野でごく一般的な質問ばかり並べているような質問票については、基本的には創作者の、著者の創作的な表現とは言えないケースが多いのではないかなとは感じるところです。
木部先生からの御質問について、私が木部先生に全く資料を見せずに今日報告したのがばれてしまったと思うのですけれども、コピーライトライブラリアンについては、御指摘のとおり、恐らく、例えば1年、2年出向して育成したとしても、恐らく1人で判断できないことが多いと思います。実際、私も1人で判断できない場合には、弁護士の先生と御相談したりして、お互いかなり協議をして、相談の回答を作成することも多々ございますので、恐らく1人では解決できないことはたくさんあると思いますので、おっしゃるようなネットワークを結ぶようなシステムが必要になるかなと思います。
北本先生の御質問のコンテンツの利用者と提供者で相談内容が変わるかというところなのですけれども、基本的にうちの機構で、DH研究に関する相談ということなので、基本的にはコンテンツの利用者側からの相談が多いというのはあるのですけれども、一方でうちの機構が持っている資料を提供するというような相談も、少ないのですが、少しはありまして、基本的にこれは一般的な、これはうちの機構に限らずだと思うのですけれども、基本的に利用者は割と自由に利用したいと思っていて、提供者はなるべく自分の思ったとおりに条件をつけたいというケースが多いと思っております。
回答に当たっては、私はNIHUの人間ですけれども、特にNIHUに有利にやろうとか、そういったことはせずに法律上考えられる回答を相談の回答としてはしておるところです。
ただ一方で、法律とは関係ないところがたくさんあるというのが人文系の特色だと思っているのですけれども、そういったところに関しては、利用者側に対しては、提供者側はこういうふうに思っていることもあるから、そこら辺はきちんと話し合わないといけないとか、逆に提供者側に対しては、自分たちが利用しようと思ったらこういう条件があったらどう思うのかというと、相互の法律以外のところについては、お互いの主張がどういうものかというのはある程度分かる部分もありますので、そこについては丁寧に回答といいますか、そこは回答ではないのですけれども、アドバイスといいますか、私の感想といいますか、というのをお伝えするようにはしております。
以上です。
【大橋主査】 ありがとうございます。結構議論弾んでしまって、あと10分で頂いたお時間が目一杯になってしまうのですが、終わるように頑張ります。次、後藤先生、お願いします。
【後藤委員】 後藤でございます。では手短に。お二人の先生方、非常にありがとうございました。やはり本質的にはドメイン、それぞれの分野のドメインの信頼できる基盤、これは資料とかデータという基盤だけではなくて、人ですね、それも特に分野の専門家とか、あともう一つ、鈴木先生のお話なんかはそうだと思うのですけれども、いわゆるメタ分野というような感じのイメージの専門家というのが必要だなということはお二人のお話で改めて理解をしたところかなと思いました。
2人に1つずつ質問がございまして、1つ目が、これは岩田先生の方に御質問ですけれども、岩田先生の御発表、私自身が持っている科研費とも非常に課題意識が近く、私自身でも悩んでいるようなものもたくさん、それをどちらかというとぶつけるようなところになってしまうかもしれないのですけれども、このようなRAGであるとか生成AIみたいなのを応用すること、研究によって、ドメインの専門家の育て方、人材育成の仕方というのは変わっていくのかどうかというのがひとつ難しい、私も悩んでいるところになるかなと思います。
これまでだと、AIなんかだと、人間が見ることができないような大量の資料を扱うという可能性が出てきますし、言わばデータベースを見ていくのも似たようなものではあるのですけれども、それとはもう少し性質が違うようなことになるかなと思っています。
また、生成AIを使うことによって、プロセス全部を人間がやるということではなくて、かなりの部分をコンピューター、機械にやらせるということになる。そうすると、人間の側は、これは多分岩田先生のお話の中にもあったと思うのですけれども、最後の結果のチェックみたいなのがどちらかというとかなり大きな仕事になってくるかもしれない。そうすると、専門家の仕事の仕方、研究の進め方って少し変わってくると思うのですよね。そうすると、機械との接し方というか、むしろ人間の側がそういうふうに変わってくる状況がある。
そうすると、これまでの研究人材育成プラスAI活用の手法を足すぐらいでいいのか、それとも、もう少し大きく、人材育成の仕方自体で変わるようなものというのは何かあり得るのかということに、もし、これは私自身もいろいろ悩んでいるところではあるのですけれども、何か見通しというか、お考えがあればお話しいただければと思います。
もう少し言うと、それは恐らく分野全体の研究自体をどういうふうに進展させていくかということともセットだと思うのですね。なので、そういうところでむしろ研究者の振る舞いが変わるということは、当然研究自体の在り方というか、それの進展の仕方が変わるということにもなると思うので、そういうところについて何か、もちろん今すぐどうこうという話ではないと思うのですけれど、何か未来の見通しみたいな可能性というのがあるかどうかというのを教えていただければと思います。
鈴木先生の方は、私も同じ人文機構内なので、いろいろ一緒にお仕事させていただいておりますけれども、やはり今回の話でいうと、コピーライトの専門家の育成というのは本当に重要だなというのを改めて思いました。特に人文学・社会科学の場合は、これも今までこれまでの議論でもさんざん実態を踏まえる必要があるということでありましたけれども、木部先生の議論にもございましたが、法律だけではなくて、広義の研究倫理といいますか、私は研究者の振る舞いという表現を使ったりしますけれど、そういう振る舞いを考えられるような、振る舞いに対して適切なサジェストを行うような人材がやはり必要なのだろうなと改めて考えております。
そのときに、先ほど人材育成の中で、この振る舞いみたいなところまで育成の中で入れてしまうのか、それともどちらかというと基礎的な法律の部分だけはしっかりやっておいて、そこから先は現場でやりましょうという方がいいのかという辺りについて、鈴木先生のお考えがございましたらお願いできればと思います。
すみません、短くと言いながら長くなりました。以上でございます。
【大橋主査】 治部先生、お願いできますでしょうか。
【治部委員】 私は岩田先生の質問になります。Humanitextを構築されるに当たって、どのぐらいのコストがかかったのかということを是非知りたいと思います。この場合のコストはお金ではなく恐らく研究者としてのお時間とか、RAをお使いになっていろいろ学習させたりということがあったのかもしれないのですが、一体何千時間、何万時間ぐらいかかっているのかということを知りたいと思いました。
これは森田委員の少し前の御質問とも絡むのですけれども、こうやって先生の時間を使われるということは、研究活動の一環と位置づけられるのか、若しくは資料を探してなかなかうまく見つからないといったようなトライ・アンド・エラーのような時間と同等に位置づけられるのか、若しくはやはりAIを使うことにより、学会に対するイノベーティブなボランティアみたいな、そういった時間として位置づけるのかということを知りたいと思います。
それはすなわち、研究者が費やした時間ないしは上げた成果というものがどのように報われるべきなのか。本来であれば、ほかの研究者が先生のおつくりになったものを使ったときにリファレンスとしてあげ、それが成果として評価されるということがフェアなのかなと思うのですが、どのようなリターン、すみませんが、そういった言葉になってしまいますが、で評価されるのが適切かということへの関心からお尋ねしました。
以上です。
【大橋主査】 ありがとうございます。
以上で御出席の委員の皆様全員から御発言を頂きました。
少し私から1点だけ、最後、こうした場で今回議論させていただいているというのは、文部科学省として、そんなふんだんな効率的な予算執行の中ではないのですけれど、何か人文・社会科学における研究をAI/DXで進めていったらどうかという中での今回のヒアリングだということなのですけれど、もし岩田先生、鈴木先生双方から、デジタルライブラリアン、1人ポストを各大学に置くといったらえらい大きなコストがかかってしまうので、少しそれは予算があるかはこころもとないのですけれど、文科省として何かできるようなことが、何か御提言があれば、そこも併せて一言いただければと思います。
すみません、岩田先生からお願いできますでしょうか。
【名古屋大学(岩田)】
まず、後藤先生からの教育に関する御質問についてお答えします。 私は西洋古典学、特に古代哲学を専門としており、その領域の学生を指導しておりますが、AIの活用によって教育の在り方は今後大幅に変わると考えています。 現状、学生たちは、哲学的な問いを探求したいというモチベーションで研究室に入ってきますが、その準備段階にとてつもない時間を費やしています。私自身の学生時代もそうでしたが、まずは古典ギリシア語を習得するというだけで数年がかかり、ひたすら読む訓練を経て、ようやく研究をして論文を書くというプロセスになります。また、二次文献について、ドイツ語やフランス語、イタリア語など英語以外で書かれた重要なものも少なくなく、我々日本人は語学面で大きなディスアドバンテージを負っており、研究人生の大半を語学学習に費やしているような状況さえあります。しかし、AIを活用することで、文献調査などの時間を大幅に短縮できれば、その分の労力を、哲学的に問題を考えるという本来のクリエイティブな活動に充てることができます。まだ言われていない新しい知見は何か、これらの資料の組合せから何が言えるかといった、学生が本来持っていたモチベーションや研究の本質的な部分に、より多くの時間を割けるようになるはずです。もちろん、そのためにはAIを適切に使うためのデータ構造の理解や、ハルシネーションを見抜くためのデータリテラシー教育が不可欠です。しかし、これを克服すれば、アジアの研究者であっても西洋の研究者と対等以上に戦える土壌が整い、より高い成果を出せる可能性も生まれます。教育もそのような方向へ変わっていくべきだと考えています。
次に、治部先生からの学習コストと評価に関する御質問です。私自身はゼロからのスタートだったため、開発には相当な時間を費やしました。ただ、現在はAIがコーディングを支援してくれるため、学習や開発にかかる時間は以前より大幅に短縮可能です。評価に関しては、幸いデジタル・ヒューマニティーズという確立されたコミュニティがあり、そこでの発表や活動が業績として認められます。西洋古典分野での先駆的な取り組みとして、海外でも高い関心を持っていただき、それが国際的な業績にもなっています。もちろん、伝統的な哲学の論文も書かなければならないというプレッシャーはありますが、データ整備などの活動が正当に業績として評価され、それが自分の本来の研究にも相乗効果をもたらすというより良いサイクルができれば、研究者のモチベーションも維持できると考えています。
最後に、大橋主査からの文科省への提言についてです。現場で最も深刻なボトルネックとなっているのは、大学院、特に修士課程(博士前期課程)への進学者が激減していることです。博士後期課程への支援策は増えていますが、その手前の修士課程には経済的支援がほとんどなく、奨学金を借りるしかないのが現状です。そのため、経済的な不安から進学をためらう学生が多く、そもそも博士課程に進む人材の母数が枯渇してしまっています。実際には、修士課程に入って学問の面白さに触れれば、そのまま博士課程に進む学生も多いのです。したがって、まずは修士課程に進むモチベーションが上がるような経済的サポートや仕組み作りをお願いしたいです。そこが改善されれば、学生たちも人文学やAI活用の面白さに気づき、人材も増えていくと考えています。
【大橋主査】 ありがとうございます。鈴木先生、どうでしょう。
【人間文化研究機構(鈴木)】 手短にと思いますけれども、後藤先生からの御質問で、研究者の振る舞いに関しても、教育といいますか、研修した方がよいのかということで、私はした方がよいのかなと思っております。基礎的な部分だけであれば、恐らく大学の集中講義のような形で詰め込むことはできると思うのですけれども、実際、人文学、特に人文学・社会科学系だと、著作権法、法律以外の部分でもいろいろあるというのは本日も先生方からも御指摘等頂いたとおりだと思っておりますので、そういったところの対応も含めて、もちろん全部網羅できるとは思っておりませんけれども、ある程度はそういうものがあるというところは学んでいただいた方がよろしいのかなと考えております。
文科省さんの支援については、私もどう言えばいいのかなという感じはありますけれども、仮にコピーライトライブラリアン育成をNIHUでやるとして、私は今、DH促進事業の方にも携わっておりまして、正直、権利相談とそちらの業務と、あと、自分の研究エフォートもあるので、そこにプラスして育成までやるというのはかなり厳しいところです。NIHUには今私しか、権利相談等に対応できる人材がいないので、NIHUでそういった育成をやっていくにしても、まずはNIHUの方でそういう専門人材が必要かなと思っております。
教員である私のポストも流動的ですので、パーマネントに何人かはそういった人材がいないと、少しそういう研修のような制度が回っていかないのかなとは思っておるところですので、その辺りの支援を頂くと有り難いかなと私としては思っております。
以上です。
【大橋主査】 すみません。ありがとうございました。まだまだ御質問等あるかもしれないのですけれど、少しお時間も過ぎてしまっているところもあるので、後日でも言い足りなかった御質問等をメールで事務局にいただければ、事務局の方でしっかりそちらの方フォローさせていただきます。
また、もし岩田先生、鈴木先生の方でも何かコメントとか、あるいは本当は鈴木先生と岩田先生双方に御質問あるのかなと思ったのですけれど、少しそれを聞く時間がなかったので、もしあれば、そちらも併せていただければ、こちらでしっかりフォローさせていただきたいと思います。
ありがとうございます。もし事務局から何かあればいただけますでしょうか。
【林学術企画室長補佐】 事務局でございます。本日の議事録につきましては、後日メールにてお送りいたしますので、御確認の方をお願いいたします。
また主査からもございましたけれども、本日の議題に関しまして、追加の御意見がございましたら事務局までメールの方でお送りいただければと思います。
次回の委員会ですけれども、12月26日金曜日の13時からの開催となります。
連絡事項は以上でございます。
【大橋主査】 ありがとうございます。
それでは、本日これにて閉会とさせていただきます。
金曜日、遅い時間までかっ達な意見交換させていただきまして、ありがとうございました。
―― 了 ――
研究振興局振興企画課学術企画室
電話番号:03-5253-4111(内線4226)
メールアドレス:メールアドレス:singakuj@mext.go.jp