人文学・社会科学特別委員会(第7回) 議事録

1.日時

令和3年6月28日(月曜日)10時00分~12時00分

2.場所

新型コロナウイルス感染症の拡大防止の観点から、オンライン会議にて開催

3.議題

  1. 人文学・社会科学におけるデータ駆動型研究の現状等についてのヒアリング
  2. その他

4.出席者

委員

(委員、臨時委員、専門委員)
城山主査、勝委員、小長谷委員、白波瀬委員、須藤委員、仲委員、井野瀬委員、尾上委員、加藤委員、神谷委員、小林委員、戸田山委員、飯島委員、後藤委員、田口委員
(科学官)
平野科学官、木津科学官、森口科学官、苅部科学官、渡慶次科学官、黒橋科学官、渡部科学官

文部科学省

錦学術企画室長、二瓶学術企画室長補佐

5.議事録

【城山主査】 それでは定刻になりましたので、ただいまより人文学・社会科学特別委員会を開催させていただきたいと思います。
まず、本日の委員会のオンライン開催に当たり、事務局から注意事項がございますのでよろしくお願いします。

【二瓶学術企画室室長補佐】 おはようございます。事務局でございます。
本日はオンラインでの開催となりますので、事前にお送りしておりますマニュアルに記載のとおり、御発言の際には「手を挙げる」ボタンをクリックしていただき、指名を受けましたら、マイクをオンにし、お名前を言っていただいた上で、ゆっくり御発言いただけばと思います。なお、主査以外の委員の皆様は、御発言されるとき以外はマイクをミュートにしていただきますようお願いいたします。機材の不具合等がございましたら、マニュアルに記載の事務局連絡先に御連絡ください。
また、本日の会議は傍聴者を登録の上、公開としております。
以上でございます。

【城山主査】 それでは続きまして、事務局から配付資料の確認をお願いいたします。

【二瓶学術企画室室長補佐】 本日はオンラインでの開催でございますので、資料は事前にお送りさせていただいております。本日の主な議題に係る資料に関しましては議事次第を御確認願います。
また、本日は岸村委員、山本委員が御欠席でございます。
説明は以上でございます。

【城山主査】 それでは本日の議題に入りたいと思います。本日の議題は議事次第のとおりでありまして、まず最初に、人文学・社会科学におけるデータ駆動型研究の現状等についてのヒアリングということで進めさせていただきたいと思います。
まず1つ目といたしまして、「デジタル・ヒューマニティーズ(DH)の概要と人文学DX」に関しまして、一般財団法人人文情報学研究所主席研究員の永崎先生から御説明いただければと思います。それでは資料2-1に基づきまして、永崎先生、よろしくお願いいたします。

【人文情報学研究所(永崎)】 ただいま御紹介いただきました永崎でございます。本日はデジタル・ヒューマニティーズ、略してDHと呼ばせていただきますが、そのDHの概要と人文学DXということでお話をさせていただきます。よろしくお願いいたします。
まず、本件をお話しするに当たり、これに関連する当方のバックグラウンドとしまして、これまでの主な仕事をリストにしました。かいつまんで申しますと、環境構築や教育、学会運営、国際規格、それから実際のデータ構築といったことでDHについて関わってまいりました。
それでは、まずデジタル・ヒューマニティーズの概要について御説明させていただきます。デジタル・ヒューマニティーズ、つまりDHは人文学の何らかの側面にデジタル技術を適用・応用する研究であり、1940年代に始まったとされていますが、2005年には国際DH学会連合が設立され、2006年にはパリ・ソルボンヌ大学で第1回の国際会議が開催されます。これは欧米の学術政策の動向ともリンクしていたようでございまして、同じ頃に欧州では人文学研究インフラ事業、DARIAHに着手され、また米国では米国人文学基金、National Endowment for the Humanitiesが2008年にデジタル・ヒューマニティーズの事務局を開設し、その後イギリスやドイツの研究所・助成団体とも連携しつつ、DHの研究助成を行っていきます。それも2006年には本格的な検討が始まったと、そういったことであったようでございます。
DHの理念的な背景としましては、この図が非常によく挙げられます。方法論の共有知、Methodological Commonsと呼ばれるものですが、それを示す図です。これは言わばタコつぼ化を越える建設的な人文学再構築の場と言うべきものです。人文学の様々な分野、様々な手法を、デジタル技術の応用を介して横断的に議論し共有するための場の形成、それから横断的な議論を通じて相互の方法論を自省し深化させる場にもなり得るものであり、また成果自体を横断的に生み出す場にもなり得る、そういうものとしてデジタル・ヒューマニティーズを振興していくのが、学界としても、政策的にもそのようなことが目指されていたようです。
こういったことを進めていくためには技術的な背景も必要になります。それについてはそれぞれの分野の専門家コミュニティーによる長い取組があります。ここに挙げたのはその一部にすぎません。5つ挙がっていますが、これも一部にすぎなくて、ここに挙げていないいろいろな取組もたくさんあります。その中でも特に代表的なものとして、とりわけテキスト資料に関しましてはText Encoding Initiative協会による国際的なガイドラインがございまして、特にデータ駆動型研究といったことを考えた場合にも、必須と言える構造化された応用データの基盤になるものです。ただ、これは我が国では導入がかなり遅れてしまっておりまして、これは一つ大きな課題になっております。それ以外にもデジタル画像や目録データ、文字コードなど、いろいろな技術資料がDHの背景にはございます。
次のスライドをお願いします。また、右下に赤枠でつけておりますが、研究インフラとしての支援が様々に行われています。CESSDAは社会科学ですが、その隣にCLARIN、DARIAH-EUといった感じに並んでおりますが、とりわけCLARINそれからDARIAHといったところは言語資源あるいは人文学全般の研究インフラ事業として、いわゆるERIC、欧州の研究インフラとして展開されておりまして、それらを更にまとめたものとして、Social Sciences & Humanities (SSH) Open Marketplaceといったものもつくられているところです。これは学術振興会が進めているJDCatの拡大版とも言えるものでございまして、これはもしかしたら日本のJDCatとこのSSH Open Marketplaceが連携するといったことも将来的には期待できるかもしれません。
こういったもろもろを背景に、様々なデジタル・ヒューマニティーズの研究プロジェクトが欧州では展開されています。中でも最近注目されているものに欧州タイムマシンプロジェクトがあります。これは歴史的ビッグデータを構築・集約し現代に活用するということで、観光であったり気象であったり、いろいろな展開があるようです。600以上の機関、6,000人以上の専門家が関わっていると、2020年2月現在ではそのようにされております。また更に展開しているようです。
次に、発表者数の推移から国内外のDHコミュニティーの最近の動向を見てみましょうということで、次のスライドをお願いいたします。
この5年間の国際DH連合学術大会における延べ発表者数を見てみますと、この一番上は米国です。これは段違いに多いですが、ドイツが比較的多い。あるいはフランス、オランダが続いていて、日本は一番下の緑のところですが、徐々に少しずつ上向いている状況にございます。
次のスライドを見ていただきます。こちらは一つの発表における共著者のネットワークから見てみた図です。やはり欧米の円が非常に大きく、またそのつながりも強いです。アジア、アフリカ、中南米も伸びてきていまして、こういった図を見ますと日本はまだこれからという分布になっております。
国内で見ますと、日本のDH関連学会の発表件数は、国内開催の国際学会としてのデジタル・ヒューマニティーズ学会の学術大会と、それから日本語の査読つきシンポジウムがございまして、総数は毎年70前後ですが、2018年だけ突出して多くなっておりますのは、Text Encoding Initiative協会の年次大会と共催で行ったことがありまして、この時、海外から大量に発表者が参加しまして、急に伸びた状況になっております。
一方、東アジアの状況を見てみますと、台湾は日本や米国とともに昔からこういった取組を続けておりまして、基盤データや研究プラットフォーム、政府からの支援による教育カリキュラム、国際会議の開催など着々と進めておりまして、ごく最近ですが、台湾のDH学会も設立され、国際DH学会連合にも加盟しました。
また中国は、始まったのは最近ですが、有力大学でDHセンターが設立されたり、あるいは清華大学ではDHジャーナルが刊行されたりと、これから一気に伸びていきそうな雰囲気でございます。
また中国学ですと、中国外でのDHも盛んに行われています。国際ネットワークが着実に基盤形成をしてきておりまして、特にハーバード大学、ライデン大学、それからイギリスのダラム大学と日本の京都大学が特に有名な研究基盤を提供しております。
また韓国も徐々にこの方面に力を入れつつあります。
次に、データ駆動型研究といったときにどんなことが行われているのかを少しだけ紹介させていただきます。例えば、まずゴッホの手紙です。こちらのゴッホの手紙は、TEIガイドラインに準拠した900件ちょっとの手紙の構造化テキストデータが公開されておりまして、これはいろいろな形で自由に分析が可能になっております。単にこれはゴッホの事跡についての資料になるだけではなく、例えば文化財研究ですと主に絵画の修復に関する研究に使ったようです。あるいは精神医療研究といった分野でもこのデータを生かした研究成果が出されています。また、データ基盤構築の研究やあるいはデータの構造に関する国際規格の策定にも役立ったものでございます。
次に、和歌のテキストデータといったときも、データを作ることで様々な形で研究成果が生み出されます。伝統文化の再発見やジェンダー研究につながったり、あるいは大学院生が文法の歴史の研究に活用する、そういったことも可能になります。もちろん、ゴッホの手紙と同様に、資料のデータ構造に関する研究にも役立っております。
次に行っていただきまして、仏典のテキストデータ、これは世界的に幾つかの大きな拠点がございまして、日本にも1つございます。やはり一度データを作ると、そこから様々な研究が生み出されるということで御覧いただけたらと思います。例えばアメリカ、テンプル大学の先生が研究発表された中国僧の社会ネットワーク分析ですとか、あるいは左上の図は、8世紀から16世紀のテキスト伝承の分析を脚注から行った。これは構造化データであるが故に可能になったものです。あるいはそういった仏教学そのものを発展させる成果だけでなく、やはり左下の、資料のデータ構造に関する国際規格への貢献、そしてごく最近ですが、AIを用いて仏典に基づく対話を行えるようにすることで、社会課題の解決につなげようとする試み、「ブッダボット」という取組が始まっているようでございます。右下の方です。
一方、データ駆動型研究は、このようにデータを作ればそれが様々に活用されることが大きな特徴でございます。組合せによって成果が増える可能性がありますので、データ、特にデータセットが増えれば増えるほど可能性は圧倒的に広がることになります。ただ一方で、作られたデータだけでなく、データを作るというプロセスにおいても社会的課題の解決につなげられる可能性を有しています。
例えば、こちらは今御紹介している真ん中に出ております「みんなで翻刻」というクラウドソーシングプラットフォームでは、年齢が60歳以上の参加者が40%以上を占めておりまして、少子高齢者社会において若者と高齢者がお互いに日本文化の知識とITの知識を交換しつつ、ITを介したあるいはAIを介した協働の学びの場を形成しているという形など。このような場でつくられたものが基礎になって、更に専門家がデータを構造化することで、それを機械可読性の高いものとしてデータ駆動型研究の基礎を形成していくと。そういう流れが可能になっております。
同種のことは様々な分野において可能であると期待されます。これもやはりデータ駆動形研究がもたらし得る大変よい成果、プロセスが成果になる、そういったところかと思っております。
次に、このような状況を実現するために必要となるインフラ・環境について御紹介させていただきます。
基本的に、まず研究データといいましても様々なものがございまして、データにどれぐらい専門性が加えられたかによってデータの活用可能性が変わってきます。そして、専門性を加える際に広く用いられている国際的な規格に従うことで機械可読性が高まっていきます。ここではデータの種類をバイナリデータ、目録データ、基礎データ、応用データに分類しています。それぞれがどういうデータかということは、詳しくはこちらのお手元資料を御覧ください。
そのようにして作ったデータを、研究データインフラあるいは研究データリポジトリ、要はJAIRO CloudですとかnihuINTとかいろいろ作ってきておりまして、それはこの図でいいますと真ん中の緑色の横長のバーのところになっておりますが、そちらに搭載すると、それが上の方のデータ駆動形研究に生かされる。それだけでなく、従来型の人文学研究にも活用されることになります。データ駆動型研究に活用する過程で、分析手法やツールが開発されたり、データの構築手法を深めることにより、国際的な規格・仕様にフィードバックする可能性も出てきます。
この枠組みは当然人文学以外の分野の、あるいは分野でのデータとの連携、あるいは手法との連携、そしてもちろん海外の同種のものとの連携も大いに期待されるところです。特に海外との連携のためには、国際的な規格・仕様に準拠しておくと同時に、そういった場で日本の資料がうまく使えるようにすることは非常に大事、重要になってきます。
次のスライドをお願いいたします。具体的にこれがどう展開するのかということです。SAT大蔵経テキストデータベース、これは東京大学大学院人文社会系研究科の下田正弘先生が率いておられるプロジェクトで、私もちょっとその技術担当者としてお手伝いしているものですが、これを手掛かりに少し見てみましょう。
このプロジェクトは、まず仏典や仏画をデジタル撮影して公開しています。これがバイナリデータに当たります。
次に目録データですが、これはこのプロジェクトではデジタル画像のネット公開と、既に公開されている他機関の仏典デジタル画像の連携を推進しており、そういった画像の目録データを構築していますが、この形式は仏教学の国際的なデファクト標準がございまして、それに沿って作られております。
次に基礎データですが、これは1億字ほどの全文テキストデータベースを作り、専門家の目で2回、全体的に校正を行いました。またほかにも、外部の辞書データベースを取り込んだりもしております。
応用データにつきましては、例えば現代日本語訳をオープンデータで作成・公開し、これを漢文データベースと文章単位でリンクする仕組みや、仏典のデジタル画像の中の特徴的な字形にアノテーションをつけたり、仏画にその名称や特徴をタグづけするなどしています。
データ駆動型研究としてどのようなことが行われているかと申しますと、例えばAI関連技術による仏典分析機能を提供し、仏典に興味を持つ人たちがAIの活用可能性を体験できるようにしたり、あるいは、先ほど御紹介したものですが、脚注の統計分析による写本、木版本の伝承系統の研究などが典型的には行われています。
さらに、こういった成果を基に国際的な規格・仕様へのフィードバックも行われております。例えばいわゆる外字をユニコードに登録する仕事や、あるいは前出のTEIガイドライン、テキスト資料の国際デファクト標準を東アジア資料に対応させるための分科会の設立といったことを行いました。
そういったものを踏まえて、全体としては、次のスライドで、これは戻ってきましたがこういった形で展開すると。それが最終的に新たな総合知にもつながっていくことが期待されると考えております。
さて、国際的な動向への包括的な対応の必要性ということですが、現在欧米ではデータ形式をそろえて一括処理したり分析したりするためのシステムやツールの開発が非常に盛んです。いろいろな形で行われています。これにしっかり対応していかないと、幾ら日本で研究データを作っても国際的な枠組みに入れてもらえない。それはいわゆるジャパンパッシングということ、日本文化が非常に見てもらいにくくなるだけでなく、何か研究データを活用するに当たっても、一々日本の独自のツールやシステムをつくる、あるいはプロジェクト単位で一々開発しなければならなくなってしまうんです。
そういった一々個別で対応しなければいけないようになる状況を避けるために、欧米では国際的な標準を一々つくってから、みんなでそれを進めていくことをやってきたわけですが、我が国もそこに乗らないとそろそろ、例えばかけた費用の割に成果があまり出てこない、そういったことにもなってしまいかねませんので、そこのところはきちんとやっていく必要があろうかと思います。ただ、そこは海外でやっていることに従うだけなく、特に日本の文化の研究にとって必要なものはきちんと国際的なテーブルにおいて主張して、国際的な場を変えていくことも大事なことかと思っております。
最後に、人文学デジタル・トランスフォーメーションを可能にするための用件についてまとめたものがこちらのスライドです。まず、集約的にできる仕事がございますので、拠点機関を設置してそこに委ねると。これは左側、オレンジのものが拠点機関の仕事。そして個別のデータを作る実施機関が右下の緑の部分です。こちらは拠点機関と深く連携しつつ、それぞれの個別のデータを作っていくような枠組みです。それからさきに申し上げましたように、個別のデータは複数組み合わせることによって活用可能性を高めていくことになりますので、なるべく多く作っていくことも一方で重要かと思います。それぞれの細かい体制についてこちらの資料を御覧ください。その過程では既存のリソースもかなりございますので、そういったものと必要に応じて連携していくことが可能かと思われます。そうすることで、データを活用した協働による成果発信を様々な次元で行っていき、総合知に資する成果や社会的課題の解決といったことにも貢献可能であると考えております。
以上です。ありがとうございました。

【城山主査】 どうもありがとうございました。
それでは続きまして、資料2-2に基づきまして、情報・システム研究機構データサイエンス共同利用基盤施設人文学オープンデータ共同利用センター長の北本先生から御説明いただければと思います。よろしくお願いいたします。

【国立情報学研究所(北本)】 よろしくお願いします。ROIS-DS人文学オープンデータ共同利用センター、国立情報学研究所の北本と申します。「人文学におけるデータ駆動型研究の類型と事例」というテーマで今日は御報告いたします。
自己紹介です。もともとは国立情報学研究所で研究をしてきましたが、2016年からROIS-DS、ROISというのは情報・システム研究機構の略ですけれども、そこの人文学オープンデータ共同利用センターという新しくできたセンターのセンター長もしております。もともと電子工学を専攻した情報系の研究者ですが、長年にわたって人文学におけるデジタル技術、デジタル・ヒューマニティーズの研究をしております。またデータ駆動型サイエンスについては、地球科学や防災などの幅広い分野にデータ駆動型サイエンスを展開しています。オープンサイエンスについてもいろいろ活動しているというのがこれまでの経歴です。
人文学オープンデータ共同利用センターですが、オープンデータという言葉が入っていますように、オープンというのが一つのキー概念となっています。そしてオープンな知を拡大していく際のステークホルダーとして3者を考えています。研究者というのは知識を深める。機械、すなわちコンピューターですが、これは知識を巨大化する。そして市民は知識を多様化するということで、この3者が協働することでオープンな知識を拡大していくということを、特に人文学の分野において進めています。
人文学における研究データ。いろいろな分け方があると思いますが、私自身は研究資源データ、研究成果データ、研究過程データという3つに分けています。研究資源データというのは研究の入力となるデータや参照されるデータで、データのフォーマットは様々ですが、こうしたデータを使って研究することになります。研究成果データというのは研究の出力となるデータで、論文につけるデータですとか、データそのものを成果として発表するようなもの。そして研究過程データというのは研究の入力と出力の間にあるデータ。これもいろいろな形式があります。今日は主に研究資源データ、研究の入力となるようなデータについてお話ししたいと思います。
海外の動向については先ほど永崎先生から御説明がありましたのでそれほど詳しくは説明しませんが、欧州を中心にいろいろな研究基盤が発展しています。欧州タイムマシン研究計画というのは私も特に注目しているプロジェクトです。過去のビッグデータというキーワードで、研究はもちろん進めますが、文化遺産機関や社会とも幅広く連携して、教育・観光・創造産業などへ波及させていくことを狙う非常に大きなプロジェクトです。
米国にもいろいろなプロジェクトがあります。例えばHathiTrustというのは、大規模に本をデジタル化して全文検索できるようにするプロジェクトです。
欧州タイムマシン計画というのは、欧州の文化的資産、これは欧州の一つの強みでもあるのですが、そういったものをデジタル化・構造化してアクセスできるようにするということで、ここにデジタル化技術や人工知能(AI)技術などを使っていくところが大きな特徴です。これは実は欧州委員会のフラグシップ研究計画というものの候補に選ばれました。これは10年で1,000億円という非常に規模の大きい研究計画です。その後に見直しが入って、今後の計画はやや不透明にはなりましたが、参加機関は700ぐらいに増えていまして、欧州全体のいろいろな地域を巻き込んだ大きなプロジェクトとして進みつつあるというのが現状です。
今日の主題ですけれども、データ駆動型人文学研究と一言にいいましてもいろいろなパターンがありまして、イメージしづらいという声を聞くこともありますので、具体例を、類型を示してその類型ごとの事例を示すことによって、実際にどんなパターンがあるのかを今日は御紹介したいと思っています。
類型として主に3パターンあると思います。一つは人文学者のリサーチクエスチョンをきっかけとして、情報学者がデータ化、システム化の手法を練っていくパターンです。これは出発点として人文学者のリサーチクエスチョンがあるようなケースです。
2番目は、情報学者がこんな技術が使えるんじゃないですかという技術的提案をして、それをきっかけに人文学者がそれを自分の研究に使ってみることになり、システムの課題を出していく。これは情報学者の方の提案がきっかけになっているものです。
3番目は、人文学者と情報学者が一つの場でアイデアを議論しながら、新しい研究課題と技術的な解決策を探していくということで、これはどちらかがきっかけというより、場において議論することで何かいい方法はないかという、いわゆるコ・クリエーションに近いような形で進めていく方法です。
ここで人文学者と情報学者という区分けをしていますけれども、一方で専門人材を含むチーム構成が非常に重要で、例えばソフトウェアエンジニアですとかデータクリエーター、データキュレーター、デザイナー、いろいろな方と協働することによって、データ駆動型人文学研究の質と量を向上させることが重要だと思っています。
最初の例ですけれども、くずし字データセットの利活用例を御紹介したいと思います。もともと国文学研究資料館が大型プロジェクトの中で日本古典籍の大規模デジタル化を進めています。これは30万点の古典籍をデジタル化するということで、国文研が順調に進めているところです。
これにより大規模にデジタル画像が公開されて読めるようになることは非常に画期的なことなんですけれども、一方でこれがくずし字で書かれているため、一般の日本人はなかなかこれを読んで活用できないという問題があります。
国文研ではくずし字をAIで認識してテキスト化することを以前から考えており、そのためにくずし字データセットというものを作りました。これは図にありますように、文字を四角で囲んで、その中にユニコードの何の文字があるかという、文字と、どこに文字があるかという座標、x・y・w・hをデータ化したものです。
このデータセットを使って我々は「KuroNet AIくずし字認識」というものを開発しています。これは機械学習でくずし字認識するというもので、条件がよければ正解率95%程度を達成しています。これを活用して、我々はくずし字認識サービスとして、画像から読みたい領域を指定すると、その中のくずし字を読んでくれるサービスを作ったり、くずし字認識コンペとして、Kaggleという国際的な大規模なコンペを開催し、非常に優れたAIアルゴリズムのアイデアを世界中から集めたりたり、最近はより使いやすいサービスとして、くずし字認識モバイルアプリ「みを」を作ったりしています。
先ほど申し上げました国文研のネットワークプロジェクトでは、もともとテキスト全文検索の構想があり、それを機械学習で行うためのくずし字データセットも作りかけていたところでした。そこに私が後から加わったわけですが、ここで大事な点は、当初想定していたデータ形式では機械学習の可能性が狭まる可能性があったということです。私は情報学者の立場から、これではいけないので仕様を変更しましょうと主張しました。結果的には、仕様を変更したことで、先ほどのKuroNet開発やKaggleコンペ開催が可能になったということがありました。ですから、データセットを作るときに、情報学者が入ってここは変えた方がいいということを言っておくと、後で大きく展開が変わることがあることが、この事例の教訓だと考えています。
次は顔コレデータセットの例です。これも国文研の画像を中心に、ほかにも京大、慶應等のデータもありますが、そこの古典籍に含まれている、今度は文字ではなくて顔の部分だけを切り取って、顔のコレクション、顔貌コレクションを作って公開しています。絵の全体を見るのではなく、部品としての顔だけに注目して研究していきます。
もともと美術史の研究者と共同研究をしておりましたが、顔の描き方だけを比較すると、絵の全体を見ているだけでは分からない細かい描き分けが分かってきて、そこから美術史としても非常に面白い成果が出てきています。またデータセットがあれば、AIで自動的に顔を抽出できるのではないかということで、実際にやってみたところ、期待よりはかなり高い精度で顔を切り抜くことができました。
またデータセットからそこに存在しない顔を作り出すという、今たくさんの人が研究しているGANという手法があるのですが、それを使って、実際には存在しないけれども浮世絵っぽい顔を作るという研究にグーグルの研究者が取り組んでおります。
もともと我々はオープンソースのIIIF Curation Platformというソフトウエアを作っていました。これを使っていた人文学者、美術史の人が、顔だけを切り取って集めたら面白いんじゃないかというアイデアを思いつきました。そこで、自ら作業しつつ、大学院生にも謝金を払ってデータセットを増やしてもらい、結果的に数千枚の画像コレクションを構築しました。更に顔データをオープン化すると、機械学習研究者がこれは面白いから顔認識モデルを作ってみようということになり、やがて半自動切り抜きもできるようになりました。人文学者が非常に高品質なデータセットを丁寧に作っていくと、機械学習研究者が非常に喜んで新たな研究を始めるきっかけになり、その成果は人文学研究のある種の省力化にもつながっていく好循環が生まれるというのが、この事例の教訓です。
この発展形というか次の展開として、これは浮世絵顔データセットです。立命館大学のアートリサーチセンターが集めている大量の浮世絵画像データを、国立情報学研究所のIDRからデータセットとして公開しているのですが、それに気づいたグーグルの機械学習研究者が、機械学習で顔だけを切り抜いていけば顔の研究ができるんじゃないかと考え、その成果を最近新たなデータセットとして公開しています。
次は少し違うテーマで、江戸料理レシピの例です。これも国文研の公開している江戸時代の料理本です。江戸時代の料理本があり、これを翻刻、テキスト化することはよく行いますが、それを現代語訳するだけでなく、更に料理研究家によるレシピ化と料理写真撮影も加えています。
そうしますと、江戸料理レシピ・データセットとして、非常にきれいな盛り付けやデコレーションのあるきれいなデータセットができます。更に料理レシピサイト、クックパッドに投稿したところ、江戸時代を身近に感じることができるといったコメントなど、非常に大きな反響がありました。これが更に展開し、デパートのイベント、三越で江戸料理のイベントをやったり、は鶏鳴新聞という鶏卵業界の業界新聞の特集連載記事となって、料理研究家によるレシピ化が展開したり、という動きがありました。
この事例は、国文研が主催するアイデアソンに私が参加して、江戸料理本を見て、いろいろ考えていたところ、レシピに写真を加えて料理レシピサイトに投稿すれば古い資料と現代の生活が接続できると思いついたところから始まりました。たまたまクックパッドに知り合いがいましたので、そこに連絡して共同研究体制を構築し、翻刻とレシピ化は翻刻ができるデータクリエーターに作業を依頼し、更に、プロの料理研究家が参加して、レシピ化や写真撮影を進めていくことで、現代にも通用する水準のレシピが完成して、データセットとしても公開できたということです。もともとはシンプルなアイデアなんですが、アイデアを現実化するには多様な専門性を備えたチームの協働が必要であるという点が、この事例の教訓ではないかと思っています。
武鑑全集というのは先週公開した新しいサービスですけれども、ここで取り組む問題は、江戸時代の古い版本のバージョンが更新されたたとき、どこが更新されたかを見つけるという問題です。画像を左右に並べて見比べれば分かるといえば分かるのですけれども、こういった間違い探しは人間にとっては難しい問題です。しかし、コンピュータービジョン技術を使って2枚の画像を重ねてあげて青赤表示すると、青の部分は一方の版にしかない、赤の部分はもう一方の版にしかないことが視覚的にぱっと分かるので、これでどこが更新されたかが一目瞭然で分かります。
これは完全に情報学者から提案した例です。私がこのような本を見たとき、違う版の比較という問題にコンピュータービジョンが使えるということに気づいたわけです。この技術自体は実は15年以上前から発展していたもので、新しいものではないのですが、それが木版印刷本の版の差分の強調に使えるという発想はあまりなかったと思います。
このアイデアを実現するために専門家と一緒にやろうということで、武鑑研究の第一人者である藤實先生のところに伺って、こういう共同研究をしましょうという話をしました。当時、藤實先生は岡山にいらしたのですが、その後国文研に異動されて、国文研のプロジェクトの中でやれることになりました。こういった比較は、人文学では非常に多くの分野で使われています。したがって、こうした比較が可能なプラットフォームができれば、書誌学的な研究において画期的な効率向上が期待できると思います。
この事例は技術がきっかけです。問題そのものは昔からあったのですが、技術の動向を知らないと適切な解決策は思いつけません。このように情報学者から提案するパターンもあるということで御紹介します。
次は篆書字体データセットの事例です。これは篆書の字のデータセットで、先ほどはくずし字でしたけれども、これは篆書です。これは人文学者のプロジェクトがもともとあり、そこに私が情報学者の立場からデータセットの構築に協力した例です。人文学者のプロジェクトがあり、そこに情報学者が近づいて、機械学習、AI、データ駆動型研究をやりたいと言っても、直接つながることはなかなか難しいことがこの経験から分かりました。人文学者の横に情報系に近い人文学者がいて、その横に人文系に近い情報学者がいて、その横に情報学者がいる。このように3つぐらいの橋を渡すと、全員がつながって協働が可能になるということです。こういった橋渡し人材がいないと、協働はスムーズに進まないことも教訓として分かりました。
最後の例として、人文学と他分野との連携という観点から、歴史ビッグデータの紹介をしたいと思います。歴史的資料にはいろいろな情報が書かれており、自然科学的データとしては気候や地震、噴火、疫病等のことが書かれています。一方で人文社会的データとしては経済や人口、政治、文化といった情報も書かれています。こういった情報を取り出してほかの分野の研究に活用しようというのが歴史ビッグデータの構想で、そのための歴史ビッグデータ研究基盤を研究しているところです。
ここで重要になりますのはデータ構造化というところです。先ほども紹介がありましたが、画像から研究に使えるデータを作っていく一連のワークフローを構造化といいます。例えば本をデジタル化するのも1ステップですし、それを翻刻してテキスト化するとプレーンテキストができます。これは一般に非構造化データと呼ばれます。それをTEI等でマークアップすると、半構造化データという形式になります。
このようにどんどん構造化のレベルを高めていくのですが、一方でほかの分野から見ると、資料を読み解く構造化だけが問題というわけではない。研究者の中でも、過去の世界で何が起こったかを分析したいという方が結構おられます。例えば経済とか人口とか、そういうデータから過去の世界で何が起こったかを分析したいというとき、ある場所で何があった、ある場所でどんなイベントが過去にあったか、というデータが欲しいのです。しかし必ずしもそのように資料に書かれているわけではないので、資料に書かれている内容の構造を変換するような作業が必要となります。このことを我々は構造化ギャップと呼んでいます。ユーザーの利用パターンを考えながらデータを構造化しないと、両者がつながらないことが最近分かってきているところです。
分野をまたいでデータをつないでいくときはどうするか。江戸ビッグデータの例では、江戸の古地図をデジタル化し、そこに我々が画像への注釈として地名をマークしていきました。これにより、江戸地図にどんな地名があるかは分かりました。一方で実際の世界を分析したい人は、ある緯度経度に何という地名があったかという逆引きがしたい、あるいは商業ビッグデータで江戸時代の商店がどこにあったかを今の地図上で知りたいなど、単に資料を読み解くだけで分からない情報が欲しいと思っています。
このような時に、識別子、例えば地名の識別子に関するGeoLODというサービスを我々は立ち上げていますが、このこのように識別子を使ってデータをつないでいくことが大事だと思っています。ある地名はどういうIDを持っていて、そのIDはどこに存在する、などIDを基準にデータをつないでいくと、分野をまたいだ統合ができるという例があります。
もともとこの古地図を公開していたのは国立国会図書館です。それに我々がアノテーションをつけて、付加価値を加えて公開しました。技術的にはIIIFを使っているのですが、IIIFが相互運用性を確保しているので、機関横断的にアーカイブを展開し、独自の付加価値をつけて公開することも可能となります。更に地名の識別子などを使って異なる分野のデータセットを統合していくと、総合知につながっていくと思います。また特に現代と接続するところが重要です。地理情報もそうですし、業種分類ですとか観光地ですとか、現代と接続することができると、日本文化の資産として活用していく道が広がると思います。
ですので、相互運用性とか識別子とか、機関や分野をまたいで共通化することでデータセットの付加価値を高めていくことについても考えるべきというのが、この事例の教訓だと思っています。
あまり時間がなくなってきたので急ぎますが、識別子です。先ほども言いましたが、いろいろなタイプのものがあります。DOIですとか、研究者のIDとしてはORCIDですとか。また生物情報学ですとDNAにIDがついていて、このDNAによってどんな病気が起こるなどが整理されていたり、天文学ですと星に識別子がついていて、この星に関する研究論文を一覧できたりするなど。こういった形でデータが整理されてくると、研究が画期的に進むわけです。例えばある地名についてどんな研究があったかということが識別子で一覧できたら、人文学の研究は大きく発展すると思います。
こういった地名ですとか人名ですとか時間といったもの、固有名や分類体系などは、可能な限り共通化すべきだと思います。これはレファレンス的な研究資源とも言えます。個別のデータセットを作っていくのはもちろん大事なのですけれども、一方でこういった共通的な研究資源は切り分けて考えていった方がいいと思っています。というのは、複数は要らなくて、1つあればいいんです。ネットワークの中心にあるようなところが組織や研究グループを取りまとめて進める方がよいと思っています。更に国際的に見ると、日本の代表として意見を述べる必要があることもありますので、こういったところは統一した方がいいと思っています。
ソフトウエアは、データセットそのものではないんですけれども、データセットを作ったり公開したりしていく上で非常に重要な存在です。これもオープンソースで作っていくと共用できるので有り難いということになりますが、ソフトウェアエンジニアがきちんと入って、高品質なものを作っていくことも重要です。一方で、最近はノーコードという言葉も出てきて、コーディングは必ずしもしなくてよいということが言われています。ですから、システムを作らないで既存のものを使うことも賢い選択です。既存の成果をうまく活用することも大事だと思っています。
個別のデータセットを作っていくことは大事だと申し上げました。分野や目的はそれぞれに異なるので、独自性を備えた作り方をしなければいけない。一方で共通的な概念や方法論もあって、それは個別の組織が取り組んでいくにはちょっと大変なので、人文学データ活動の拠点がそうしたニーズを取りまとめる機能も必要なのではないかと考えています。
そのモデルとしては、一つ、欧州のDARIAHがあります。いろいろなことをやっていますが、これは開始後15年たった段階での状況です。日本は同じものを始めるというより、むしろいろいろな可能性を試す段階にあると思います。多様性を確保しながら多くの分野でいろいろな試みをしていきつつ、識別子のデータ基盤や方法論の共有などを取りまとめるような活動も必要なのかなと思っています。
データを公開するときに、機械可読データとして再利用可能なライセンスを付し、ウェブ公開することが大事です。それを業績として評価すべきという評価システムのアップデートの問題もあります。
もう一つ、従来の人文学分野は、実は出版社がデータに関する業務をサポートして、著作物として流通させる形で回っていました。マネタイズも著作物としてのマネタイズがされてきました。この文化がオープンサイエンス、オープンデータの時代に合わなくなっているという面が根本にあります。ただその次のモデルがないので、そういったところを考えていく必要があると思っています。
人文学研究の中には、実はデータ文化になじみやすいテーマもあります。機械可読性のエッセンスさえつかめれば、情報系以上のデータ専門家になる可能性がありますし、コツさえつかめれば、データ専門家に向いている人も多いのではないかと私は思っています。
個人単位からチーム単位へ。人文学の研究は個人単位の研究が多く、単独で進める研究の方が価値が高いという考え方もあります。ただ、それですといろいろなスキルを学ぶのが難しいので、やはりチームで作業を分担して、協働して研究を進める文化に変えていくことが必要だと思います。今までの共同研究は、地域ですとか時間ですとか作品などの軸で分けていくことが多かったのですが、データ収集ですとか構造化ですとか付加価値化などの作業で分担して協働するモデルも必要ではないかと思っています。
データ駆動型研究を推進することで、大規模データから新たな知識を得る機会をつくる、人文学研究を円滑に推進する基盤を構築する、チーム型研究に基づく研究文化を開拓する、よりオープンな人文学研究を促進する、こういった効果があるのではないかと期待しております。
以上です。

【城山主査】 詳細な御説明、どうもありがとうございました。
続きまして、資料2-3に基づきまして筑波大学名誉教授の浜名先生から御説明いただければと思います。よろしくお願いいたします。

【筑波大学(浜名)】 筑波大学名誉教授の浜名と申します。よろしくお願いいたします。私の専門は英文学です。最初にお断りすると、デジタル・ヒューマニティーズという言葉は長いので、DHと短縮します。
私のDHの本格的導入提案書に日本英文学会は無反応でした。今回、本委員会で発表する機会を頂きましたので、念のために前日本英文学会会長の慶應義塾大学の原田範行教授に連絡しました。私から、「日本英文学会はデジタルリテラシーを高める必要があることは認識しているとしても、本格的なDH改革には慎重派、懐疑派が多いという理解でよろしいでしょうか」と確認したところ、以下のようなお返事を頂きました。
研究でも教育の点でもデジタルデータ(例えば、非常に大きな電子データベースであるEEBO、ECCO)の活用は積極的に行われている。しかし、デジタルデータを読み解くための基本教材のデジタル化率が低い。デジタル化された地図や図版をデジタルテキストと併用しながら研究・教育することも進捗しつつある。
もう一つは、私から本委員会にお伝えするようにと託されたメッセージのようです。「せっかくなので、海外の美術館、博物館、図書館などがやっているデジタルサービスとの教育・研究連携モデル構築のような取組も必要だと思っています。よろしくお願いします」、とのことでした。
以上は私的なやりとりですが、一応適当と思われる手続を行って本日の会議に臨んでおります。
英語文学文化研究分野では、電子データベースの検索と分野横断的なテキストや視聴覚データの閲覧・精読は今では標準的な研究方法となりました。この点は一定の評価ができます。しかし、自分の作ったデータセットツールを駆使して分析する知識とスキルが習得できていません。より正確に言えば、習得する機会がほとんどありません。DH推進の最大問題は、ここをどう解決するかに尽きると私は思っています。これは短期に解決ができませんが、幾つかの対策は本日の資料に記載してあります。
日本英文学会の中だけでは人材は見つけられませんし、養成もできませんので、情報学、データサイエンス、プログラマー等の支援が必要です。
これから資料の説明に入ります。文字資料だけで申し訳ありません。
1ページ目ですけれども、「DHとは何か、基本情報、論争、発展」のセクションでDHの定義と特色を記しました。必要ないかもしれませんが、一応やっておきます。「DHとは、『共同で、分野横断的に、コンピューターを用いて取り組まれる、研究、教育、出版のための学問と組織の新しいあり方』のことであり、伝統的な人文学の研究手法を問い直していこうとする際、チャンスと課題が生まれることになる」。
2ページをお願いします。ここではまず、チャンスと課題を説明し、デジタル時代における人文学の本分が問われていることを強調しました。
次に、DHの簡単な歴史を紹介してから、21世紀は電子革命の新たな段階に入り、電子媒体が紙媒体に取って代わり、人文学でもコンピューターがプラットフォームになったことを強調しました。デジタルアーカイブ空間では、読者はよりアクティブに活動し、新しい知の発見と新しい価値の創出が期待されます。
3ページをお願いします。DHは知的イノベーションの大きな可能性があるのですが、繰り返しになりますが、教員も学生も相当のトレーニングが必要です。DHの促進による英文学史の見直しも要請されます。
次に、右の欄を御覧ください。DHに関わる専門的知識・技術を列挙してあります。stylometryからvisualisationまでです。言語学、データサイエンス、コンピューターサイエンス、情報学、図書館学等に関わるものが多いです。複数領域を扱う研究者もいますが、一分野の専門家として一生を終える人もいるほど、どの分野も専門的です。例えば著作権がなく、作者不明の作品が少なくない中世から初期近代の英文学分野の作者同定(authorship attribution)に関しては日本でも実績があります。それ以外は、日本の英文学文化研究分野では例外的な研究者や組織を除いてはあまり普及しているとは言えません。
次に2の「DHの成果、課題、可能性」のセクションに移ります。英語文学文化研究におけるDHの成果を見ていきます。まず、電子データベースの構築運用です。これはさらなる利活用が期待されています。
4ページをお願いします。先ほどDHに関係する分野を紹介しましたが、データの分析方法もたくさんあります。特にテキストマイニング(単語の出現頻度、センチメントアナリシス、トピックモデリング等)やネットワーク分析は注目される方法です。また、待望されているのは最新のテクノロジーを駆使した革新的研究と実験です。特に様々なツールを駆使してデータの視覚化を行うことが待望されています。
また、国際共同研究・共同執筆への転換も当然の趨勢だと思います。英語文学研究で実際の成果としてアメリカとカナダの2つの大型研究を紹介しておきました。いずれもデータ駆動型で、インパクトがある研究です。
5ページをお願いします。2つの実例からも分かるように、DHは文学研究の新しい地平や可能性を示していると言えるのですが、大きな課題があります。繰り返しになりますが、必要とされる知識と技術の習得です。
6ページをお願いします。「DHの本格的導入のために」。冒頭で永崎先生の言葉を引用しました。「時代の要請に適応できる知識と技術が求められており、学生自身の自覚はもとより、大学や学会の取組が必要である」と書きました。日本英文学会の設立の目的は研究者の交流でした。英米の同様の学会も設立当初の目的はほぼ同様であったのですが、その後、時代の要請に応じて変更しています。例えば2万4,000人(2019年度)の会員を有するMLAはミッションの中に、2014年にDHを追加しています。また、MLAの設立趣意書に院生就職支援の項目はないのですが、自分たちの大学の仕事の維持にも関わりますので、院生の就職支援にも熱心です。
6ページの中央部で、Battershill & Ross共著のUsing Digital Humanities in the Classroomを紹介し、DHを導入・実施するために必要な要件や意義を網羅的に論じているので、列挙しておきました。なかなか興味深くて役に立つ情報かと思います。
日本英文学会でDH導入に関するアンケートを実施するように提案したのですが、実施する可能性はほぼありませんので、本日は触れないことにいたします。
7ページをお願いいたします。「対策とヴィジョン」。DHあるいはデータ駆動型人文学、総合知にも関わるのですが、21世紀の学生が文系と理系の両方を学ぶ必要があることと、創造力の重要性を強調しました。もちろん、従来から指摘されている批判的思考力、コミュニケーションスキルの重要性も再認識されております。結論すると、データ分析は苦労も多いのですが、やりがいのある結果が出ることも少なくありません。日本の英語文学文化研究分野がデータ駆動型人文学の時代に適応することを期待して発表を終わります。御清聴ありがとうございました。

【城山主査】 どうもありがとうございました。
本日は残りの時間につきましては、これまで説明のありました内容に関して御質問、御意見を頂ければと思います。約1時間程度ございます。なお、冒頭に、我々の委員会の中のメンバーであります後藤委員が比較的近い観点から御研究されていますので、後藤委員から最初、インプットといいますか、御発表を頂いて、その上で皆様から御質問、御意見等を頂く手順で進めさせていただければと思います。
ということで、最初、後藤委員からお願いできますでしょうか。よろしくお願いいたします。

【後藤委員】 人間文化研究機構、国立歴史民俗博物館の後藤でございます。私は専門が人文情報学、デジタル・ヒューマニティーズとなります。特に私は日本の歴史資料のデジタルデータのネットワークの構築、それから分析といったところを専門としております。その観点から、3人の先生方の御説明につきまして少し付加的に情報を加えさせていただくことを大変僣越ながら、させていただければと思っております。どうぞよろしくお願いいたします。
まず私自身としての現状把握になりますけれども、データ蓄積という観点でいきますと、人文資料につきまして、先ほどの北本先生の資料に即して申し上げますと、研究の資源となるようなデータに関しては、特に画像データに関してはいわゆるデジタルアーカイブと言われるもので最近比較的進展しております、例えば大学の博物館それから大学の図書館といったところが、特に資料の画像データを蓄積する部分で、大分進んできているなというのが、現在の個人的な印象でございます。
一方で、先ほどの北本先生の資料でいきますといわゆる研究過程、私は研究プロセスデータという言い方をよくしますけれども、研究プロセスデータにつきましてはあまり残念ながらまだ進展がないと言えます。とりわけテキストデータやいわゆる資料から抽出した途中の情報みたいなもののデータの蓄積・共有はこれからであると認識しております。私もデジタル・ヒューマニティーズをDHと略しますけれども、DHの研究もまさにその点ではこれから更に進んでいく、進めるべきものであると理解しております。
いわゆるDHの試みの例といたしまして、日本の大型機関では大きくこのようなものがございます。1つ目は私の所属しております人間文化研究機構の機関の一つである国文学研究資料館です。新日本古典籍総合データベースでありますとか、先ほど北本先生で御説明がございましたROIS-DSの人文学オープンデータ共同利用センター。
また、前回の委員会の時に説明がございました人社系データインフラ事業においては、東京大学史料編纂所がデータベースのセットを作っていたり、また先ほどの永崎先生の御説明でもありました大正新脩大蔵経のデータベースのような事例もございます。
また、当館でも特に地域の日本史資料の古文書等のデータの目録・画像等の蓄積を、細々という感じではありますが行っております。これはkhirinというデータベースの中で作成をしております。
また、先ほど北本先生それから永崎先生でも説明がございましたけれども、これらの資料の画像データをクラウドソーシングのような形でテキストデータを作る「みんなで翻刻」というプロジェクトでございますとか、私の所属しております人間文化研究機構では国立国語研究所が一連のコーパス、言語の基本的なデータの蓄積を行っていたりしております。
また、いわゆる漢字につきましては京都大学やその研究グループが漢字字体規範史データセット、NHGと言われるものであるとか、CHISEと言われる文字データセットを展開しております。
また、これも永崎先生、北本先生のところで説明がございましたけれども、立命館大学のアートリサーチセンターでも特に浮世絵であるとか近世の画像データについての大きな蓄積を進めている状況でございます。
このように特に日本でも大型機関と言われるようなところについては、かなり画像・目録といったところについては大分蓄積が進んできている、またそれを応用した解析といった例も進んできていると言えると思います。
その中でも私からは、同じ人間文化研究機構の事例で、まず簡単に御説明をしたいと思います。現在、人間文化研究機構、国文学研究資料館で進めておりますのは、日本語の歴史的典籍の国際共同ネットワーク構築計画でございます。こちらにつきましては先生方もよく御存じかと思いますけれども、ごく簡単に触れておきますと、日本文学を中心としたいわゆる典籍と言われる歴史的な書籍の総合デジタルネットワークを構築することが現在進められております。こちらは大型学術フロンティア事業として、先ほどのCODHとも広く連携して、挑戦的な人文データ解析やそのためのデータ蓄積を進めております。

【城山主査】 後藤先生、ちょっと声が聞こえにくいのかなと思うのですけれども。

【後藤委員】 すいません。また、現在、こちらの大型学術フロンティア事業につきましては、現在、後継事業といたしまして「データ駆動による課題解決型人文学の創成」というテーマで、ロードマップ2020に載せていただきまして、こちらも準備を進めているというということでございます。
次をお願いいたします。この後継事業は、これまで30万点の古典籍のデジタル画像配信をオープンデータで進めてきたものを、更にデータを構造化し、データ駆動で異分野・海外との共創により、新たなデータ駆動型の研究プロジェクトを進めていくものでございます。これにより、更にこれまで公開してきた画像のデータをよりコンピューター等でも使いやすくするとともに、ほかの分野それからほかの国にもデータを開いて、多くの総合的な研究を進めていくものでございます。最終的には気候変動や地球環境史の記録、異文化接触といったところの課題解決にまで進めていくプロジェクトとして、現在準備を進めているものでございます。
こちらも先ほどの続きになりますけれども、データ駆動型から新分野の創成へということで、右上に書いてますように例えば典籍人類学であるとか典籍防災学といったものも進めております。分散型データ集積・運用に基づく人文学研究から様々な形で得られたデータを基に、活用可能なモデルを見いだすデータ駆動形の科学へということで、新たな、人文学のどちらかというと特にシーズ的な研究を積極的に進めていくところが、この後継のプロジェクトの狙いになろうかと思っております。
また、大型プロジェクトの関連事業として人間文化研究機構で進めております「古代の百科全書・延喜式」というプロジェクトの中でも、実際にデータの構築の例を進めております。左のところから御説明していきますが、まず画像のデータとして、これは相互運用可能なIIIFの画像データセットを作ります。そこから人文学の研究者が資料画像を含む関連する画像を基に、テキストデータ、TEIのデータを構築していくことになります。こちらの方は歴博のkhirinに現在載せる予定で作業を進めております。その資料からのテキスト構築作業の過程の中で、テキストを読むことによる人文学的なアウトプットも生まれてくることになりますし、ちょうど真ん中ぐらいになりますけれどもこの画像からTEIのデータを構築しています。また、更にここから情報学的な解析を行いまして、データからのビジュアライゼーションであるとか解析を行います。こちらの方は特に情報学の先生方との協働によって進めていくことになります。
ここまでを情報学の先生方とともに分析を行って、ここから人文学者が更にこの結果を見ながら新たな研究を進めていくことになります。あくまでも可能性の例ということにはなりますけれども、例えばここからは古代における食料の分析、どのような食料の消費がされていたのかといったことを、単に読むだけではなくてビジュアライゼーションなどの成果も加えつつ分析を行うことができます。ここからあるいは環境変動のようなものも可能になるかもしれないということもあります。また、古代の国家における経済構造の解明といったこともこのビジュアライゼーションの中から分析が可能になるかもしれません。
また、それ以外にも、中にある延喜式には日本古代の非常に多様な情報が含まれておりますので、例えば金属の分析を行うことができることになるかもしれません。あるいは、食料に関係するような情報も含まれておりますのでかなり難しいとは思いますけれども、食料の情報を抽出することによってレシピであるとか新たな食べ物の文化の発見・解析の可能性みたいなことを検討することもできるようになるかと思います。
このように大きく画像データのような、大本の情報学者が作った画像データがあり、それを更に人文学者がテキスト構築を行い、情報学者がビジュアライゼーションを行って、更にそこから人文学者がその成果を読みつつ、自らの知見を加えてアウトプットしていくという流れが、この延喜式のデータ構築の例からは指摘できるのではないかと思います。これは永崎先生、北本先生が指摘された全体のフローと似たような流れになろうかと思います。
あくまでも個人的な意見になりますけれども、DH研究の在り方とは何かということについて、一言述べておきます。単に一つ一つの資料を読む、単にというとややネガティブな表現になってしまうかもしれないですが、一つ一つの資料をじっくり読むというのは人文学の実は本質でもあります。更にそれに加えて新たな可能性を開くということがこのDH研究の重要な部分であると思います。例えばビジュアライゼーションでありますとか、テキストの計量解析、または先ほどの北本先生の中で画像データの比較がありましたけれどもデータの組合せ、若しくは研究プロセスの可視化といったところまで含めて、新たな可能性を開くことができるのではないかと思っております。
一方で、最後の本質の部分を全て変えるということではないこともここでは強調しておきたいと思います。デジタル・ヒューマニティーズはあくまでもヒューマニティーズであって人文学です。なので、人間が人間のことを考えて、人間社会をよくするという人文学の行為の部分を、いかにコンピューターを使って進めていくかということが大事だということでございます。
その中で、デジタルデータ化の新たな流れへと対応することにより、例えば総合知への貢献といった、より広がりがある研究にもなりますし、またこれまで人間が長くやり続けていた難しいところをコンピューターが一挙に処理することにより、研究速度の向上といったところも期待が持てるのではないかと思います。
最後のスライドになります。このようなDH研究を推進するために個人的に考える必要なポイントになります。左側は特に、先ほどの国文研の例が典型的になりますけれども、まずプラットフォームとさらなる高度化が重要になります。
一つは、適正で安定的なプラットフォームが必要になります。これはデータがある段階で突然使えなくなってしまうと、それから再現性の確保の点で問題になりますので、いかに安定的なプラットフォームをつくっていくかということが大事になります。
また、先ほどから北本先生、永崎先生、浜名先生からずっと御指摘がございましたけれども、いかに共通のフォーマットを使っていくかという相互運用性の重要性を指摘したいと思います。こちらについては東アジアから世界への提案も非常に重要になろうかと思います。
更に国文研の次のプロジェクトが典型的になろうかと思いますが、高度な情報学的なアウトプットもこのDH研究の推進のためには必要になろうかと思います。
そして、右側は、特に人文学の研究者が進めるべきところになります。人文研究に基づく信頼できるデータの構築が重要になります。元データが誤りのままとなりますと、いくらコンピューターで解析しても結果も誤りになってしまいます。
また、情報学と人文学との適切なコラボレーションによる適切な分析技法も、情報学的には必要になってまいります。これは先ほど北本先生の御指摘のとおりでございます。
最後に、データ人文学の新たなデジタル・ヒューマニティーズのための課題解決研究といたしまして、データ構築も含めつつ、分野と国を超えた人文研究のアウトプットをこのデジタル・ヒューマニティーズの研究の推進の中で進めていくことが重要であろうと思います。
すいません。当初与えられていた時間をちょっと超過してしまいましたけれども、私から追加のコメントとさせていただきます。大変失礼いたしました。ありがとうございました。

【城山主査】 後藤先生、どうもありがとうございました。
それでは残りの時間は質疑応答あるいはコメントのために使いたいと思いますけれども、いかがでしょうか。では最初、小林先生、よろしくお願いいたします。

【小林委員】 本日は4名ともすばらしい報告をありがとうございます。永崎先生それから浜名先生、後藤先生は情報学に明るい人文学の研究者の方ですし、北本先生は人文学に明るい情報学の研究者なので、極めて納得のいく御報告であったと思います。私は英文学はよく分かりませんので、浜名先生以外の方に御質問させていただきたいと思います。
まず永崎先生の御報告ですが、当然この分野で触れなければいけないヨーロッパの動向であるとか、あるいは中国の動向、韓国の政府、そういうことが申し訳ないですけれども先週の委員会の報告では一切抜けていたので、今週はきちんとそこをフォローしていただいてありがとうございます。中国は清華大学がもちろん情報の要になっていますが、中国人民大学とか北京大学も国際標準でデータを出しています。これによって、アメリカとかヨーロッパの中国研究はかなり変わりました。従来のような権力構造の研究とか歴史の研究から、国民、彼らからみると人民なのでしょうが、それを主体とした研究に大きく変わっている。日本がそこで非常に遅れているというのは、私が先週思った危機感です。
永崎先生にお尋ねしたいのは、実は人文情報学研究所というのは今後どういう役割を担っていかれるのか。仏典の大きなデータベースを作っていらっしゃるのは何となく存じ上げているのですが、それを超えて、人文学のデジタル・ヒューマニティーズ全体に対して何かどういうような関わりをされていくのかというのが、非常に優秀なところなので、期待を込めて気になっているのでお尋ねしたいところです。
それから北本先生には、国文研の古典籍のプロジェクトに対する御協力に非常に感謝を申し上げております。私も最初、ここがPDFファイルでデジタル化すると言ったので、それはやめてくださいと申し上げたのですが、なかなか話が伝わらなくて、間に多分誰か通訳が必要なのかなと思ったのですが。北本先生がきちんとやっていただいたということだと思います。
お尋ねしたいのは、NIIがSINET5の次の後継計画でSINET6だけではなくて、多分こういう部門にも力を入れていかれると思うのですが、データ構造化ワークフローというところで、例えば一つ一つのプロジェクトに対してNIIが全部カスタマイズしてこれをやっていくのは、多分マンパワーとかそういうことでいろいろな限界が出てくるのではないかと思いますが、どういう形で貢献をお願いできるのかどうか。何かプラットフォームの共通したようなものをつくって、みんなに配っていかれるのか。あるいは順次そちらに切り替えていくというのか。データは恐らくNIIで集めるというよりは、それぞれのところに置いてあって、それを統合する形をお考えなのだと思いますが、どういう形でNIIが御協力を頂けるのかというところです。
もう一点お尋ねをしたいのは、一番この手のことで大変なのがタグづけの問題になってきます。それを一々手作業で国文研も今までやってきているわけですが、何かそこはもう少しAIでできる部分があれば、一つ一つの手作業がかなり省力化できればもっと一気に進むのではないかと思います。
最後にもう一点お尋ねしたいのが現代との接合で、地域識別子は非常に重要だと思います。ただ、これは何をベースにユニットを取られるのか。行政区なのか、それは明治から現在までで市区町村の数は大幅に減ってきています。それかあるいはメッシュでやられるのか。また、日本だけでいってみても、日本測地系から世界測地系に変わったり、いろいろな変更があります。何をユニットとしてこの地域識別子を取られるのかということです。
最後に後藤先生にお尋ねしたいのですが、実は歴博は物すごいデータベースをお作りになっていて、古文書だけではなくて、錦絵とか屏風とか延喜式とか、いろいろなものをお作りになっていて、延喜式は法学部にとって非常に重要なのですけれども。ただ、実は一つ気になるのは、人間文化研究機構の中で歴博と国文研もかなり同じものを持っていらっしゃいます。どこまでが文学でどこからが歴史かというのは区別がつきにくいわけです。かなり歴史資料もあのプロジェクトではやっています。同時に日文研も絡んできます。
それぞれのところがそれぞれデータベースを持っていて、どうもプラットフォームは随分違うなという感じがするのです。この辺は何か人間文化研究機構として統一的にやる方向性は検討されているのかいないのか。というのは、一つ一つの研究所ではどうしてもマンパワーにも限界があると。それからやはりこういう方向ではなくて、オーソドックスな伝統的な研究がしたいという方も多分いらっしゃると思うのです。そういう中ではますます限られる中で、今後どういう方向に向かっていくのか。日本でもし集約してやろうとしたら、それは人間文化研究機構以外あり得ないと思うのです。大学共同利用機構で唯一の文系のものですから、そこをお尋ねできればと思います。
以上です。

【城山主査】 ありがとうございました。一つの共通の論点はいろいろな組織の役割分担なり特性をどう考えるかということかと思いますが、その点も含めてお三方からのレスポンスを頂ければと思います。まず最初、永崎先生、いかがでしょうか。

【人文情報学研究所(永崎)】 小林先生、御質問ありがとうございます。
当方の人文情報学研究所の今後の展開についての御質問だったかと思います。人文情報学研究所は一般財団法人でございまして、政府とかそういった大きな動きの中では何か特別に役割を果たすべきというような位置づけにはなっておらず、単に我々が勝手に仕事をしているだけです。ただ、設立の経緯としましては、大蔵経テキストデータベースの一連の仕事を支援するために設立されたものでございまして、一方、いわゆる大学の仕事のペースですと、例えばちょっと挙げました国際標準化への対応といった仕事も、一つの仕事に10年ぐらいかかりますので、例えば助成金ベースで仕事をするといったことができないという判断もございまして、スピンアウトさせて一般財団法人にした経緯もございます。
また、仏教学は基本的にデジタルに関してもそうでない部分に関しましても、拠点が世界中にあって、常に国際的な圧力にさらされておりまして、結果的にデジタル・ヒューマニティーズも、非常にというほどではないのですが、聖書学ほどではないのですが、かなり進んでしまっていて、それが日本にも拠点があるために、その国際的な動向をダイレクトに反映せざるを得ない状況がございます。
しかしながら、日本で仏教学だけが進んでしまう状況ですと、結局広がりがなく、また日本の力を高めていくことにもつながりませんので、そこで仏教学以外の他の人文学分野にもそのDHの知見を広めていこうということに、力を今のところは入れております。特に日本ではDHに関する情報収集力が非常に弱かった時期が長く、そこを支援することを10年ほどは力を入れてきておりました。特に東京大学の大学院でデジタル・ヒューマニティーズ研究者の養成に支援をかなりしておりまして、来月、そこで育った若手研究者を中心にして、本を1冊出すことになっております。「欧米圏デジタル・ヒューマニティーズの基礎知識」という本が文学通信という出版社から出ます。それが恐らく一つの契機にはなろうかと思います。
また、最終的には政策レベルで自立的に日本でDHが展開できるようになっていってくれれば、当研究所としてはそこから徐々に手を離して、むしろデジタル仏教学を切り開いていく方に軸足を移していくと、そういう見通しでございます。
ですので、日本の学術政策においては頑張っていただきたく、自立的にいけるようになるまでは熱心に、力を入れて御支援していきたいと思っておりますので、よろしくお願いいたします。これで回答になっておりましたでしょうか。

【小林委員】 ありがとうございました。よろしくお願いいたします。

【城山主査】 続きまして北本先生、よろしくお願いします。

【国立情報学研究所(北本)】 北本です。3つ御質問があったかと思いますが、順にお答えしたいと思います。
まず現時点では正確なお答えが難しい件として、先ほど小林先生がお話をされたNIIに関してですが、我々の人文学オープンデータ共同利用センターはROISの下のデータサイエンス共同利用基盤施設の中にありまして、その立場からNIIとどういった形で共同して進めていくかは今後の議論が必要だと考えています。またデータ構造化ワークフローについてはいろいろなレベルがあると思います。ワークフロー全体を対象としたフレームワークとしてのデータ構造化については、共通化していくことが必要だと思います。
一方、ソフトウエアとしての実装のレベルでは、これを使えば全てできますというような形で作っていくのはなかなか難しいかなと思っております。標準的なワークフローが存在する分野では、全部ソフトウエア化してボタンをクリックすればできるというところもなくはないでしょうが、人文学の場合はまだそこまで成熟しておりませんので、実質的にはいろいろなツールを組み合わせて進めていくことになると思います。
ですので、全体像の中でどのようなプロセスを行っているのかという認識を共有化するところが重要だと思っています。プラットフォーム上で全部できますというよりは、まず手順を共有化し、その中でできるところから着手していくというふうに考えているところです。
2番目の御質問で、タグづけを手作業でやるのは大変なので、AIでできるかという御質問です。一つの考え方として、私自身は一般名詞的なタグづけと固有名詞的なタグづけと分けています。一般名詞的というのは、例えばここには木が描いてありますとか、水が流れていますとか、これは風景ですとか、これは人物画ですとか、そういうレベルのタグ付けで、こういったものはAIである程度できると思っています。実際にそういった研究も進めています。一方で固有名詞的なものとして、この人物は誰かとか、この風景はどこかとか。あるいは人文学的な知識が必要なもの、例えば描き方の分析など、そういったもののAI化はまだ難しいと思っています。
テキストについては、テキスト化できた段階で自然言語処理を使って重要な単語を取り出すというレベルであれば、ある程度AIでできるのではないかと思っています。ただ一方で、古典語は自然言語処理が技術的に成熟していない部分もあり、今後の技術開発次第という面がありますので、AIでできるものと人間が行うものを併存させつつ、AIの部分を徐々に増やしていく形で進めていくことを考えています。
最後の3点目ですけれども、特に地理情報について、現代と接続する場合の識別子をどうやって作っていくかという点です。これは基本的にメッシュではなくて、地名を使おうと考えています。もちろん地名では表現が難しい地理情報もありますが、まずは地名を基本に考えています。現状では地方自治体については、大正時代ぐらいまで独自に識別子をつけて、そこに結びつけていくことをやっています。また、人間文化研究機構が歴史地名データとして公開している何十万点かの地名のデータとの紐づけも進めています。
ただ、それだけだと地名を全部カバーすることはできないので、分野に詳しい人が識別子を自ら登録していくことで増やしていくことも考えています。これはそう簡単ではないのですが、識別子と資料を結びつける仕組みをつくって、段階的に増やしていくことを考えております。
以上で、ちょっと長くなりましたが回答です。よろしくお願いします。

【城山主査】 どうもありがとうございました。
それでは続きまして後藤先生、よろしくお願いします。

【後藤委員】 ありがとうございます。小林先生、人間文化研究機構のことはすごくよく御存じですので、非常に厳しいというか、いろいろ鋭い御質問を頂いたと思っております。
先ほど小林先生がおっしゃるとおり、人間文化研究機構は確かに国文研、それから当館歴博、あと国語研・日文研がたしかに日本資料をそれぞれの研究目的に即する形で持っていて、今、デジタル化を進めているところでございます。これらにつきまして、先ほど小林先生がおっしゃるとおり、いかにやはり統一的に研究データとして見せていけるかというところは、現在、人間文化研究機構の中でも第4期に向けて議論を進めております。その中で、人文系研究データを後悔するという観点から学界にいかに貢献していけるかという議論を今進めているところでございます。
とりわけ、先ほどの中でいきますと、研究データセットをいかに効果的に皆様方にお示しすることができるかということ、あとは相互運用可能なデータセット、TEIでありますとかIIIFのような相互運用可能なデータセットとか、発見可能なメタデータのようなものをどのように提供できるかといったところの議論からスタートいたしまして、そこから人文学としての全体のプラットフォームみたいなものをつくっていけることを検討したいと思っております。もちろん、その中で国文研さんは非常に大型の重要なプロジェクトを持っておりますので、機構としても積極的に連携体制を整えながら進めさせていただければと思っております。
すいません、現状の私の立場ではこの辺ぐらいまでになってしまいますけれども、以上でございます。

【城山主査】 よろしいでしょうかね。
それでは私が認識している順序でいうと、戸田山先生、井野瀬先生、それから田口先生の順で挙手いただいていると思いますので、この順で進めたいと思います。
最初は戸田山先生、よろしくお願いします。

【戸田山委員】 大変啓発的な御報告を頂きまして、大変ありがとうございます。それぞれ非常に重要なプロジェクトを推進されていることも分かりましたし、敬意を払わなければならないなと思います。
その上でですけれども、2つ、どなたにお答えいただいてもいいのですけれども、2つ簡単に御質問させていただきたいです。一つはデジタル・ヒューマニティーズとデータ駆動型人文学研究の関係ですけれども、データ駆動型人文学研究はデジタル・ヒューマニティーズの一部であるという考え方でよろしいのかということです。デジタル・ヒューマニティーズは人文学の何らかの側面にデジタル技術を適用する研究ということで、かなり広く。そうしますと、私は哲学者なんですけれども、研究データないし文献データのデジタル化は結構哲学では進んでいるような印象を持っているんですけれども、むしろ研究方法のところでデジタル化、デジタル技術の適用が必要かなと思っています。例えば、具体的に言うとシミュレーションなんです。社会科学の方でも実験社会科学のようなシミュレーションをきちんと使って仮説を検証していこうというような研究が進んできましたので、デジタル・ヒューマニティーズの動きの中でそういったデータベース構築やデータベースのためのプラットフォームの構築以外の動きといいますか、それがあるのであれば教えていただきたいというのが1つ目の質問。
それから2つ目ですけれども、最終的な目標としてこれを進めていくことでタコつぼ化を越えるとかよりオープンな人文学研究と、複数の方がおっしゃっていた。この目的自体は大賛成で、是非進めていかなければいけないし、日本の人文学研究のタコつぼ化ももう病的な状況にあると私は思っているので。ただ、インフラ部分のプラットフォームの共通化がどういう筋道で人文科学研究そのもののタコつぼ化を解消していくというか、もっとオープンにしていくことができるのかと。その筋道が大事かなと思っているんです。そこのところについて何か展望をお持ちの方がいらっしゃいましたら御意見を頂きたいと。これが2つ目です。
以上です。

【城山主査】 どうもありがとうございました。デジタル・ヒューマニティーズとデータ駆動型研究の関係の話と、タコつぼを越えるという話とインフラといいますかデータ基盤を共有するというのはどういうふうにつながっていくのかというお話だったかと思いますが。どういたしましょうか。多分皆さんそれぞれ御関係があるのだと思いますが、御発表いただいた3人の先生方、何かレスポンスされたいことはございますでしょうか。いかがでしょうか。

【人文情報学研究所(永崎)】 では永崎からよろしいでしょうか。

【城山主査】 永崎先生、よろしくお願いします。

【人文情報学研究所(永崎)】 ほかの先生方もそれぞれいろいろおありかと思いますが。

【城山主査】 では、永崎先生にまずお話しいただいて、その後、他の先生方にお願いできればと思います。

【人文情報学研究所(永崎)】 戸田山先生、大変大事な御指摘をありがとうございます。
おっしゃるとおり、現段階でスライドを作った段階ではデジタル・ヒューマニティーズとデータ駆動型人文学といった場合、デジタル・ヒューマニティーズの方が広いような話にしておりましたが、これはあくまでもまだ定義としては決まっている状況ではございませんので、データ駆動形人文学といったときの範囲をどこまで定義するかという問題でもあろうかと思います。データを使っていれば何でもそういうふうに入れていいと位置づけたとしたら、デジタル・ヒューマニティーズとほぼ同じ枠組みにできるでしょうし、あるいはデータ駆動型ということをもっと狭く取るのであれば、デジタル・ヒューマニティーズの方がより広いと位置づけることが可能かと思います。
デジタル・ヒューマニティーズの場合はとにかくデジタルを何らかの形で使っていれば、例えば教育ですとかあるいはプロジェクトの運用の仕方も重要な研究テーマの一つになっております。そういった状況でございますので、少なくともデジタル・ヒューマニティーズに関してはかなり幅広いものと既に位置づけられております。それがまず1つ目の質問への当方の思うところでございます。
それから2つ目の御質問につきましては、オープンでタコつぼ化を越えるということで、先ほどMethodological Commonsということを手掛かりとして御覧いただきましたが、こちらはプラットフォームというよりは、参加する人たちの心向きというか態度を示しています。
例えばテキスト研究を今までしていたといった場合、そこでデジタル技術を用いると、例えばテキスト分析、テキストアナリシスですとかテキストマイニングのようなことができるようになる。そうすると、ではそういう技術をみんなで習得してみよう、それで研究発表してみようといったときに、分野によって観点が全く異なるわけです。同じテキストで取り出そうと思ったときに、ある分野では文体を見てみたい、ある分野では固有名詞を取り出したい、ある分野ではその取り出した年代を基に何とか分析してみたい、あるいはある分野ではテキストに書いていないモチーフを何とかして自動的に取り出してみたい。そのようにいろいろな観点の違いが出てくるわけです。
その違いを、ではお互いにどうしてそう違うのか、自分の分野はそれをやっていないがそれはどういうことなのか、それはお互いの方法論を確認し合うと同時に、自分のところの方法論を再度見直してみる機会になるだろうと。そういう機会としてデジタル・ヒューマニティーズという場を利用しよう、活用しようというのがMethodological Commonsということでございます。そういう意味でタコつぼ化を、ですのでプラットフォームとしてももちろん、そういうことが可能なプラットフォームをつくるという意味では、プラットフォームによってそれを越えようとしているわけですが、それだけでなく、そのような対話の場をつくるところがデジタル・ヒューマニティーズの肝要なところであり、デジタル・ヒューマニティーズ学会はそのためのコミュニティーということで、単に年に1回、世界のどこかで集まるだけでなくて、SNSですとかブログとかいろいろなところでそのコミュニティーが形成されて、活発に議論が行われているという状況でございます。
これで御質問の回答になっていたでしょうか。ありがとうございます。以上です。

【戸田山委員】 ありがとうございました。非常に納得しました。

【城山主査】 北本先生、浜名先生、何か補足されることはございますでしょうか。

【国立情報学研究所(北本)】 では、北本からお答えします。
第1の論点は、DHとデータ駆動型人文科学研究はどういう関係かという点です。もちろん両者はかなりオーバーラップしていて重なっていると思いますが、若干ベクトルが違うのかなと思っています。
というのは、データ駆動型という言葉の源流の一つは、英語で言うとFourth Paradigm、第4の科学のパラダイムという論にあるからです。す。実は今月初めに「情報の科学と技術」に論文を書いたのですが、がシミュレーションを中心とする第3の科学に比べて、データを出発点として理論を構築していく第4の科学が必要という提案からデータ駆動型という言葉は出てきています。デジタル・ヒューマニティーズというのは、シミュレーションもデータ駆動型のアプローチも含む、より広い考え方だと思いますが、データ駆動型というのは、データから理論を作っていくところによりフォーカスした方向性を強調していると考えています。
ですので、見ている方向性は若干違いますが、いる場所としては同じようなところに同じような人がいると考えることもできるのかなと思っています。
2番目の御質問としてタコつぼ化の問題ですが、データというのはいろいろな人が議論する土台になり得るのかなと考えています。例えば人文学にもいろいろな理論があります。理論のレベルでは合意が難しいということがあったとしても、その理論のベースになっているデータについては共通のデータが使えます。そこから得られる結論は異なるかもしれませんし、その結論ごとにタコつぼ化し得るとしても、その理論のベースになるデータについてはけんけんがくがく議論することができるかもしれません。そうした共通的なものとして、データを位置付けられないかなと考えているところです。
以上です。

【城山主査】 ありがとうございました。浜名先生、何かございますか。

【筑波大学(浜名)】 私から補足すると、イギリスとアメリカ、それからカナダその他はDHの先進国なんですけれども、同じ英文学でも日本その他は遅れてしまってちょっと話しにくいんですけれども。今のお話の中だと、タコつぼ化であるとかその他の関係からいうと、英米のDHでよく話題になるのはプロジェクトマネジャーという役割で、プロジェクトマネジメントをする人が非常に育成されなければいけないということで、日本でも同じだろうと思います。いろいろな分野の方たちの話をよく聞いて、交渉・調整をしてプロジェクトを進める役割の人を、今もある程度は育っていると思いますけれども、育成する必要があるんだろうと思いました。

【城山主査】 どうもありがとうございました。
それでは井野瀬先生、よろしくお願いします。

【井野瀬委員】 井野瀬です。非常に興味深く聞かせていただきました。ありがとうございます。
お話を聞いて思い出したのが、かつて情報系、工学系の先生何人かと話をしていたときのことです。私は歴史学が専門なのですが、こういうデータがあったらいいなあとか、データを使ってこんなことができたらいいなあといった、実に漠然としたことを口にしました。すると、「何がしたいか、もっと明確に言えないか」と指摘されたのです。自分たち工学の専門家は、何がしたいかがわかれば、それが実現できるように考えていく、だから、何がしたいかをもっと具体的かつ明快に述べてほしい、というのです。どんな内容をどんな言葉を使って語れば工学の専門家に伝わるのだろうか、考え込んだことを今も覚えています。
先ほどから出ている「対話」のためには、何がしたいかということと、何ができるかということ、この2つを明確にせねばせねばならないと感じました。たとえて言えば、「必要は発明の母」なのか、はたまた「発明は必要の母なのか」、ということです。
データ入力から話が始まる(それもすごく重要なのですが)とのことでしたが、それとともに、デジタル化されたデータによって何ができるのかがもう少し見やすく、例えば先ほど後藤先生が言われた「新たな可能性を開く」という、デジタル化という「発明」の先先が多少なりとも見えないと、研究者はわくわくしない。別にお金をたくさんもらわなくても、わくわく感さえあれば研究者は動く。研究者とは実に奇妙な動物です。「何かがしたい」(=必要は発明の母)と、「何ができるか」(=発明は必要の母)をうまくつなげることが重要だと思います。
本日は、この2つをつなぐためのヒントを幾つか頂いたように思いますが、この「つなぐ」という点についてもう少し教えていただけますでしょうか。
社会科学もそうでしょうが、人文学の研究者の大半は大学に所属していて、自分たちの研究とともに、学生を教えることを通じて次世代を育成しています。我々のようなシニア世代を含めて、デジタル・ヒューマニティへと目を向けることが重要だと思っていますが、そこには研究者によってかなりの落差があります。落差を生んでいるものの一つは、デジタル化によって何ができるようになるのかがうまくイメージできないことにあるように思われるのです。
そこの部分に対話を開いていくにはどうすればいいのでしょうか。先ほど永崎先生は「対話の場として」という言い方をされましたが、対話そのものがどう開かれるのかというところに、ヒントをもう少し頂けますでしょうか。「新たな可能性とは何か」への想像力がどのように喚起されるかという、本当に入り口部分の質問かもしれませんが、どうかよろしくお願いします。

【城山主査】 ありがとうございました。
多分、今、資料を出していただいていますけれども、まさにその間をつなぐという話で、これは北本先生がお話しいただいたことかと思うので、最初は北本先生からレスポンスを頂いて、その後、お名前も挙がっていましたが永崎先生からも逆に何かあれば一言頂ければと思います。
では北本先生、最初よろしくお願いします。

【国立情報学研究所(北本)】 御質問ありがとうございます。
非常に重要な点だと考えています。まず、やりたいことを明らかにしてくれという話は、スライドの1番目に挙げた「人文学者のリサーチクエスチョンをきっかけとして」という、ここのリサーチクエスチョンが何かをはっきりしてくれということだと思います。情報学者というのは、まず何をつくるべきかをはっきりして欲しい、自分たちは詳細を決めることはできるけれども、大枠を決めてもらわないと何もできないという言い方をする人が多くて、それはそれで問題だとは思いますが、そういう言い方をする人が多いのは事実です。
ですので、リサーチクエスチョンをはっきりしてくれということでしょう。それは一つのやり方ですけれども、そうでないやり方もあるということで、逆に情報学者が提案するやり方もあることをお話ししました。ただこれもよくあるのは、人文学者にとってはあまり関心のないシステムを情報学者がつくってしまって、それでは研究が進まないということにもなりかねません。
ですので、この問題に対しては、これさえあればできますというような回答はないんですけれども、ただ、徐々に距離を縮めていくことが大事かなとは思っています。例えばわくわく感という言葉がありましたが、わくわく感のベクトルは違いますけれども、わくわくというところは情報学者も同じです。ですので、何がわくわくするかという、そのわくわくを共有できるようにするところが大事です。例えばくずし字などは、情報系の人もわくわくする面があります。問題によってわくわく感が共有できるものと共有できないものがあるので、そういった問題の見極めも必要だと思います。
あと、可能性が見えるかどうかというところですが、私は情報学者として人文学者と対話するときに、よく、こんなことができますかということを聞かれます。しかしその中には、1日でできる話と10年かかる話とが混在しているのです。ですから、どのくらい時間がかかるかということが全く見えていないことは分かるのですが、それはそれとして、やはり出してもらう必要はあります。これは1日でできるぞ、これは10年かかるということを共有していけば、だんだん人文学者の方も分かってくるところがあると思うんです。ちょっと時間はかかるのですがが、そういった場がつくれれば、だんだん相互理解が進んでいくと思っています。
以上です。

【城山主査】 ありがとうございました。永崎先生、何か補足はございますでしょうか。

【人文情報学研究所(永崎)】 北本先生がおっしゃったことは全くおっしゃるとおりで、情報が共有されてなさ過ぎるというか、特に日本語圏での情報共有が現状非常に弱いんですよね。今どんなことができて、技術的にどんなことができて、データにはどんなものがあって、そのデータを作るのにどれぐらい手間と暇がかかって、どれぐらい手間暇をかけた結果作られたデータはどの範囲の人文学者は納得してくれるのか、ここは非常に大事なのですが。
ですので、くずし字のデータを翻刻するなら、字母までちゃんと翻刻していないデータは使い物にならないという人もいらっしゃれば、活字に翻刻されたものをデータ化されていればそれで十分という人もいらっしゃって、これはあらゆる分野においてそうですけれども、人文の人はそういうデータに対する要求する精度とか観点によって本当にまちまちなんです。そこら辺の感覚は情報学者だけでなくて人文学者同士でも恐らく人ごとに違うので、共有できていないところがあろうかと思うわけです。
そこら辺も含めて、恐らく何かもうちょっと我々は対話をしていかなければいけなくて、しかし、今まででしたら活字で本が出ているからそれを見ておけば読んでおいてくださいで済んでいたことが、ではこういうデータがあるけれども、これをどう使いましょうかという話になったときに、いや、それは使えない、まあ、使える、というのは、多分共有されるべき非常に重要な情報なんですね。またそのデータだけでなく手法もですね。こういうことが分かりますよと。分かってうれしい人もいれば、分かっているのに何にも面白くない人もいるわけです。
その人文の多様性がむしろデータを通じてかなり、今までですと出版物って結局、出版社にお金が何となく入って、出版社が頑張って出したけれども本屋にも並ばずに、図書館で検索すると出るけれども、別にみんな読まないような本が大量に出ていて、これを何とかもうちょっと開いていくという意味でも、データを介して何かしようということが一つの手掛かりになるのかもしれないというところは期待しておりまして。
一方で、そういうことを、じゃあ今度はそれぞれの研究者の方々が関心を持ったときにどうすればいいのか。井野瀬先生の御質問の中にはそういったことも含まれていたと思いますが、そこでもやはり、それぞれの先生の分野に対応する、必要な手法と技術はそれぞれまちまちで、またその先生御自身の御関心ということも、これは一々もし必要であればお伺いして、じゃあ、こんなデータがありますけれどどうでしょうかということを確認していく。そういう対話を一つ一つやっていくことになろうかと思います。
目下のところ、DHをやりたいという人文系の人の多くは、自分で既に関心を持ってわくわくして私のようなところに来る人が多いので、そういう意味ではわくわく感の提供は今のところ、ですから、むしろ北本先生が武鑑のデータを作るために岡山の先生を御訪問されたとかすごくびっくりするわけですが、今のところ私の方はそれぐらいで間に合っていますが。ではこれをもっと広げていくとなった場合は、やはりそのような対話の場をつくっていくといったところも今後必要に、大事になっていくと思いますし、その対話を成り立たせるための情報提供というところは、現在も無料のメールマガジンを毎月出したりとか、いろいろ情報提供には力を入れていますが、これを引き続きもっと大きな規模でやっていくべきだろうと思っておりますし、そこで政策的に何かできるとありがたいと思っております。
以上でございます。

【城山主査】 ありがとうございました。

【井野瀬委員】 ありがとうございました。対話をどうオープンにしていくか、あるいは対話をどう成り立たせるかということを真剣に考えてみたいと思いました。ありがとうございます。

【城山主査】 どうもありがとうございました。
現在、私の認識している限りで田口先生、仲先生、それから白波瀬先生と……。白波瀬先生は大丈夫なのかな。3人いらっしゃるので、恐縮ですが、質問を最初にまとめてしていただいて、それでレスポンスを頂く形にさせていただければと思います。
ということで、田口先生、最初よろしくお願いします。

【田口委員】 田口です。
今の井野瀬先生の御質問とちょっと近い、かなり重なる質問になってしまうかもしれません。どの先生方の御発表も非常に興味深く聞かせていただきまして、大変勉強になりました。
ちょっと気になっているのは、やはりこういうDHであるとか、特にデータ駆動型の人文学研究は人文学研究者にあまり知られていないという現状は否めないと思うんです。やはりかなり知らない方が多い。知らないが故に、要するに何ができるのかが分からないので、先ほど出てきたようなリサーチクエスチョンという部分も提供できないというようなことがある。北本先生の7枚目のスライドに色々な類型が示されていますが、私自身、AIの研究者であるとかロボティクスとか神経科学の研究者と一緒に共同研究をしています。しかし、そういう方々とつながることができたのはもう完全に偶然で、なかなか普通に活動していたら出会う機会はないと思うんです。
そういうわけなので、恐らく人文学者と情報学者がつながる回路というか、つながる機会をどうつくっていくかということが非常に重要になってくると思っています。既に興味を持っている人は自分からコンタクトを求めて行くからいいのですが、そうでないところにかなりいろいろな可能性が眠っていると思うんです。
今、出ている北本先生のスライドでは3番目のところで、人文学者と情報学者がアイデアを議論しながらいろいろ考えていくという、ここが一番クリエイティブでもあり、面白いところだと思うんですが、こういう機会をつくっていくことがなかなか難しい。
それで今、その点でどういう動きが進んでいるのか、それともまだほとんどそういう動きがなかなかないのか。先ほど永崎先生からはいろいろ広報活動にも力を入れていらっしゃるというお話がありましたが、セミナーとかチュートリアルとか、そういうような形で、「一体、AI・機械学習を使うとどんなことができるのか」ということを人文学者が知るような機会はどんな形で確保されているのか、あるいはこれから確保されていくのか、というあたりをお伺いできればと思いました。よろしくお願いいたします。

【城山主査】 ありがとうございました。続いて仲先生、お願いいたします。

【仲委員】 分かりました。私も目の覚めるような成果、本当にすばらしいなと思いました。
お尋ねしたいのは、こうやってデジタルデータを作っていくと、社会的責任が生じてきて、ずっと継続していかなければいけないのではないかという感じがするんですけれども。しかし、情報学の研究者も人文社会の研究者も関心は個人個人変わっていくわけでして、こういった共同研究の継続性はどうやって担保していくのか。あるいは一時のプロジェクトで終わり、ということでよろしいのかというのが一つ。
もう一つは、こうやって共同でデータを作っていくといったときの、例えば論文を発表するときのオーサーシップはどうなるのかと思ったので、お尋ねしました。
以上です。

【城山主査】 ありがとうございました。白波瀬先生、よろしくお願いします。

【白波瀬委員】 もう時間がないのでどうしようかなと思って下げてしまったんですけれども。今日は本当に大変興味深く勉強させていただきました。ありがとうございます。
その一方、お話を伺ってやはり文系という枠組みでは共通する部分があると感じました。横のつながりがあまりうまくいっていないとか、情報共有がうまくできていないとか、タコつぼ化等、これも本当に共通しているなと。何で一緒に頑張っていけないんだろうということを、感じたと同時に、先生方のご専門から人文学者と情報学者との間で違いが見えてくるのも興味深かったと思います。
そこで1点、お時間があればということなんですけれども、ずっと考えていることの一つとして、やはり社会科学なんかでもデータの標準化ということはあります。ただ、やはりオリジナリティー高く、中に突っ込んだということになりますと、逆にばらばらであるという特権というか、標準化されないところで掘り下げることの意味もあると思うんです。ですから、例えば歴史学において伝統的な王道としてテキスト自体を発掘して、テキストを読み込む。これは本当にすばらしい学問としての分野だと私は理解しているんですけれども。その辺りと今回のこのすばらしい可能性を秘めた当分野のバランスについて、もし御見解がありましたらお伺いしたいと思います。ありがとうございました。

【城山主査】 ありがとうございました。以上、出会いの場の話、それから継続性、それからバランスの問題と、いずれも大きな問題で、議論し出すとかなり時間が必要かと思いますが。お三人の先生方で、ここは是非レスポンスしたいというところに絞って一言ずつ頂ければと思いますが、最初、永崎先生、いかがでしょうか。

【人文情報学研究所(永崎)】 まず、田口先生の件につきましては、やはりオープンな議論の場を今後つくっていくことが必要で、ここまでも無料のメールマガジンですとかいろいろな草の根の研究会等はございますので、そういった情報を今後いかに広く共有していけるか、皆さんが関心を持ってくださるようにしていけるかが大切だろうかと思っております。ではそれをどこが担うのかということもやはり考えていくというか、そこは政策的に何とかしていただくとよいのではないかと思うところです。
それから仲先生のお話につきましては、やはり継続的にという意味では欧米の事例が非常に参考になろうかと思いますので、そこはいろいろな意味でまねをしていっていいところなのではないかと思います。また、オーサーシップに関しましては、こういうものはとにかく共同発表が非常に一般的になっておりますので、その共同発表をどう評価していくかというのが今後の課題かと思います。
それから白波瀬先生のお話に関しては、特にオリジナリティーと標準化という葛藤につきましては、まさにちょっと私の方で申し上げたTEIガイドラインという場が、オリジナリティーを残しながら標準化していくという、その葛藤の場としてずっと30年間やってきておりますので、そこでのいろいろな蓄積、議論の蓄積と成果としてのガイドラインが恐らくいろいろな形で今後参考にしていけるのではないかと思っております。
以上です。先生方、それぞれ大変貴重なコメントをありがとうございました。

【城山主査】 ありがとうございました。続いて北本先生、いかがでしょうか。

【国立情報学研究所(北本)】 御質問ありがとうございます。
順々にお答えしていきたいのですけれども、田口先生の御質問で、どういう場をつくっていくかというのは非常に重要だと思っています。私の個人的な体験で申しますと、実は私がDHという分野に関わり始めたのも、あるプロジェクトがあってそこによく分からないまま加わって、という偶然のきっかけでこういった分野に関わるようになったので、偶然性はかなり重要なのかなと思っています。ですから、そういう場に放り込まれることによって、可能性が開けていけばいいなと思いますが、私自身もまだ具体的なアイデアはないので、そういうところをプロジェクトなり何なりでつくっていく必要があるのかなと思っています。
仲先生のおっしゃった継続性ですけれども、もちろんデータを作っていくことを継続することでデータの価値も上がっていくので、継続することは非常に重要です。一方で、義務的になってしまうと関わる人もつらいところがあると思います。そういった時には、データをオープンデータにしておくことが非常に重要です。
例えば古い本が今も残っているのは、結局写本によってコピーされていくことで生き残ったものが、今もあるわけです。コピーされてどこかに残っていることが次の段階の研究につながるということがありますので、もし継続できないのであれば、どなたでも使って継続してくださいというような言い方もできるかなと思っています。
白波瀬先生のご質問については、もちろんいろいろな研究があることは当然だと思います。私が申し上げたかったのは、もしデータを使って何かをやるのであれば、きちんとやりましょうということです。そういった研究ではないのであれば無理にする必要はない。もしやるのであればちゃんとやりましょう、ということがデータ駆動型の一つの方針になるのかなと思っております。
以上です。

【城山主査】 ありがとうございました。浜名先生、いかがでしょうか。

【筑波大学(浜名)】 井野瀬先生にちょっとお伝えしたいんですけれども、先生の分野で、歴史学の方で例えば女性学のデータベースがありまして、今までは全然注目されていなかった様々な歴史的な資料がいっぱい出てきておりますので、先生にもわくわくしていただけるのではないかなと思います。英文学と歴史学と共同で研究できたらいいなと思います。
それから先生たちの質問ですけれども、人文学の人間というのはやはり単著で出したいんですけれども、これからは本当に共同研究の時代だと思います。その時の一つの抜け道というか方法なんですけれども、本日の資料に書いておいたのですけれども、joint first authorsというような書き方もあるようです。
それから、欧米では様々なDHのコースであるとかワークショップが出ているんですけれども、そういうところで非常に最近は敷居が低くなっております。以前はある程度のプログラム能力が必要という感じがあったのですが、エンジニアの先生にお聞きしたところ、今は本当にlow、低いコードですね、ローコードだとかノーコードとかいうことで、コードを全然書くことができなくても取りあえずそのコースであるとかワークショップに入れるようになっておりますので、是非機会があったら参加していただければと思います。

【城山主査】 どうもありがとうございました。
それでは時間も過ぎていますのでこれで終わりにしたいと思いますけれども、一言だけ感想を述べさせていただくと、前回、既存事業として学術知共創プロジェクトとデータ基盤の構築の話をさせていただいて、この2つは別物という形である意味で議論していたと思うのですが、今日のお話を伺っていると、データ駆動型研究のある側面というのは、データなり分析手法を一つのインターフェースにして、いろいろな分野の人と連携して新しいことをやるということだったのかなと思います。
そういう意味で言うと、社会課題を共有して連携するという学術知共創プロジェクトのパターンと同時に、方法なりデータを共有して連携するという話があって、ある意味ではそれらの共通の側面もあるのかなということを感じられたのも一つの重要なポイントだったような気がいたしております。
次回は今日の議論をベースに、次にこれをどういうふうに展開できるかということを含めて御議論いただくような機会を設定させていただければと思っております。
ということで、最後に事務局から連絡事項がございましたらお願いできればと思います。よろしくお願いします。

【二瓶学術企画室室長補佐】 本日は長時間の御議論、ありがとうございました。
次回の人文学・社会科学特別委員会は7月下旬以降を予定しております。日程につきましては事務局より追って御連絡いたします。よろしくお願いいたします。
また、本日の議事録案につきましては後日メールにてお送りいたしますので、御確認をお願いいたします。
以上でございます。

【城山主査】 それではこれで閉会させていただければと思います。どうもお忙しいところ、ありがとうございました。
 

お問合せ先

研究振興局振興企画課学術企画室

(研究振興局振興企画課学術企画室)