第9期学術情報委員会(第12回) 議事録

1.日時

平成30年9月18日(火曜日)15時30分~17時30分

2.場所

文部科学省3F1特別会議室

3.議題

  1. 電子化の進展を踏まえた学術情報流通基盤の整備と大学図書館機能の強化等について
  2. その他

4.出席者

委員

喜連川主査、引原主査代理、安藤委員、家委員、逸村委員、井上委員、北森委員、竹内委員、辻委員、美馬委員

文部科学省

(事務局)磯谷研究振興局長、千原大臣官房審議官(研究振興局担当)
原参事官(情報担当)、丸山学術基盤整備室長、高橋学術基盤整備室参事官補佐

オブザーバー

安達国立情報学研究所副所長、林科学技術・学術政策研究所上席研究官、小賀坂科学技術振興機構知識基盤情報部長

5.議事録

【喜連川主査】  ちょうど時間となりましたので、ただいまから第12回の学術情報委員会を開催したいと思います。
 前回は、研究データ利用活用のためのインフラ整備に関しまして、JST(科学技術振興機構)とNII(国立情報学研究所)の取り組み状況を御紹介いただいた次第です。
 今回は、研究分野ごとのオープンサイエンスの取組状況を把握するべく、ライフサイエンス分野並びに人文学分野の状況を御紹介いただき、その後、意見交換を行いたいと考えております。ライフサイエンス分野に関しましては、理化学研究所の小安先生、人文学分野に関しましては、国立歴史民俗博物館の後藤先生に御出席いただいております。どうぞよろしくお願いいたします。
 また、オブザーバーとして、国立情報学研究所の安達教授、科学技術・学術政策研究所の林上席研究官、そして、科学技術振興機構の小賀坂知識基盤情報部長に出席頂いております。
 それでは、まず事務局より配付資料の確認等をお願いいたします。
【高橋参事官補佐】  それでは、配付資料の確認等を行いたいと思います。議事次第に記載しているとおり、配付資料については、資料1から4までを御用意しております。不備がありましたら、事務局の方までお申し付けいただければと存じます。
 それから、本日の傍聴に関しましては、関係法人、大学関係、企業関係、マスコミ関係など、19名の方の登録がございます。傍聴の方々におかれましては、お持ちの端末に資料のダウンロードをお願いいたします。ダウンロード方法については、お手元のクイックガイドを御確認ください。
 それから、配付資料1については、前回の委員会における主な意見を整理しております。本日内容の説明は省略させていただきます。
 以上です。
【喜連川主査】  どうもありがとうございます。それでは、早速審議に入りたいと思います。最初に、ライフサイエンス分野の状況に関しまして、理化学研究所の小安先生に説明頂きたいと思います。どうぞよろしくお願いいたします。
【小安理化学研究所理事】  理化学研究所の小安でございます。どうぞよろしくお願いいたします。
 私からは、「ライフサイエンス研究におけるオープンサイエンスの推進」という題目で話題提供させていただき、議論の題材にしていただければと思います。
 現在、ライフサイエンス分野でも非常に大きなデータがたくさん蓄積されており、それをいかに統合・統一化してオープンサイエンスを推進するかということに関していろいろと議論されています。今日は、国際的な取組を幾つか紹介し、更に、現在日本のライフサイエンスにおけるデータ統合の取組、そして最後に、オープンサイエンスのための基盤構築でどのような問題があるかということに関して紹介したいと思います。
 最初に紹介するのはHuman Cell Atlasというプロジェクトです。私どもの体の中には大体37兆個の細胞があります。それぞれの細胞が、個々に、少しずつ異なる遺伝子の発現パターンを持って、それぞれの細胞の特徴、例えば神経系の細胞であったり、免疫系の細胞であったり、あるいは肝臓の細胞であったりします。もともとは、皆さん御存じのように、受精卵から出発しますが、いろいろな遺伝子の発現パターンの違いによって異なる機能を持つことになります。その全体像をつかむためには、一細胞レベルでの遺伝子の発現パターンをきちんと理解して、それを統合的に理解して、そこからどのように特定の細胞がずれていくと疾患になるかというようなことが将来的な非常に大きな課題になっており、現在、国際的に、全細胞のカタログ化しようという動きになっています。
 国際的なミーティングを重ねて、現在では、米国ではNIH(アメリカ国立衛生研究所)がおよそ2年間で200億円の予算を投じており、また欧州でもパイロットスタディーが進められております。アジアでは日本にも参加が求められているプロジェクトが進んでいます。
 こういうような取組は、研究者個人で全て行うことは不可能であり、1つの機関でもなかなか難しい、したがって、世界的に分担して進めていく流れになっています。結果、いろいろな機関で取得したデータを集約し、コンソーシアムの全員がデータを見られるような場の構築について議論されてきました。それぞれが、目的に応じて自由にデータを利用して成果を出していく。そして、ある一定期間を経たデータに関しては、全てオープンにし、コンソーシアム外の人にも自由に使っていただき、ただし、その結果はフィードバックしていただくというような形でプロジェクトを進めることで一応合意されています。
 一方で、それを進めるために必要な予算がまだ確保されていないという側面もあります。しかし、このようなやり方は実は今までも行っており、ヒトゲノム解析に続くヒトの様々な遺伝子発現パターンの解析は、理化学研究所でも取り組んでおりました。FANTOMというプロジェクトで、全世界で100以上の研究グループが参加してきました。統一的なデータベースで、誰もがそこにアクセスして自由にデータを拾うことができる。ただし、論文を発表するまでの期間は、幾つかの限定された研究室の中だけでの共有とするけれども、最初の一報目の論文が発表されれば、その後は全て公開することになります。それを使って自由に誰もが論文を書くことができる、そういうようなシステムとなっています。同じようなことが、ここでも進むことを期待されているところです。
 A、G、T、Cという名前が並んでいるゲノムと呼んでいる我々の設計図に基づき、受精卵から出発してなぜいろいろな細胞となるのか。それぞれの細胞で2万個ある遺伝子の発現の組合せが全て違っているので、最終的に異なった形態が出てくる。組合せを決める1つの大きな要因が、エピゲノムと呼ばれる仕組みです。これはたとえ同じ遺伝子の配列を持っていても、修飾が入ることによって、この遺伝子は発現がオンになるけど、これはオフになる。しかし、別の細胞ではこちらがオンになってこちらがオフになる。これは設計図には書かれていません。したがって、個々の細胞でその状態がどうなっているかを見ないと全体像をつかむことができないということで、ゲノム解析に続き、現在、エピゲノム解析も非常に進んでいます。世界的なコンソーシアムとしてIHECが形成されており、欧州ではBLUEPRINT project、NIHではRoadmap Epigenomics Project、それから、今年に入って更にその次のステージとして、4D Nucleome Programが始まっています。データをシェアすることによって理解を進めるという動きが中心になっている中、日本ではAMED-CRESTにおいてエピゲノム研究が進められてきていましたが、平成30年度で終了することになっており、この先のことはまだ決まっていない状況です。
 もう一つ紹介させていただきますのは、常在菌のメタゲノムです。最近、腸内細菌のことがニュースで話題になるので、お話は聞かれているかと思いますが、たとえ一卵性双生児で同じゲノムの設計図を持っていたとしても、おなかにいる腸内細菌が異なる場合には、やはり違った表現型として表れるということが知られています。
 非常に有名なスタディーで、一卵性双生児の片方が普通の体型なのに、片方が非常に太っている。両者の腸内細菌を持ってきて、もともと全く腸内細菌のいないネズミに入れると、太った一卵性双生児からとってきた腸内細菌を入れたマウスはぶくぶくと太ったというようなことがあった。つまり、我々のおなかの中にいる腸内細菌というのは我々の活動に非常に大きな影響を与えているということです。
 したがって、それを網羅的に解析することが必要であるという認識が、10年以上前に、持ち上がりました。ここでも国際的なコンソーシアムが形成され、欧州ではMeTaHITというプログラム、米国ではHuman Microbiome Projectが立ち上がり、非常に大きなデータベースが作られています。残念ながら日本ではちょっと遅れて、現在、AMED-CRESTのプログラムで進められています。最近では、人種差が非常に大きくて、日本人の腸内細菌叢というのは欧米人と非常に違っているということが明らかになってきました。日本人のきちんとしたデータベースを作らないと、欧米のデータを持ってきても、それを解釈ができないという事実に直面しています。したがって、統合的に日本人のデータをシェアすることによって非常に有益な情報を得られることが期待でき、データシェアリングということが非常に大きな課題になっております。
 これは若干違った例になりますが、最後に、脳科学研究について紹介します。脳科学研究もいろいろな他分野にわたる研究が必要であり、現在、欧州のHuman Brain Project、それから、米国のBrain Initiative、そして、日本の革新脳という3つのプロジェクトで、比較的、分担して、お互いに少しずつ違ったアプローチにより、様々な重要なことを解析していこうとしています。最終的には、我々の脳の中でどのように信号処理、情報処理がされていて、我々の生命活動が行われているかということを知りたいと考えています。ここでは、それぞれ得意分野を中心に取り組むという分業体制ができており、例えばブレインアトラス、あるいはブレインコネクトームというような、神経系がどういう形で1兆個ぐらいのものがつながっているかについての情報を公開するなど、皆が情報を使えるようにしようという動きになってきています。最近では、先ほどのHuman Cell Atlasと同様、それぞれの神経細胞の中の遺伝子発現パターンを知る必要があるという議論にもつながってきており、1つの研究室、あるいは1つの機関が持っているデータでは全体像を知ることが不可能だということが認識され、いかにして国際的な協力体制を作るかということが議論されています。
 海外のデータ共有化の動向については、いろんな形で、プログラムが動いています。例えば米国のNIHでは、Big Data to Knowledgeというようなプログラムが進められており、現在では第2フェーズに入っています。
 ヒトゲノムに関しては、Global Alliance for Genomics and Healthというプログラムが走っております。最近では、多くの場合、最初の大きな論文で成果を公表するまでは限定された範囲でのデータ共有とし、公表されたときには全ての人に公開するという形式ですけれども、ある程度、結果情報の公開範囲を限定することで、誰でも最初からアプライできるような、そのデータを使えるようにする仕組みができないかというようなことも現在模索されています。データシェアリングに関しては、ヨーロッパでも同じようなプロジェクトが進められています。
 我が国では、2006年、12年前に、内閣府の指導の下で、各省庁ばらばらだったデータを統合する、いわゆる統合データベースという取り組みが始まったことは御存じと思われますが、省庁連携によるオールジャパンの協力体制を構築するということで、統合データベースタスクフォースの報告書が発表されました。その中で、JSTで新たな組織、バイオサイエンスデータベースセンター(NBDC)を設置、ライフサイエンスのデータベースを統合していく中心となる場として、現在も動いているところであります。
 NBDCに関する今後の課題として、今年の3月にJSTからバイオサイエンスデータベースセンター運営委員会からの提言が発表されています。重要なことは、今後5年をめどに、このNBDCの活動を拡大・強化して取り組まなければいけないということです。その中でも、特に、公開済みデータだけを対象とするのではなくて、未公開データまで拡大する必要があるかについて検討する必要があります。論文として発表するに至らないとされているデータにも、別の角度から見れば非常に重要なものもあるかもしれない。さらに、過去に失敗された実験については公開されてないけれども、公開されていれば、同じ失敗をする人が減るということで、非常に多くの人がベネフィットを得られることになる。このようなことをどうやって進めていくべきかという議論があります。
 加えて、これまでデータベースは、作る側の視点が強かった状況があります。例えばデータベースを作るのが得意な人があるシステムを組み、別の人も同じようなことでシステムを組んでしまっており、これらをどのように統合するのかが課題となるということになっていました。本来であれば、利用者の視点からどういうデータベースであるかということをきちんと検討しなくてはならないということも議論されるようになってきています。
そして、更に、データベースがデータベースとしてあることに価値があるのではなくて、データベースを活用してそこから新しい知識を生み出す、あるいは、新しい利用法を生み出すことに、そもそも目的があるのであり、新たな知識、イノベーション、新たな価値が生まれる、そういうものを作っていくことが必要であるというようなことがライフサイエンス分野でもいろいろと議論されているところであります。また、今後、データ整備・統合がサステナブルでなければ、データベースは継続されないだろう、恒久的な財政措置がなければ維持することができないだろうと懸念されています。
 それから、特にライフサイエンス分野では、バイオインフォマティクス人材、ライフサイエンス分野における情報系の人材をどのように育成していくか、キャリアパスについても、以前から課題です。ライフサイエンス分野の研究者がバイオインフォマティクスに関わる研究に取り組むことを、情報系の研究者がどのように認識いただけるかも非常に大きな問題ではないかと思います。
 さらに、データベースを作ったときには、求心力が必要であり、使えるデータベース、皆さんに使ってもらえるデータベース、そこから新しい知が生まれるデータベースであるということをきちんと発信していくことが非常に重要となると言われております。
 それをまとめたものが、昨年のライフサイエンス委員会の資料にもなっています。
 オープンデータサイエンス基盤の政策的な位置付けは、第5期の科学技術基本計画並びに統合イノベーション戦略にも書かれております。
 実際にこれまでもいろいろ例はあり、有名な山中先生のiPS細胞を例とさせていただきますと、データベースがあり、研究者間で情報が共有されることで、仮説を立てて実験をして、山中先生の場合には、体細胞とES細胞を比較して、その差がどこにあるかということを、理化学研究所が作っていたデータベースの中から20個ほどの遺伝子を候補としてその組合せが調べられました。そこから、遺伝子の組合せが特定され最終的にはiPS細胞の発見に繋がっており、データベースが活用された結果です。
 今後は、やはり未公開データなども加えたデータを対象に、将来的には自動化、AIのようなものにより意味あるデータを抽出するようなことになるかと思います。データドリブンサイエンスと称するかはわかりませんが、データに基づいた新たな仮説が立てられ、それを実験によって確認、証明していく。恐らく、ロボット化も取り入れ、取り組むことになるのではと想像します。
 基盤の構築という意味では、データベースが安全、セキュアであり、かつ、誰もが自由に使えるような基盤が必要であり、加えて、データが出す側と使う側、そして情報科学の研究者、みんなが参画して作っていくことがオープンサイエンスとしては必要となると考えています。
 最後に理化学研究所の取組を紹介します。理化学研究所は、物理から医科学まで、ありとあらゆる自然科学の分野を対象としていますが、統合して研究を推進したいという思いがあり、今年度より情報分野を担当する理事のもとで、理化学研究所全体を一括して横串を刺すような取組を考えています。例えば、ある特定のキーワードにより、分野を問わず一括して情報が得られることを目指しています。論文を発表するときにも、データが機関リポジトリみたいなところに整理し格納することで、外部からでもその情報にアクセスして見ていただけるようにする。そのような取り組みを進めることにより、我々もオープンサイエンスに貢献していこうと動き始めているところです。
 異分野の研究が発展した事例を紹介させていただきます。もともと恒星間の重力相互作用のシミュレーションをするための研究が、全く異なる創薬の分野で発展しています。重力の多体問題のシミュレーションのために作ったGRAPE計算機が発展し、たんぱく質の立体構造の解析、分子の動態、モレキュラーダイナミクスの解析に用いられ、現在では創薬の現場で非常に欠かせない計算機になってきています。特定の分子とたんぱく質の相互作用を原子間の相互作用まで解析することで、創薬、薬のデザインに用いられています。現在、理化学研究所ではMDGRAPE-4を開発しており、アメリカではアントンという計算機があります。これらは完全にモレキュラーダイナミクスに特化した計算機であり、様々な製薬会社が分子間の相互作用を計算するために用いています。、このような発展は今後も様々な分野、形で起こることになると思います。
 最後のスライドです。理化学研究所としては、様々な研究分野からのデータを集約し、方法についての課題はあるとは思われますが、いろいろな方法、形式で読み出し、我々自身のみでは取り組めない処理については、コンピューターの力を借り、立てられた仮説を更に検証し、イノベーションにつなげる。そのようなデータの基盤を構築していこうと考えているところです。
 以上、お時間を頂きまして、ありがとうございました。
【喜連川主査】  ありがとうございました。ここで少し議論したいと思います。 ライフ分野に関しまして小安先生に広範囲にわたって説明頂きましたので、小安先生に是非御質問をお願いします。
【逸村委員】  小安先生、お話ありがとうございました。この委員会でも毎回のように出る話なんですけれども、スライドの11枚目でバイオインフォマティクス人材の育成とキャリアパス設計という話が出ました。今、何かグッドプラクティスのような、人材育成とキャリアパスに関して、何か具体的な事例、あるいはお考えがありましたら、是非お話しいただければと思います。
【小安理化学研究所理事】  私の個人的な意見となりますが、やはり解きたい問題、課題がある研究者が飛び込んでいかないとなかなか先に進まないというイメージを持っています。したがって、ライフサイエンス分野でも、自分が解きたい問題を解くためにどうしても情報学が必要となることで、深く学び、分野の理解を深めるというのがこれまでの私の経験です。したがって、バイオインフォマティクス人材を作るということではなく、興味を持たせることと、オン・ザ・ジョブ・トレーニングが重要となると思っています。
 加えて、医学部に進学し医師免許を取得したけれども、もともと数学がとても得意という人材が結構いて、非常に大きな患者さんのデータを処理、活用して、新たなマーカーを探し当てるということに、非常に関心を抱き、積極的です。理化学研究所にも、そのような人材が私の近くでも2名います。解きたい問題がある研究者をどのように誘導していくかが大事となろうと個人的には考えています。
【逸村委員】  うちの大学でも、同じような話があります。うまくそういう人材を活用できる、それなりに評価して雇用できるようなシステムがあればいいのかなという話はでます。まさにキャリアパスの問題になるわけですけれども。
【小安理化学研究所理事】  今お話しした医師免許を持っている2人は、現在、理化学研究所でPIとして活動しています。その結果、彼らの所にはさらに医学部から学生が来ています。そういう事例を見せることで、興味を持っている医学部の学生が集めること方法もあると思います。
【逸村委員】  ありがとうございました。
【喜連川主査】  そういう本質的に興味がある人というのは重要で、おっしゃるとおりなんですが、海外の動きにかかる御説明の中で、データベースの取組について紹介いただいたんですが、その中に、いわゆるコンピューター系の人材がどう関係しているかという、その形がすごく重要じゃないかと思うんですね。末松先生より、イギリスは特にMDの研究所の中にPhDが山のように入っているが、日本はほとんどいないと伺っています。現状、グローバルに比較したときに、日本の立ち位置がどうなっているのでしょうか。
【小安理化学研究所理事】  少なくとも医学部に関して言うならば日本は遅れていると思います。アメリカであれば、疫学は大きなデパートメントが医学部にあり、情報系の研究者がたくさんいて、いろんな相談に乗ってくれます。しかも、医学部の中にいるため、いろいろな課題も理解しており、認識が共有でき会話が成立するというのが非常に有益であるというのが自分自身の経験で感じました。
 そのような観点から、日本の場合は、いわゆる生物統計とか疫学といった分野がやっぱりまだまだ弱く、大学という構造の中で強化していくことが必要なことと思います。そのような要望は現在非常に多くなってきているのでないでしょうか。実際に、コンピューターサイエンス分野の人材がどの程度直接入ってきたかについてはわからないです。
【喜連川主査】  これから日本を強くするためには、その手の基礎的な数字を、少しみんなで努力しながら。つまり、日本では医学系が情報系を牽引しないのか、牽引をしているが、人材がたくさん出せないという問題があるのか、両方ともあるのかもしれないんですけれども、その辺の印象はいかがでしょうか。
【小安理化学研究所理事】  最初は、それほど多くの人材がいないため、我々の分野にまで広がっていないと感じていたのですが、最近は、先ほど申し上げたような例もあり変化しているという印象は持っています。まだまだ、不足であり、さらに広げる必要があると考えています。
【喜連川主査】  理化学研究所はやっぱり日本のトップなので、まだそのような事例があるのだと思うんですけれども、もっとそれを一般化させていこうと思いますと、数を増やさないといけない。ところが、日本が生み出す情報系のPhDの数というのは極度に少ないのが実情です。皆さん、御意見ありますでしょうか。この分野は産業にも結び付きますし、大きなパワーになると思うんですけれども、辻さん、いかがでしょうか。
【辻委員】  小安先生、どうもありがとうございました。オープンデータ、オープンサイエンスを考えていくときに、特に医療の分野ですと、脳科学の事例でも御説明いただきましように、研究分野を分担してやっていくといったところがあるので、余計オープンデータ、オープンサイエンスに対する欲求自体が高いのかなと思われます。一方で、創薬などの分野では非常に厳しい競争環境にもあるというふうにお伺いしております。例えば、そういった競争分野と協調分野と両方ある中でオープンサイエンスを推進していくという場合、競争分野でも協調できるようなところを醸成していくのか、それとも、競争と協調はやっぱり分けるところは分けて、ここは競争、こっちは協調でいきましょうというような形で進められているのか、そのあたりをお伺いできたらと思います。
【小安理化学研究所理事】  恐らく、一定の境界線を設定していると思います。あるところまでは完全に協調でいき、特有の事項になったら、そこからは競争となる。創薬については、例えばたんぱく質の構造に関する膨大な情報がデータベースにあります。創薬のターゲットとなる特定のたんぱく質の構造を解くところまでは、完全に協調の範囲で、その先、ある会社がそのたんぱく質に作用する特定の化合物を対象とした場合、競争となると思います。ただし、その前段階、化合物のライブラリーからのスクリーニング結果をどう活用するかなどの扱いについては検討が必要となると考えています。
 我々のような公的な機関は、例えばたんぱく質の構造の詳細なデータを供給、あるいは、更にそこからいろいろな計算をするための先ほどのモレキュラーダイナミクスのコンピューターを開発して、利用していただき、その先、あるところからは、それぞれの企業が開発を続けていただくというようなモデルがありえると考えています。
【辻委員】  そうしますと、かなり研究のベースによっても変わるだろうと、そういうような理解でよろしいでしょうか。
【小安理化学研究所理事】  全ての分野ということではなく、創薬については恐らくと考えています。
【辻委員】  どうもありがとうございました。
【喜連川主査】  北森先生。
【北森委員】  ありがとうございました。非常に分かりやすく、参考になりました。お話しいただいた中で、スライドの5枚目と6枚目にエピジェネティクスとメタゲノムの国際動向という図があったかと思いますが、あの中で、欧州のBLUEPRINT、例えばエピジェネティクスだと、こちらだとMeTaHITですかね。それとあとはHMPと。この欧州と米国の2つのプロジェクトと、それからCRESTでされている研究プロジェクトの特性なんですけれども、CRESTは本当に研究で、新しい装置を作ったり、あるいは何か解明したりというところに力点が置かれていて、MeTaHITやHMP、あるいは先ほどのBLUEPRINTだとか、Roadmapですね、ああいったところは、データ構築だとかシステムの構築も入っているような印象があるんですが、純然たる研究とデータを構築していく上の予算措置とはちょっと違うような気がするんですけれども、いかがでしょうか。
【小安理化学研究所理事】  ありがとうございます。非常に重要なポイントだと思っています。日本の場合,出発点が、特定の疾患と腸内細菌の偏りが関係があるというようなデータが出てきた中、より深く疾患と腸内細菌との関係を調べる研究です。その際、健常人のデータベースをきちんと構築することが必須であり、実際には欧州や米国では、最初の取り組みとして行われ、次のステップとして、疾患を対象にしている。しかも、健常人についてのデータは、食品会社にとって非常に重要です。しかし、日本の場合には、健常人を対象とする取り組みには消極的であり、興味を持たないというところがあって、進んでいません。
 ただ、先ほど申し上げましたように、、やってきてだんだん分かってきたことは、日本人の腸内細菌のパターンというのは欧米人と非常に違うということが分かったので、疾患と関係するかもしれないというような細菌叢が出てきても、それを欧米のデータと比較しても恐らく意味がない。ということから、やっぱり日本人のデータベースを作ることがすごく大事だということは、いろいろ今議論に上がるようになってきました。
 したがって、研究だけで入っていった場合と、ベースとなるデータベースを作ろうというのは、これは明らかに違ったフェーズのものなんですけれども、それが協調して動いている場合と片方だけしか動いていないような場合が、実際見ているとあるということが分かってきました。
【北森委員】  そうすると、ここの委員会では、例えばデータサイエンス、インフラをどうするかというようなことを議論しているわけですが、そうすると、CRESTのようなピュアな研究とは違う予算措置をしないとそういう枠組みはなかなか作れないということでしょうか。
【小安理化学研究所理事】  多分そうだと思います。それで、実際今、日本の中でどういう動きがあるかというと、今度は、企業体も入ったようなコンソーシアムの中でそういうことをやっていかなきゃいけないんじゃないかと。官民協調してそういう方向の研究が進められないかという議論が、今、例えばポストSIPとか、ポストImPACTのような中で議論が持ち上がっています。そこには、先ほどちょっと申し上げましたけど、食品関係の会社というのはそういうことに非常に興味を持っていますので、別に疾患でなくても、健常人のフラクチュエーションがどのぐらいなのかということを知りたいという、そういう非常に強い要望があり、非常に興味を持たれていて、うまく官民合わせてそういったデータベースが作れないのかという、議論は、今、かなり深くされていると聞いております。
【喜連川主査】  家先生。
【家委員】  ありがとうございます。ヒト関連のゲノム情報というのはある意味究極の個人情報だと思うんですけれども、オープンデータにするときに、匿名化のプロセスは誰が責任を持ってやっているんですか。
【小安理化学研究所理事】  全く決まっていないというのが私の今の理解です。研究者のコミュニティでは、国に働きかけ、今の個人情報保護法が、日本の科学を発展させるために適切か、という議論がされていると思います。特に、ゲノム情報は、配列そのものが究極の個人情報なので、匿名化ということが本当にできるのか、データと表現型を切り離したら何も使い道が全くなくなってしまうということが課題です。どこまで配列を保護するのかについてきちんと議論し、国民にどのように還元できるかという視点で考えていただくことが必要ではないか、というのが私たちの考えになります。
【喜連川主査】  暗号空間で全部やるというのが1つの流れですよね。しかし、準同型だととても遅いので、それをどうするかというのが、今、一番大きなリサーチのターゲットになっていると思うんですが、ちょっと議論が元に戻るかもしれないんですが、先ほどの議論の中で常在菌の話があったわけですが、研究の手前のデータも重要だけど、研究から出てきたデータそのものを例えばNIHの中で維持しようと思ったとき、一体どういう予算立てをしているかといいますか、その辺を日本はまじめに考えていかないといけないんじゃないかなと思うんですけれども、何かヒントになるようなことがあったら教えていただけると有り難いです。
【小安理化学研究所理事】  一般的にデータベースを作る際に懸念されるのが継続性です。バイオリソースについて議論されたことですが、5年ごとの短期プロジェクトが何回も続くような仕組みであったため恒久性が問われることとなり、途中から変更されました。
 データベースについては対象にかかわらず、ある時点から議論に参加することが継続性に必要です。
【喜連川主査】  それは現状、海外はそこをしっかりとやっていて、日本はやれていないのかとか、海外も厳しい状況なのか、その辺の感覚はいかがでしょうか。
【小安理化学研究所理事】  全ての状況を把握しているわけではありませんが、例えば米国NIHでは、すべてのデータを維持するNLM(ナショナル・ライブラリ・オブ・メディスン)のもとで、NCBI(ナショナル・センター・オブ・バイオテクノロジー・インフォメーション)により、PubMedとして論文データに加え、ゲノムの情報、たんぱくの情報、トランスクリプトの情報など全てのデータを公開しています。参考になる取り組みではないかと思います。
【喜連川主査】  それは資金配分機関がある予算を持っており、その予算の中の一定部分を、データのシステムを維持するために作るとして、経費として計上するわけですね。一方で、各研究所もたくさんあると。そこを余り冗長にするのは無駄ではないかと思うんですが、どんな感じでしょうか。
【小安理化学研究所理事】  我々としてはNBDCに期待したい。機関として、論文発表したデータに関しては、リポジトリのような形で外部に公表していく一方で、一般的な汎用性のあるデータに関しては、NBDCに統合、あるいは接続するということが必要となるのではないかと考えています。
 規模が拡大されることに対しての予算措置の必要性については、まだ議論の対象とはなっていないのが現状です。
【喜連川主査】  日本の場合、NIHにあたるAMED(日本医療研究開発機構)ではなくて、過去の経緯からJSTが取り組むのがよかろうと思いますが、小賀坂さん、何か御発言ございますでしょうか。現状では1分野について言及していますが、全分野が同じ動きになってくるときに、JSTとしてどのように取り組むと考えていますか。御発言はJSTを代表してではないと思いますが。
【小賀坂科学技術振興機構知識基盤情報部長】  先生方の御発言をなぞるようで恐縮ですけれども、NBDCもそうですが、国の事業のうちの情報に関わる取組のうちのある部分は、プロジェクト型ではありません。これは言い方は正確ではないかもしれませんが、持続することを前提として毎年予算を頂いているデータベースがあるという理解をしておりまして、そういうスタイルに移していくと申しますか、そういうスタイルでデータベースを立ち上げると。プロジェクトで期間限定型の立ち上げというのは持続性に限界があるので、そういうスタイルが好ましいというのは御指摘のとおりかと思います。
【喜連川主査】  北森先生。
【北森委員】  今の点について、国立研究所だとか、あるいは、JST、資金配分機関、それ以外のステークホルダーとしては大学と学会があります。例えば我々東京大学の場合には、東大のデータの機関リポジトリという形で整備しようというのは、総長主導でやっている。幸い、学会はお金がありませんので、まだそれに着手していない。資金配分機関の方も、例えばJ-STAGEのようなものを中心にして何かデータのプラットフォームを作ろうと。大学は大学でやろうとしている。今度は、国立研究所は国立研究所で、NIIにしても、理化学研究所にしても何かデータベースを作る。
 これらを早いうちに統合したプラットフォームにするか、あるいは、それぞれのステークホルダーが協調して何かを構築していくということをしないと、ばらばらのものができて、我々、現場の研究者としては、どこに入れたらいいか分からなくなります。
【小安理化学研究所理事】  ライフサイエンス委員会でも議論されましたが、作る側ではなくて使う側の立場に立つことは重要と思います。喜連川先生の情報学研究所が中核となって推進していただくことが最適とお願いしたいです。小規模な個別のデータベースが数多く構築され、規模が大きくなってしまってからどのようにするかを検討するというのでは良くないと思われます。
【引原主査代理】  1つお聞きしたいんですけれども、16ページでオープンサイエンスの取組の例をお示しいただいたと思います。これはまだこれからということでしょうか。それとも予算化されたということでしょうか。
【小安理化学研究所理事】  理化学研究所では情報分野が弱いという反省があり、強化することが必要と、今年度から京大にいらっしゃった美濃先生に理事になっていただき、情報をどのように皆が利用できるようにするシステムについて議論し、基本原則を定め、工程表を作る段階です。
【引原主査代理】  2か月ぐらい前に美濃先生とちょっと議論したことがあるんですが、今の段階では、先ほど北森先生がおっしゃったような、外のシステムとの関係というのも情報交換しながらやるというのが一番早いと思うんですけれども、その辺の意識は持っていらっしゃるんですか。
【小安理化学研究所理事】  喜連川先生にもいろいろとお願いさせていただいていると思います。
【引原主査代理】  分かりました。ありがとうございます。
【喜連川主査】  そういうまさに北森先生がおっしゃったような動きが重要であるということを多分この委員会として発出していくべきことなんじゃないかなと思います。そういう意味で、小安先生をはじめ、いろんな分野でいろいろ検討している中で、どこを共通項として出し得るのかというところです。 前回、私は諸般の事情で欠席でしたが、NIIから報告した研究データ基盤は、ある意味でいうと、もう1枚レイヤーが低い層です。その上にライフサイエンスが乗ろうが、天文が乗ろうが、誰が乗ろうが、根本は、これがなくては困る、というところから段階的にレイヤーを上げていくというのが自然なんじゃないのかなという考えもあろうかと思って、今回いろいろな先生方に御意見を伺っている次第です。
【小賀坂科学技術振興機構知識基盤情報部長】  お金をどう配分するかという点で、海外で見聞きした事例を報告いたしますと、各国の資金配分機関は、研究に資金配分するのと同様に、インフラストラクチャーに資金配分をする枠組みを持っております。例えばDFG(ドイツ研究振興協会)などは、図書館関係者に対して、学術情報の流通に関わる取組を支援するという資金を持っておりますが、研究経費とインフラ整備のための経費が同じ配分機関に同居しておりますと、その間、どれぐらいの配分にするかという議論が起こります。
 その点で、カナダの配分機関から自国のシステムはいいのだという話で聞きましたのは、あそこは、インフラに投資をする配分機関が独立をしておりまして、研究経費を支援するところとは独立性を保っているそうです。ですから、予算元は1つですけれども、お金の流れが上流で分岐して、こちらはインフラに配分するという機能が独立している。1つの在り方としては、うまく回り得る仕組みなのではないかと思いました。
 以上です。
【喜連川主査】  JSTとして何か関与はありますか。
【小賀坂科学技術振興機構知識基盤情報部長】  ございません。
【喜連川主査】 それでは、またこの議論に立ち戻る時間があろうかと思うんですけれども、とりあえず小安先生、御発表、誠にありがとうございました。(拍手)
 引き続きまして、国立歴史民俗博物館の後藤先生から御発表をお願いいたします。
【後藤国立民俗博物館准教授】  国立歴史民俗博物館の後藤と申します。どうぞよろしくお願い申し上げます。
 先ほどの小安先生のお話からいたしますと、人文学の方は、恥ずかしいなと思いながら、話す現状です。
 まず、私の所属しております国立歴史民俗博物館といいますのは、主に歴史学を研究する研究所でございます。大学共同利用機関法人として位置付けられておりまして、研究所に博物館が付いているという構造になってございます。
 また、人間文化研究機構というのは、国立歴史民俗博物館を含む人文学分野の研究所、6つの機関を集めた組織ということになっております。
 まず、私が今日お話をするのは、主に人文学の方でございます。人文社会というふうに大きくくくられますけれども、特に人文学でございます。例えば文学を研究する日本文学、また、私の日本史学、歴史学や、言語学、人文地理学、それから文化人類学、もしくは人間の関係する心理学、そういった分野が主に対象となるということでございます。
 いわゆる自然科学、情報系の先生方とお話をさせていただいておりますと、人文学の研究者は、資料を何となく、エッセイ的に論文等を作っているというふうな話もあろうかと思いますけれども、基本的にはそのようなことはございません。
 基本的には書籍、論文等を先行研究といたしまして、資料類、それからフィールドワーク等を材料にした研究ということになります。それによって資料の検討による中間生成物を生成して、最終的に資料集・データ集、学術論文へつなぐという、基本的な流れというのは必ずございます。
 その中で、今この資料の中に〇とか△とか×とかを付けておりますけれども、基本的に非デジタルである限り、書籍は当然として、資料類、例えば古文書・古典籍といったようなものも、研究論文を書いたときには必ず再度参照できるようになっております。
 なので、基本的にもととなったデータについては必ずアクセスできるように作られているというのが人文学の資料アクセスの原則です。資料とか古文書といったようなものはなかなかアクセスしにくいというのは事実ではあるんですけれども、研究者の中では、このような学術論文、資料集・データ集といったようなものについては、必ずアクセスができるような形で作っております。
 なので、基本的にはここで〇と書いてありますが、よほどの例外がない限りは、これらのものは常に大体アクセスができるような状態になっているというのが、非デジタルの状況としてはまず原則としてあるということになります。若干例外的に、文化人類学とかフィールドワークといったような分野については、なかなかアクセスが難しいものもないわけではないですけれども、原則として、全ての資料は公開の下で行われている。デジタルではないですけれども、公開の下で行われているということが大原則になっています。
 一方、これがデジタルになった瞬間、どうなるかというと、一言で言うと相当にきつい状況になります。まずは、成果の部分ですが、基本的にいわゆる人文学の方での学術研究の成果というのは、学術論文だけではなく、書籍として発表されることが非常に多いというのも特徴です。これは別に日本だけではなくて、世界的にもいわゆる書籍の形で発表されることが多いわけです。特に日本の場合は、書籍に関しては、なかなかデジタルでのアクセスというのが現状では極めて困難なところがあるというのは事実です。
 また、資料類、古文書・古典籍といったようなものもデジタル化という観点では非常に厳しいということがございます。
 このような状況を踏まえてということで少し説明させていただきたいと思います。まず人文学における特徴ということでございます。人文学におけるいわゆる一般的なアクセスとして、資料については公平なアクセスを担保するということがまず人文学の大原則でございます。論文として使った資料は必ず第三者もアクセスできるようにするということです。論文として使った古文書、資料といったようなものは、原則として第三者もアクセスできるようにしてから、初めて論文として使うことができるということになります。
 また、私の所属しております所のように、資料所蔵機関、若しくは資料を受け入れる機関というのがございます。例えば国立歴史民俗博物館や、発掘調査等を行う奈良文化財研究所のような文化財研究所のような組織、東京大学史料編纂所のように古文書を調査する組織等ございますけれども、新しく資料調査を担当した研究者は、原則としてまず資料を公開して、その後に論文を書くということが求められています。ですから、資料を公開する前に先にその資料で論文を書いてしまうというのは研究者の倫理的には「反則」であるということです。
 そのため、奈良文化財研究所や東京大学史料編纂所のような資料調査組織、国文学研究資料館なんかもそうでございますけれども、資料の公開自体が1つの重要な業績として掲げられます。歴史学の教員のなかには、論文を書かずに資料集の刊行というのを主たる研究業績としてずっとやっているものもおります。
 したがいまして、まず資料の公開を1つの業績として重要な業績にしてずっと研究を進めているということになります。フィールドワーク等については若干状況が異なる場合もございますけれども、あくまでも資料に関しては、まず公開、オープンにして、その平場の中で論文を書いていきましょうということが大原則として掲げられているということになります。
 しかし、人文学におけるデジタルデータの蓄積という観点でいきますと、全体に立ち遅れをしております。皆さんもそうだろうなとお思いになるかもしれませんけれども、やっぱりそういうところはあるかと思います。
 それは、他分野からの比較という観点からいたしましてもそうですし、国際的な比較という観点からしてもそうでございます。これから個別に説明をしてまいりますけれども、その両面からなかなか厳しいということがあります。先ほどの基本的な材料となります論文、それから、資料、また中間生成物、途中の研究のデータ、ノート等に関しても、いずれに関してもデジタル化等に関してはなかなか厳しいという現状がございます。
 大きく理由といたしましては、後ほど説明をいたしますけれども、特に資料、若しくは論文に関して、やや複雑なステークホルダーがいるという状況があります。 また、これも後で説明をいたしますけれども、言語的な課題というのもあります。特に日本を扱う人文学資料を対象といたしますと、その段階で日本語を原則としてデータ公開を行うということになります。その場合に、もちろん日本語でのデータアクセスというのは可能にはなるんですけれども、例えばそれが国際的なデータとしてうまく通用するかどうかというと、例えば英語圏の歴史的な資料と日本語の資料という点で、有利、不利があるかといったようなところも課題となります。
 後で説明いたしますが、日本の史料に関しては、文字の問題もいまだに残っております。
 それから、あとは、分野の大きさと分散化といったところでございます。これは学会、学協会が中心となる課題でございますけれども、分野の大きさ、実際私の関連しております日本史系の学会、歴史系の学会でいいますと、一番大きな学会でせいぜい2,000人ぐらいの学会規模ということになります。実際これは、情報系の学会なんかに比べますと大体10分の1の規模ということになろうかと思います。
 また、これが同じように、American Historical Associationの大会でも、5,000人ぐらいという現実がございます。それぞれの分野の大きさが異なっているために、分散してしまって、デジタル化といったようなところに集中して資源を注ぎにくいという現状があるのも事実かと思います。
 現在の資料のインフラ状況について簡単に御説明をさせていただきたいと思います。まず資料のデータといたしましては、このような基盤データとしてはこのような事例がございます。
 文学に関しましては、現在、国文学研究資料館が、まさに大型プロジェクトである「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」を実施をいたしております。古典籍の総合目録、これは日本の文学、いわゆる典籍に関する資料がどこにあるかという所在情報を中心とした目録データでございます。
 それに合わせまして、古典籍の画像が今同時に公開をされております。この画像を特に作るのが大型プロジェクトの中心の業務ということになっております。
 また、近代の書籍に関しましては、国会図書館のデジタルライブラリーが積極的に進めているものが、圧倒的に大きなところになっているかと思います。
 言語学については、言語情報について国立国語研究所はコーパスを多く蓄積をしております。近代、近世、それから古代、平安時代ぐらいまでの言語情報の蓄積といったようなものを行っております。
 歴史学については、東京大学史料編纂所が、日本各地に散らばっております古文書類の書籍化・データ化というのを継続的に続けております。かなり時間のかかる作業でございまして、日本全国に行って古文書の状況調査をして、文字起こしをして、写真を撮ってということをずっと続けております。東京大学史料編纂所はそのような基礎作業をずっと続けて、いわゆる文書、特に中世・近世史料のデジタル化等に努めているという状況でございます。
 また、近代史料については、国立公文書館のデジタルアーカイブを中心といたしましてデータを作っております。文化財機構につきましても、これは特に指定文化財のデータ化については積極的に進めているというところでございます。
 また、国立歴史民俗博物館でも、現在私が担当しております、「総合資料学の創成」という事業で、特に大学が持っている歴史資料のデータ化、デジタルネットワーク化といったようなところを進めているというところでございます。
 文化人類学については、国立民族学博物館は、標本や、映像のようなデータを作っております。
 地理学は、東大の空間情報科学研究センターで基礎データを作っているということでございます。
 社会学系と書きましたが、社会学といいましても、いわゆる社会科学といいますとかなり広くなりますけれども、大原社会問題研究所、それから、奈良文化財研究所なんかは発掘調査の報告書のリポジトリなんかを作成しているという現状がございます。
 このように見ていただいても分かると思いますけれども、人文学と一言で言っても、これだけのデータがばらばらに作られていて、分散されているという状況が分かっていただけるかと思います。大体これで1分野に1,000人前後の研究コミュニティがあるというイメージでとっていただければよいかと思っております。
 また現在は、画像データに関しましては、国際標準規格のIIIF(International Image Interoperability Framework)への対応と充実ということで、現在東京大学や千葉大学、京都大学、歴史民俗博物館、国文学研究資料館といったような組織が現在このようなデータを作っております。
 例えば、これはIIIFの画像データの例でございますけれども、国立歴史民俗博物館が所蔵している画像データ、例えばこれは厳島神社にある高倉天皇の持っていたとされる扇の写しでございますが、これの写しのデータが、左側が国立歴史民俗博物館所蔵、右側はベルギーにありますルーヴァン・カトリック大学が同じような写しを持っております。IIIFの規格によることによって、これ、もととなっている物は同じなんですけれども、別のところで写された資料がこのように同じ画面上で比較して見ることができるといったような国際規格が現状では進んでいるということになります。恐らく右側のルーヴァン・カトリックの方が虫食いの状況から考えると古い状況をとどめているのではないかと推測されるような資料でございます。
 同じように、千葉大学の方では、現在、学術リソースコレクションとして公開を行っております。この中で、一番右側の町野家文書というのは、国立歴史民俗博物館と千葉大学と共同でIIIF化を進めました。現在、画像データの配信については歴史民俗博物館で行い、ビューア等については千葉大学等でも見られるというような形をとっており、歴史資料データの共有化が進んでいるのが現状でございます。
 しかし、課題としてはまだまだたくさんございます。現在日本で出ている人文学資料のかなりの部分が画像データと目録データのみという現状がございます。本来日本の歴史資料の圧倒的な部分に関しましては、文字資料が多いんです。文字資料は、本来分析するためにはテキストデータをきっちりと作る必要があるんですけれども、それらのデータについてアクセスする、分析するようなデータというのがまだかなり厳しいということになっております。
 同じように文字資料については、特に、アメリカ、ヨーロッパ、ヨーロッパというざっくりした言い方になっていますけれども、イギリス、フランスといったようなところでは、人文学のテキストデータの標準化、Text Encoding Initiativeと(TEI)いうテキストデータの標準化が既に進んでおります。これらのデータを基にした人文情報学、Digital Humanitiesという、情報的技術を応用した人文学研究のようなものでございますけれども、Digital Humanitiesへの発展を遂げておりまして、特に最近は、Digital Humanitiesを展開すると主張することによってアメリカなどでは人文学のファンドを得るというような状況があります。
 しかし日本ではまだこのような機械処理できるデータの圧倒的な不足というのがまだ上げられるかと思います。しかし、現実的には日本の場合は文字への障壁というのが非常に大きいです。これは文字コードというレベルの話ではなくて、いわゆる崩し字をどう読むかというところです。日本の前近代資料は、今我々が持っている文字の体系とかなり違いますので、もちろんOCR等の検討が進んでございますけれども、まだおよそ使える精度のものにはなっていないということもあって、テキストデータを集中的に作るということがなかなか難しいということがあります。
 また、個人所有資料の問題というのがまだございます。日本の歴史的な有力な資料は、多くの場合、公的機関以外の組織が持っております。つまり私有物が多いという現状があります。
 したがいまして、そのような場合には、それをデジタル化してオープンで自由に使わせてくださいねということがなかなか難しい。特に、書籍ならいいけど、デジタルになると難色を示されたりします。なので、そのような状況の中でデータ化が極めて難しいという状況もございます。
 また、実際これだけのデータがある、大量のデータがあるわけなんですけれども、現実といたしましては、分野がかなり異なるということもあって、データの質を整えるところが極めて難しいという現実がございます。
 この、質の違いが困難さを生むみたいなところというのがまだ現実的にはあります。先ほどの小安先生のお話にあった横串をどう作るかといったようなところが、データの質というか、粒度といったようなレベルで難しいということがございます。
 また、学術論文の方については、リポジトリサービスについては、機関リポジトリについては、これは言うまでもなく一般的に充実しているということでございます。
 機関レベルでのデータ提供は整いつつありますが、現時点では学協会が出版するもののデジタル化は立ち遅れ気味なのが現状です。特に遅れておりますのは、歴史学、文学といったようなところが現状ではかなり厳しいという理解をしております。機関リポジトリ等で出すと、いわゆる紀要論文はどんどんデジタル化して国際的に流通をします。一方で、最も本来レベルの高い、例えば歴史学ですと「歴史学研究」とか「日本史研究」といったような学術雑誌がございます。そのようなものは現時点でもデジタル化が進んでいないということがございます。
 また、書籍の方に関しましても、電子化という点では非常に遅れております。海外、特に英米圏の場合、トップパブリッシャーは、電子化を進めていることは言うまでもないということでございますが、日本の研究書を出す出版社の書籍等の電子化が遅れているというところがございます。
 一方で、人文学は書籍での出版というのを非常に重視いたします。学術単著が最も内部の評価としては高いという現状があるんですけれども、その電子化が極めて難しいということになります。
 さらに日本の場合は、目次であるとか引用のデータベースみたいなものがいまだに存在しないということがあって、それによって評価等が極めて難しいという現状もございます。
 アメリカでは既に、ミシガン大学出版でfulcrumという事例などもあります。これは歴史資料や動画等をebookの中に埋め込んでおいて、それを実際に見ることができるようなモデルを既に行っているようなところもございますが、現時点では日本ではまだなかなかそういうものが作られる動きは難しいということになります。
 これらのクオリティペーパーの電子化が進んでいないという状況がいまだに指摘されるということになります。結果的に、これはヨーロッパの資料協議会などに行くたびに怒られて帰ってくるわけなんですけれども、水準の高い日本研究が国際的に非常に可視化されにくいと指摘されます。結果的に日本研究そのものの低調化につながるおそれがあるので、とにかく電子化してきっちり出してくれと常に指摘を受けます。
 検索、アクセスという観点からすると、厳密に言うと、日本語で読めても日本語で文字を入力することが難しいといったような研究者がございますので、アクセスという観点から見ると、最低限の英語の情報みたいなものは入れていく必要がございますが、最低限コンテンツにたどり着く前のメタな部分までに関しては英語の情報が求められるというのもまだまだ課題です。
 書籍の電子化は言うまでもありません。実際は出版社というステークホルダーがいて、なかなか大変な現状があるということになるかと思います。
 また、論文情報の管理は、これは引用情報等の整備が重要です。
 次に中間生成物に関しては、アクセスのレベルからして極めて厳しいということがございます。
 それは、1つは、個人研究に依存しがちな人文学の現状というのがあるというのもございます。どうしても1人でこつこつやって、1人でノートを作って、引退するときにそのノートごとどこかなくなるという現象ですね。結果的にどこでどうなっているか分からないよというようなことが起こったりするということになります。
 ただし、例外としては、考古学の発掘調査報告書のようなものであるとか、古文書の調査といったような、チームで行われているものに関しては、アクセスは非常に良好な状況にあると思います。
 これは2000年代の初頭になりますけれども、発掘調査、遺跡のねつ造問題というのがございました。実態を検証するのに本当に手間暇がかかったような事態が起こったわけなんですけれども、そのような反省等も踏まえてということもあろうかと思いますが、デジタルデータとして公開が進んでいます。
 また、中間生成物という点では、史料的価値を含むものは電子化の例がございます。現在歴博でも、初代館長の井上光貞氏の調査ノートに関して電子化を進めております。が、これはどちらかというともはや歴史的資料としての扱いであって、もはや中間生成物というものではないだろうということは言えるかと思います。
 なので、そのようなものを、今後、電子化という点ではまだまだ厳しいと考えております。
 また、論文に関係するファクトデータとしてのデータベースというのは、先ほどの小安先生の話でもございましたけれども、たくさんの大学が研究成果のデータベースというものを、個人レベルというか、研究者レベルで多数公開をしてございます。しかし、大学共同利用機関である当館もそういう成果データベースのようなものをたくさん作っておりますけれども、長期保存、それから分散という観点においては、相変わらずまだまだ課題が残っているということかと思います。今、特に科学研究費の研究成果公開促進費等で作った人文学関係のデータベースの維持というのが極めて重要な課題になっているということでございます。
 また、このような文化的な資料という側面もございますので、このようなデジタルデータの長期保存ということではどうなっているのかという点では、最近、若干注目は浴びつつあるというのが現状でございます。iPresというデジタル保存の学会が2017年度に京都で開催されました。データ保存のための運用といったような議論は、データ管理モデルであるとか標準化といったようなところの文脈において議論をされ始めたというところではございます。
 研究資源としての安定性という意味では、別に人文学特有ではございませんけれども、図書館・博物館という観点からも検討が進むという現状はあるかと思います。
 先ほどの一番下のいわゆる研究成果のファクトのデータベースと同様の課題として、いかにシンプルに共有可能な形でデータを提供できるかといったようなことは、現在議論が進んでいるということになろうかと思います。
 ここはやや私見でございます。人文学について課題を広めにざっと説明をしているので、なかなかポイントがつかみにくいところもあろうかと思いますけれども、課題解決という観点からいたしますと、長期的には資料のテキストデータの整備というのが人文学にとっては極めて重要であると考えております。特に自然言語処理解析等の情報学とともにやれるような研究という観点からしても、新たな人文学のためのデータ整備は今後極めて重要になろうかと思います。また、そもそも本文が検索できないという観点においては非常に弱いということになろうかと思います。
 また、日本語の書籍・論文のデータベース管理といったようなところも、特にとりわけ人文学が言語依存の学問であるということを含めまして、重要であるということになろうかと思います。引用の関係であるとか、研究がどのようなサイクルで進んでいるのかといったような観点を見せていく、社会にどのように展開していくのかといったようなことを明確に可視化していくということが必要になると同時に、日本研究の国際展開という観点においても、このような論文のデータベースの管理というのも必要になろうかと思います。もちろんCiNiiみたいなものがあるわけなんですけれども、特に引用のような関係であるとか、ある程度クオリティのあるものにきちっとコンテンツとしてアクセスできるようにするというのが重要なものになります。
 また、中間生成物に関しましては、「Digital Humanitiesの発想からは可能」とスライドに書きましたけれども、特にデータ化が進みますと、そのデータをどのように処理していったかといったような記録を全て可能な限り残していくといったようなことが考えられるかと思います。
 例えば先ほどの資料データのところで人文学テキストデータの標準でTEIという事例をお示しいたしました。TEIの中では、自分たちの資料をどのように解析して分析したかといったようなデータをエレメントとして中に入れ込むということを行います。このような作業の結果のようなものをデータとして残しておくことによって、今後のアクセスにつなげていく、そのデータを公開するといったようなことも行うことができるようになるのではないかと考えております。データ処理をどのように行ったかの記録、基本的に資料のデータがあることによって初めて資料へのアノテーションなど、ノートの適切な共有といったようなことが、まだまだデジタル化が進んでいない現状ではあるんですけれども、今後必要になるのではないかと考えております。
 また、短・中期的には、これは現在人間文化研究機構等で進めておりますが、まずは分散化した状況を把握し直すというレベルからスタートする必要があるだろうというところもあります。
 ただし、現実的には、このようなことは何度も何度も試みられていますが、長期的な維持という点においてはまだまだ観点が難しいので、長期的にいかに維持をしていかというようなところを今後進めていく必要があるということで、人間文化研究機構の方でも、今、なるべく多くの人からのデータの蓄積、多くを工夫していくようなモデルが必要であると考えているというところでございます。
 また、大学の研究データベース等に関しましては、長期的な保存策ということで、大学、極めて研究自体が個人的なものが多くございますので、教員がいなくなった段階で誰にも分からないデータベースが出来上がるというのはやっぱり存在します。
 なので、そのようなものを、データを預かるような場所であるとか、最終的なデータの保存場所等の長期的保存策が必要であろうと考えております。人間文化研究機構等でも現在検討はされておりますけれども、データの移動等に関しての、処理、権利処理も含めてなかなか難しいというところがまだ残っているというところでございます。
 学協会の論文のデジタル化という観点については、せめて雑誌論文だけでも日本のデータベースの構築をと。すいません、これもまだこんなレベルなんですけれども、ただ、まだないので、これをきちっと、こういう世界観を作っていくということが必要なのではないかと考えております。
 このような状況ではございますが、まずは現状について御報告をさせていただきました。ありがとうございました。
【喜連川主査】  どうもありがとうございました。それでは、美馬先生。
【美馬委員】  ふだん余り聞くことのない人文学の状況、ありがとうございました。基礎的なことから教えていただいて、初めて知ったようなこともあって。きょうのお話の中で、教えていただきたのですが、先ほどの小安先生のお話に出てきた、数学好きな人たちがいて、自分たちでプログラムを書くとか、そういう解析をしつつ研究する人が出てきているということですね。人文系の方でも、例えば、古文書のテキスト認識をして一気に集めてマイニングしてやるという研究スタイルというのは出てきているんでしょうか。
【後藤国立民俗博物館准教授】  まず、特にヨーロッパ、アメリカの、先ほど申し上げましたDigital Humanitiesの文脈においては、かなり出てきております。というのは、むしろ、Digital Humanitiesの中心的な研究者は、情報学よりも人文学の研究者の方が多いというのが現状です。なので、彼らが、まさに聖書研究なんかがそうなんですけれども、聖書はテキストとしては決まっているので、それをじーっと読み込んでいくだけでは限界があるといったようなときに、全然違う手法としてコンピューターみたいなものが使えないかといったところから課題解決を行うということで起こっているのが、このDigital Humanitiesの現状であると思っております。
 日本におきましては、特に歴史学、人文学の側からは、最近の若手の研究者からはそのようなものも起こってきております。20代の研究者が、「東京デジタルヒストリー」という会合を自分たちで開き、その中では、情報学の研究者にいろいろ教えてもらいながら、自分たちの中でデータを作って解決をしていこうという動きを行っています。20代の研究者を中心に、20代から30代前半ぐらいの特に若手研究者にはそのような芽があると思っております。私もそこでコメンテーターとして求められたんですけれども、シニア枠という、私、一応40代なんですけれども、シニア枠という枠で行くような若いところでございました。
【喜連川主査】  どうぞ。
【引原主査代理】  どうもありがとうございました。今お聞きしている話は、ここでの議論でも、理系と人文学・社会科学系で、かなり温度差があるというのはよく分かるわけですけれども、各大学、大学の中でも同じような状況でして、理系のデータ系の話と、人文学・社会科学系の人たちの話は全く同じ場で存在できないような状態になっている、そういうことがよく分かる説明だったかなと思います。お聞きしたいのは、最初にアクセス原則というのはかなり厳格におっしゃったんですけれども、それはどれぐらい人文学の中で守られているのかということをお聞きしたいと思います。
【後藤国立民俗博物館准教授】  なかなかちょっと厳密に全員という言い方にはなりませんが。
【引原主査代理】  代表してお答えするのではなくて、感覚的なところで結構です。
【後藤国立民俗博物館准教授】  分野等、若しくはそれぞれの時代等によっても少し差があるのが事実です。というのは、どうしてもつい最近の研究をしていると大量のデータが出てくるので、それを一々公開して、それから待って論文を書くというのは速度感的に全然間に合わないというところがありますが、対象が古い時代になればなるほど、原則、必ず資料を出して、場合によってはそこから1年、2年待って、誰も書かなかったら論文は俺が書くみたいな世界がかなり厳格に守られています。なので、研究の速度感としてはどうしても遅くなるんですけれども、でも、そのぐらいアクセスの公平性の原則を古い時代を対象とする研究に関しては持っているというのが事実かと思います。特に資料の量が少ないですので、そのようなところであれば、どうしてもそこで資料所蔵機関の方が圧倒的に有利になりますので、そういうことがないようにといったようなことはあるかと思います。
【引原主査代理】  問題としては、個人所有が多いと。私の知り合いが、論文を書くに当たって、ある特定の組織と親しくなると資料が出てくる。親しくしないと資料が公開されないというのが現実としてある。資料がないと論文が書けず、全く空白になっている歴史の部分がそこで出てくるというようなことを言っていらっしゃいました。その原則というのがどちら側の原則なのかというと、やっぱり今資料に基づいて書いた後の原則になる、そんな感じがするんですけれども。
【後藤国立民俗博物館准教授】  これも結構時代によって差があります。古い時代については、先ほど0先生がおっしゃったとおりで、ある特定の組織にアクセスできないと資料が出てこないという現状があります。そのときに、資料所蔵機関の人たちは、研究の蓄積であるとか連携の蓄積を長く持っておりますので、「あなたのところなら見せてあげるよ」というのはありがちです。そういうところは、実際資料にアクセスするときも、かなり警戒してアクセスします。
 なので、逆に言うと、そういうアクセス可能な組織によってきっちり調査ができた結果を、公開してからやらないと、資料にアクセスできる権利を持った人だけが有利になる状況が起こります。そうならないように、アクセスできる人は、まず資料を例えばテキストとして起こして、しかるべきかたちで世に公開した後で論文にするというプロセスを踏む方が多いかと思います。資料が多いと若干変わってくるかと思いますけれども。
【竹内委員】  千葉大学の竹内でございます。私どもの資料をサンプルとして使っていただいたことにまずはお礼申し上げたいと思います。さて,先ほどの小安先生のお話を聞いていたときの印象としては、データの公開に関して様々な動きがある中で、大きな課題として出てきているのが、プラットフォームの重複というか、統合というか、調整の必要性が、国全体でのオープンサイエンスの進展ということを考えたときに重要だということがあるのですけれども、人文科学におけるオープンサイエンスを国レベルでこれから進めていくというときに、国レベルで調整が必要な最も重要なポイントはどこだと考えられるでしょうか。
【後藤国立民俗博物館准教授】  かなりいきなり大きな話になってしまいましたけれども、基本的には、先ほどのこの話でいきますと、国レベルで最も重要な部分というところでいきますとまずは、いろんなデータのリポジトリ的なプラットフォームをもう少しきちっと整備するところからスタートだと思っております。というのは、実際に海外の研究者が日本研究のためにデータベース等にアクセスしようとすると、あっちにアクセスして行き止まり、こっちにアクセスして行き止まりといったような状況になってしまうと。そのときに、きちっとワンストップで、ここに行けば最低限このぐらいのデータが見られるよといったようなプラットフォームの構築みたいなところからスタートしてもらえると、それは大変に有り難いし、それがどのレベルでアクセスできるか。例えば本当に目録だけで資料は見られないので、そこから先は自分たちで行かないと分からないのか、実際にWebの画像で見られるのか、テキストで解析できるのかといったようなレベルのものまで含めて、総合的なアクセスレベルを含めたデータのプラットフォームというか、ワンストップみたいなところがまずはスタートラインであろうと思います。
 
 本来は、全部横串で検索できると非常にうれしいんですが、データの質であるとか粒度であるとかが違い過ぎますので、例えばこういったような文化資源のようなものだったら構わないんですけれども、例えば古文書とコーパスを一緒に探すというのは余り現実的ではないと思うんですね。同時に検索をして、同様のレベルで検索をするとなると、かなりいろいろ工夫が要るだろうといったようなところもありますし、地理情報みたいなものも同様です。なので、そういうところはある程度分野を絞って横串検索をかけながら、全体としては、まずきちっとしたデータのリポジトリ、ここに行けばとにかくデータは手に入るんだといったようなところを作っておくというのが大事だと考えます。
【竹内委員】  ありがとうございました。
【喜連川主査】  先生、どうぞ。
【北森委員】  私にとっては大変インパクトのある話でした。全く理科系とひっくり返しで、我々今議論しているのは、理科系の場合には、これから共通のデータベースをどう構築して、それをどう利活用するかという、論文が先にあって、それから共用のデータをどうするかという議論をずっとしてきたんですが、人文学は、逆に、共有のデータの方が先に構築されていて、それを皆さんがアクセスして論文化しよう、新しい発見をそこで見出そう、ということですね。我々がやろうとしていることをもう既にやっておられるという意味でも、極めてインパクトがあると思います。
 そのときに、例えばそう言われてみれば、東京大学の博物館が、たしかデジタルミュージアムといって、そこにアクセスすると非常に鮮明な画像がどんな角度からでも見られて、文書も見られてというようなものが既にあって、なるほどというふうに思いつくんですが、それが例えば歴史民俗博物館と同じ共有のデータのフォーマットであるとか、そういう共有性だとか、あるいは国際性とかいうことでは、今の状態はどういうふうな状況でしょうか。
【後藤国立民俗博物館准教授】  もちろんいろんなデータの種類にもよりますけれども、特に資料データの特に画像データに関しましては、IIIFという画像規格が、特に文化財、文化資料を持っている機関に関してはかなり進んできております。今のところは、IIIFに対応することによって、国際的なシェアリングというのは可能になるだろうというふうなことは現状としては言えるのではないかと思います。
 実際、歴史民俗博物館のデータも今公開を始めまして、恐らくこのようなものと、特に海外における日本研究をやっている大学なんかが自分たちの所蔵している資料と比べてどうかとかといったようなところは、これで進む部分があるのではないかと思っております。その点では、IIIFのような画像データのシェアリングというのは比較的進んでいるのかなというふうなところはございます。
 一方で、先ほど申し上げましたとおり、目録データの方については、まだ、特に日本に関しては言語障壁が比較的大きくて、検索という点ではまだもう少し手間がかかるかなというところはあろうかと思っております。
 テキストに関しては、TEIが大分その解決策になりつつある。しかし、そもそもデータがないです。
【北森委員】  こういった取決めに関しては、国際学会で取決めをするんでしょうか。
【後藤国立民俗博物館准教授】  そうですね。これらの規格に関しては、それぞれ、国際学会というか、協議会といったようなものがございまして、そちらの方で様々な議論をしております。
 TEIに関しては、10日ほど前に日本でカンファレンスが行われまして、日本資料のテキストデータの標準化といったような議論がちょうど行われたところでございます。
【北森委員】  続けてよろしいですか。そうすると、国際的にそういう取決めをされていて、それで言語が障壁だというのは、国際的に取決めをされているのであれば、余り問題はないように思うし、それから、今、目録レベルであれば、自動翻訳もそんなに難しいことではないと思うんですが、それはいかがでしょうか。
【後藤国立民俗博物館准教授】  まず画像に関しては、IIIFのおかげで、かなりいいところまでいっている。目録に関しては、自動翻訳がまだなかなか難しいというか。一方で、例えばGetty財団は、このような言語の統制語への標準化、日英の対応とかといったような議論を進めております。ですから、そのようなところで本来は対応していくべきものであると思います。
 実際、例えば「螺鈿紫檀五弦琵琶」について機械的な翻訳となるとほぼローマナイズするぐらいしか手がないといったような現状があります。なので、そうすると、読みを確定させてローマナイズしていくみたいなところになるのかなと。そこから先は研究者がメタなレベルで、これは琵琶だよといって琵琶を英語に翻訳してとかというプロセスになるのかなと思います。
【喜連川主査】  いろいろ意見が出ておりますが、全体のメッセージとしては、デジタル化が諸般まだまだ立ち遅れているということと理解しました。この話は、グローバルな比較感からすると、どこも遅れているのか、日本の人文学が特に遅れているのか、いかがでしょうか。
【後藤国立民俗博物館准教授】  まず資料に関しましては、海外においてもほかの分野に比べてやや不利な側面があるというのは現実としてよく指摘されているところでございます。ただ、テキストデータ等に関しましては、日本に比べると、先ほどのTEIのようなものが、標準化が特に欧米の方で進んでおりますので、ある程度データを自分たちで作って公開するといったようなプロセスが進んでおりますので、特にヨーロッパ、アメリカといったようなあたりでは、まだ比較的他分野に比べてもデータとしては出ている方であると理解をしております。
 論文については、ほぼ海外の学術雑誌等を見る限りは、ある程度既に電子化されて、出版されて、あと、論文データベース等にも載っておりますので、特に英語圏についてはそのような状況がございますので、その点から含めますと、日本だけではなく、非英語圏は比較的似たような状況ではございますけれども、かなり厳しいということに、英語圏に比べるとかなり遅れているという理解をしております。
【喜連川主査】  それはどうすればいいんでしょうか。今どき電子的に文書を作らない人はいないので、一次生産物としては電子化されているわけですね。それをわざわざ紙に変えているわけですね、現状は。これは国際的に見ると、天然木を切り捨てているようなもので、どこから考えてもいいことは何一つないように見えますが。
【後藤国立民俗博物館准教授】  私としては天然木があるべきだとということを大原則として掲げるべきだという立場です。
 その点は、まさにおっしゃるとおりでして、電子化してオープンにして公開すると会員が減るといまだに言う人たちがいるのは事実です。私は、総会等で電子化をしろというふうに常に発言をするんですが、いまだにそれを言われてしまいます。むしろそういうのは、減ることがないという、きちっとエビデンスを持って説得をする必要があるのだろうと思っております。
 【喜連川主査】  デジタルのプラットフォームを心配する前の段階で、その分野で議論いただく必要があるのかという気がしています。法学の先生とお話をする機会があったのですが、判例が非常に複雑になって、最近ですとGDPR(EU一般データ保護規則)のようなものが入ってくるときに、デジタルに検索可能にしないと、世界的な競争には原則負けると言われています。ですから、放っておいてもそちら側にシフトしていっているんですね。
 今、世の中で、社会規範上どうあるべきかというのを見たとき、ほぼ全ての人が、人文にすがりたいという気持ちはものすごく強く持っている。例えばイギリスがEUを離脱したのは本当によかったのか。そのときの世相はどうかと。今は個人情報なのでとれませんが、欧州では、ある期間の昔の手紙を国民から寄付してもらうことで、そのときの国民の心情がどう動いていっているかを研究しています。こういう研究は根源的に人類が発達していく上では非常に重要な部分を占めるんじゃないかと思うんですけれども、原理的にデジタルテクノロジーなしにやれないですよね。そういうものを紹介していただけるとよかったかと思いました。多分すでに取り組んでいる方もたくさんいると思います。
【後藤国立民俗博物館准教授】  すいません。きょう、概要という感じになってしまったんですけれども、ついついネガティブなものばっかりな話になってしまったかと。
 そのような研究というのは、特にDigital Humanitiesのような分野ではかなりいろいろと進んできております。特に日本古代の資料を使って例えばTEIなんかでの分析を行った結果、古代における食料流通の分析を行って、そこから今、私たちが分からないような食品であるとか食材とか食の可能性のようなものを見るとか、そういうふうな検討を進めているというものがございます。
 そのような形で実際に進んでいるというところもかなりあって、そういう点ではメリットが少しずつ見え始めてきて、じゃあ、やろうかといったところが、特に若手を中心に起こり始めているというのが現状だと思います。
 すいません、またネガティブな話になってしまうんですけれども、どちらかというと、人文学の可視化といったような研究の文脈をもう少しきちっと主張していくことで、ただでさえ人文学の凋落的な話はさんざん言われてきている現状がある中で、よく人文学者はそういうのは不当だという言い方をするけど、不当だと言う前にあなた方は見せていないよねと。見せないものが評価されないのは当たり前なので、見えないものを評価してくれというのは無理なんですよね。ですから、きちっと見せて、その上で評価してもらうように言いましょうよと。その上で駄目だったら、また暗いこと言いますけれども、仕方がないといったようなところで、きちっと勝負できる土俵に立ちましょうよという言い方をするために必要だろうと考えております。
 ですから、先ほどのまさにデータを出さざるを得ない状況を作っていくというのが必要なのではないかというふうに、特にある程度世代的に上の方については重要であろうと思っております。
【喜連川主査】  そういう分野も学問上幾つかあるということの認識ができてよかったと思いますが、井上先生、いかがですか。
【井上委員】  時間もないと思いますので短く申しますけれども、人文社会を含めて、成果の発表の場として、クオリティペーパーもあるけれども、モノグラフで発表することが評価される仕組みになっています。ステークホルダーとして専門書の出版社が重要であり、出版社をどう巻き込むかを検討せねばならないと思います。日本の場合には小規模の出版社が多数あり、デジタル化に踏み切るのは容易でないだろうと思います。そこをどういう形で支援していくのかというのが1つ重要かなと思いますが、いかがでしょうか。
【後藤国立民俗博物館准教授】  それはおっしゃるとおりだと思います。小さな出版社が非常にたくさんありまして、そこが専門書の根っこを支えているというところもありますので、そういうところがある程度、単体では難しいと思いますので、うまく連合的にというか、そのような形でもいいので、出していく。
 若しくは、実際はそのような専門書籍というのはある程度出版補助を受けていたりすることもたくさんあるわけですね。したがいまして例えば公的な資金を入れている部分に関しては、電子化を義務付けるとか、そのような考え方も必要かと
【喜連川主査】  世界で一番出版社が多いのは日本だそうです。そのときに、細分化されているのであれば、海外だって出版社が多いはずだと思います。海外は少ないのに日本がなぜ多いのかというのは、井上先生に研究していただく必要があるのかもしれません。
 いずれにしても、ブライトサイドの御紹介も、また御相談をさせていただきたく存じます。やっぱり進んでいるところから引っ張っていかざるを得ないんじゃないかなと思いまして、そういうところに注目したお話もどこかの段階で頂ければ有り難いなと思っております。
 たしかNTTデータ、ベネチアを対象にして随分やっておられますよね。厚さが40センチぐらいあるような本の電子化に取り組まれていると思うので、そのような取り組みと比較してみるのも重要じゃないかと感じた次第です。
 最後、時間がなくて、小安先生のところに十分戻ることができなかったかと思うんですけれども、本日大変非常にいろいろな、とりわけライフサイエンスの方においては、グローバルな協調をしながら、ある種データのシェアリングはもう議論するレベルにはないようです。こういうやり方でないとビッグサイエンスというのは原則動かない。これは多分ライフサイエンスだけではなく、高エネルギー物理、あるいは天文もみんな同じ方向で、スケールが大きくなると原則こういう世界に入っていくんだなと感じました。その中で、日本がどういう役割を果たしていくか今後検討していく必要があると思います。
 人文学の場合は、まだまだそこには至らない一方で、一番すばらしいと思ったのは、資料を公開するということがその人の大きな業績になるんだというメッセージです。これは学ぶべきところがすごく大きいと思い、詳細は余りお伺いできませんでしたけれども、いろいろな研究分野においてデータをきっちりと整理しており、そのタスクそのものがその職制というふうになるということが、人文学の中ではきっちりなされていることがわかり、とても心温まる気持ちがしました。
 本日は、これでお時間になりました。様々な御意見、大変ありがとうございます。後ほど事務局で整理をさせていただければと存じますが、最後に事務局より連絡事項がございましたらお願いいたします。
【高橋参事官補佐】  本日の議事録については、各委員の先生方に御確認いただいた上で公開させていただきます。
 次回、第13回については、10月25日、木曜日、13時から15時、場所は未定でございますけれども、文科省内の会議室を予定しております。決まり次第改めて御連絡をさせていただきます。
ついては 事務局からは以上でございます。
【喜連川主査】  それでは、閉会とさせていただきます。どうもありがとうございました。

―― 了 ――


お問合せ先

研究振興局参事官(情報担当)付学術基盤整備室

電話番号:03-6734-4080
ファクシミリ番号:03-6734-4077
メールアドレス:jyogaku@mext.go.jp(コピーして利用される際には全角@マークを半角@に変えて御利用ください)

(研究振興局参事官(情報担当)付学術基盤整備室)