当サイトではJavaScriptを使用しております。ご利用のブラウザ環境によっては、機能が一部限定される場合があります。
ブラウザの設定でJavaScriptを有効にしていただくことにより、より快適にご利用いただけます。

第8期学術情報委員会（第3回）　議事録

1．日時

平成27年6月24日（水曜日）13時00分～14時30分

2．場所

文部科学省3F2特別会議室

3．議題

学術情報のオープン化について
その他

4．出席者

委員

西尾主査、羽入主査代理、相田委員、逸村委員、井上委員、岡部委員、加藤委員、北森委員、喜連川委員、久門委員、高木委員、竹内委員、美馬委員

文部科学省

（科学官）美濃科学官
（学術調査官）市瀬学術調査官、小山学術調査官
（事務局）常盤研究振興局長、安藤大臣官房審議官、榎本参事官（情報担当）、渡邊学術基盤整備室長、松本学術基盤整備室参事官補佐

オブザーバー

安達国立情報学研究所副所長

5．議事録

【西尾主査】時間になりましたので、ただいまから第3回の学術情報委員会を開催いたします。
本日は、委員の皆様方には御多忙のところ、この委員会に御参加いただきまして誠にありがとうございました。
それでは、事務局から配付資料の確認をお願いいたします。
【松本学術基盤整備室参事官補佐】それでは、お手元の議事次第に基づきまして、配付資料の確認をさせていただきます。
資料1としまして、ライフサイエンス分野における研究データの共有について。資料2としまして、学術情報のオープン化に係る審議について（案）。資料3としまして、今後の学術情報委員会の日程について。それから参考資料、学術情報のオープン化に関する資料集でございます。
このほか、机上資料を用意してございます。不足等あれば、事務局までお申し出いただければと思います。以上でございます。
【西尾主査】資料に関しまして、よろしいでしょうか。
それでは、学術情報のオープン化に係る審議について（案）について、事務局から説明をお願いいたします。
【渡邊学術基盤整備室長】それでは、資料2を先に御覧いただきたいと思います。
学術情報のオープン化に係る審議について（案）でございます。まず、1の基本的考え方に関する御意見については、最初の丸でございますが、研究成果への理解を促す、あるいは分野を超えた新たな発見等々のために、研究成果の公開及び利活用も促進するという考え方が示されてございます。
次の丸ですが、このオープン化については、研究成果へのアクセスを行えるということと同時に、特に教育現場での利活用を含む自由な利活用の拡大を促進するということが基本理念とすべきである、この確認が必要であるということがございました。
3点目ですが、このオープン化に関しましては、大学教育の充実に貢献する、あるいは自然科学のみならず、人文・社会科学の分野にも効果が期待されるといったような御意見がございます。
また、次の丸でございますが、研究成果については、論文とその論文のエビデンスとなる研究データ、これが原則公開ということになる見込みでありますが、この理念は共有する一方で、国際的な動向あるいは戦略性を踏まえて、公開の在り方等を規定していく必要があるのではないかということがございました。
次に、オープンデータの取組の全体的な話でございますが、研究分野による違い、あるいはオープン化になじまない分野といったことも加味しながら、研究者コミュニティとして、メリットのある分野から取り組むことが重要であるといった御指摘でございます。
関連しまして、支援に当たっては、データ供与のルールを有する、具体的に推進を行っている分野に対する支援から取り組むことが妥当であるというような御意見がございます。
2ページ目を御覧いただきたいと思います。実際の研究成果の公開に当たっての基本的事項ということでございますが、最初の丸の論文の公開についての取組については、前回の資料でお示しした内容について整理したものでございます。
次に、点線で囲った部分がございます。これが本日の検討事項の案ということでございますが、1点目は、論文のエビデンスとしてのデータの公開についての基本的な事項。3ページ目に参りまして、2点目といたしましては、研究データの利活用に係る許諾ルールの明示に関する事項。3点目が、研究データの引用及びデータ作成者の貢献に係る事項。4点目といたしまして、大学等に期待する取組といったような整理で、本日御検討いただければと考えております。
なお、3ページ目のローマ数字3オープン化に係る基盤整備のオープンアクセスに係る部分に関しましては、これも前回の資料から整理させていただいた事項でございます。4ページ目にかけて、4点ほど整理してございます。
それと、最後の点線囲みのオープンデータに係る基盤整備の方向性等については、次回以降の検討をお願いしたいと思っております。
なお、今申し上げました論点については、やや抽象的な部分もございますので、この後、具体の事例について高木委員から御説明いただいた後、その内容を併せて御審議いただければと思っております。説明は以上でございます。
【西尾主査】どうもありがとうございました。何か渡邊室長の御説明に対して、御質問等はございませんでしょうか、よろしいでしょうか。
今日は、これから高木先生の方から具体的な御説明をいただいた上で、議論を深めるという方法で進めたいと思っております。
そうしましたら、高木先生の方から、ライフサイエンス分野における研究データの共有について、御説明をいただけますようお願いいたします。
【高木委員】東京大学の高木でございます。私はバイオインフォマティクスを専門にしておりまして、資料にありますようにJSTのバイオサイエンスデータベースセンター、それから国立遺伝学研究所のDNA Data Bank of Japanセンターを兼務しております。この二つのセンターの位置付けについては、後でお話しします。
今日は、決して何か私の方から提案ということではなくて、渡邊室長の方から、このライフサイエンス分野について話すようにということで宿題をいただきまして、それにお応えする形でお話しします。
それから話す内容も、こういう項目について話してほしいという宿題をいただきましたので、スライドのタイトルは大体いただいた宿題が見出しになっております。
さて、それではまず最初に、ライフサイエンスに係るデータの実態でございます。データベースの数が、これはなかなかよく分からないんですが、少なめに見積もっても1万くらい、多めに見積もって2万くらいの間でございます。これは、いろんな調査がありますけれども、なかなか正確には分からないわけです。
それから、この中でメジャーなものが、Nucleic Acids Researchという雑誌に年に1回特集が組まれていまして、そこに載っているのが大体1,600くらいのオーダーのデータベース数でございます。
それから、我が国のデータベースは、ライフバイオ分野に関して、私どもが作っているデータベースのカタログがございますけれども、それに大体1,000くらいが載っているということで、大体のオーダーがお分かりになろうかと思います。
では、この中にどういう種類のデータが入っているかということでございますけれども、先ほど申しました Nucleic Acids Researchという雑誌には15のカテゴリー、40のサブカテゴリーが定義されておりますし、私どもの作っているIntegbioカタログは、そこにあります生物種、それから対象、それからデータの種類ということで、こういう三つの軸でデータを整理しております。そこに動物や植物がございますけれども、これもまた動物の中にもいろんな種類がございますので、そういう意味では非常に多くの種類のデータがありますし、またこれは掛け算できいてきますので、例えば動物のゲノムのデータでありますとか、動物のタンパク質のデータでありますとか、そういうふうになっております。また、その生物種横断的にデータベースが作られていることもございまして、非常に複雑な様相を呈しております。
それから、このデータを発生させるもとになっているプロジェクトは多数ございますけれども、その中で最も大きいのがゲノムのプロジェクトでございまして、大体今64,000という非常に膨大な数のプロジェクトがあり、この中身はある種の生物種に関してゲノムプロジェクトが終わった、あるいは進行中という状況のものでございます。
それから、こういうようなデータベースを作っている国がどれくらいあるかと申しますと、先ほど申しましたNucleic Acids Researchという雑誌に載っている国で数えますと、50くらいの国でいろんなデータベースが作られて発信されていると、こういう状況でございます。
次に、データベースのサイズでございますけれども、これはアメリカのNational Center for Biotechnology Information、これは何度も出てまいりますけれども、世界で一番大きな、ゲノムを中心としたデータベースセンターでございます。そこにあるSequence Read Archiveというゲノムの配列のデータベースでございますけれども、これが大体4ペタバイトくらい、それからdatabase of Genotypes and Phenotypesという、いわゆるヒトゲノムに関するデータが2ペタバイトくらいございます。
大体年率1.5倍から1.7倍くらいのデータの伸びでございまして、以前はムーアの法則を圧倒的に超えているという話だったんですが、大分落ち着いてまいりまして、それほど悲惨なことにはならないだろうという状況でございます。
それから文献も非常に多くて、2,500万件くらいありまして、このうち、後でお話ししますアメリカのやっているPMCというものでは、350万件くらいのフルペーパーのデータベースで、無料で読めるというような状況になっています。
このようなデータベースを管理するセンターは非常に多数ございますけれども、その中で主要なものが、アメリカではNational Center for Biotechnology Information、ヨーロッパではイギリスにございますけれどもEuropean Bioinformatics Institute、それから我が国では、私の所属でもありますけれどもDNA Data Bank of Japan、こういうところでデータベースが公開されていると。
今お話ししたこのセンターはゲノムのデータが中心のものでございますけれども、このようなセンターは我が国のものを除いて、大体数百人規模の人員で運営されているという状況でございます。
それから、現在このようなセンターでは大体20から30ペタくらいのストレージがあって、データが管理されていると。いろんな推測がございますけれども、2020年頃にはこのゲノムの分野だけで大体2エクサバイトくらい必要だろうというような見込みになっております。
これは、細かいことを省略いたしますけれども、アメリカとヨーロッパ、それから日本でどういうようなデータベースセンターがあるかということで、先ほど私が紹介しましたJSTのNational Bioscience Database CenterやDNA Data Bank of Japanというようなセンター等の比較を簡単に載せております。それから、中国にはデータベースセンターというよりはゲノム解析センターでございますけれども、非常に大きなセンターがあって、ここでもすごい数の人間が働いて、解析をしたりデータベースを作ったりしていると、こういうような状況になっております。
さて、それで生物の場合、ライフサイエンスの場合、どういう意味でデータの統合をするのかということでございますけれども、基本的にほかの分野と違いまして、研究が済んだらそのデータから何か得られた知識が、少数の法則や式になって、あとはデータを捨ててもいいということにはなりませんで、それらを全部とっておいておかないといけないと。そういう意味で、データというのは非常に研究のインフラであり、その最先端の成果がそこに書かれているというようなことでございます。
それからもう一つの特徴は、生物の場合は小さなラボでデータが出てくることが非常に多いわけです。大きなゲノム解析センターなどもございますけれども、それでもやはりほかの分野に比べますと、一つ一つのデータが小規模でございまして、しかもそれがいろんな装置を使って、いろんな文脈でとられていますので、それらをもう少しまとめてビッグデータにして、ビッグデータから知識にするというようなプロセスが必要になってくるわけです。
こういうふうにして、小規模なデータを集めてきますと、例えば病気の患者さんのデータを10人、20人じゃなくて100人、1,000人、1万人というふうに集めてきますと、どこのゲノムの変異がどういう病気に関わっているかということが非常によく分かってくるということで、統計解析のパワーアップになります。そういうことで、共有して集めてくると価値が最大化されると。
言わずもがなですけれども、例えばショウジョウバエのデータや大腸菌のデータも、人の研究に役に立つということがありますので、様々な観点でこういう共有が進むと、新たなイノベーションが進んでくるということが言われています。
それから、再現性や検証、研究不正への対応、それから、データ収集の重複を排除する、失敗データを活用する、それによって研究資金を効率化すると、こういうことが最近言われております。
それで古くからこの分野は、研究データに限りませんが、文献データをはじめ研究データの共有が進んでおります。
この中で、様々な共有の考え方というのが出されていますけれども、例えばヒトゲノムプロジェクトでございますと、バミューダ原則というのが研究者コミュニティで言われていまして、これはもう24時間以内に全部のデータを自由に誰でも使えるようにしようというような原則でございますし、それからアルツハイマーの研究、これは画像データなどが中心ですけれども、これもやはり全データを共有しようというようなルールが、研究コミュニティで進められています。
こういうふうな例えばアルツハイマーの例ですと、2010年のニューヨークタイムズで古いんですけれども、このデータの共有がいかに研究成果を生んでいるかというような記事などもいろいろ出ているわけです。
それから、ヒトゲノムプロジェクトに関しましてはもう言うまでもなく、いろんな生命科学の最も基本的な公共財として皆さんが活用して、それ無しでは研究ができないような状況になっているわけです。
それからもう一つ別の例で言いますと、アメリカのNational Institutes of HealthのNational Center for Biotechnology Informationでございますが、ここにヒトの制限アクセスデータベースがあり、これはdatabase of Genotypes and Phenotypesと申しますが、2007年以降に他人のデータを使いたいという申請が3万件くらいございまして、実際にはいろんな審査を通らなくて2万件くらいしか許可されていませんけれども、そういうような状況で、しかもこのアメリカのデータベースに関しまして、世界40か国以上から使いたいという要望が出てきていると。
それから、データの2次利用として、約1,000本近い論文がパブリッシュされていると。こういうことで、共有というのは非常に重要視されているわけでございます。
参考までに、これはつい最近、皆さんよく御存じだと思いますけれども、National Institutes of Healthの下にNational Library of Medicineという図書館がございますけれども、先ほど申しましたNational Center for Biotechnology InformationはこのNational Library of Medicineの下にあるデータベースセンターでございますけれども、ここの改革ビジョンというのが最近発表されまして、ここに書いてあることが共有の意義や今後の進め方ということで、参考になろうかと思って持ってまいりました。ここにある幾つかのキーワードが、皆さんが合意して納得されるようなものではないかと思っています。時間の関係で、これは省略いたします。
さて、こういうふうにデータの共有がそれなりに進んで、成果も出ているということでございますけれども、実はそんなに簡単ではございません。データを利用しようとすると、様々な障害がございます。一つは、ゲノムというデータはいろんな生物の基盤となっているものですから、横断的に使えるわけですけれども、一方で自分の専門外のデータを解釈しようとすると、非常に難しいということがございます。
それから、データベースやツールなどが非常に多くて、どれをどう使って何ができるのかが分からないとかですね、あるいはそこにあるデータの信頼性含め、様々なことに困難が伴うわけです。
それから、フォーマットや用語というのがばらばらであると。例えばこの分野で最も基本的な遺伝子という概念さえ、データベースによって定義が違うわけでございます。それから、同じ遺伝子にも多数の名前が歴史的についていまして、研究をしようとすると、単にどこかに置かれていただけではそのデータは使えないということになります。
そういう意味で、データに文脈依存性ですとか、曖昧性とか、様々なことがありまして、どこかにメタデータをつけてリポジトリに置いておけば活用できるかというと、それだけではなかなか難しいというのがライフサイエンスの特徴ではないかと思います。
それからもう一方で、今度は我が国の事情でございますが、そこにあります幾つかのところで、今回のこの委員会でのテーマでもありますけれども、データ共有の義務化のルールが我が国は基本的にはございませんので、どういうふうにするかなどですね、あるいはデータを一緒に公開してしまうと、日本では私の専門なので恐縮ですけれども、人が足りておらずバイオインフォマティクスが弱いと言われていますので、それで競争に負けてしまうんじゃないかというような議論もございます。それから、プロジェクトが終了するとデータがどこかにいってなくなってしまう。
こういうような背景がございまして、今日詳しくは御紹介しませんけれども、今から10年ほど前から、内閣府の総合科学技術会議の音頭によりまして、幾つかの省が連携する形で統合データベースプロジェクトというのが始められたわけです。
そのためのセンターとして、平成19年にここにありますような情報・システム研究機構にこういうセンターができ、いろんな事情から平成23年にこういうセンターができて、今この二つと、それから先ほど申しましたDNA Data Bank of Japanという以前からあるセンター、大体この三つでライフサイエンス分野のデータベースを担っているというような状況でございます。
そこでの活動は、ここにありますようにクリエイティブ・コモンズでライセンスをするだとか、ヒトデータの制限アクセスのガイドラインやデータベースを作るだとか、様々な活動をしてきているわけでございます。
さて、それで次にどういうように、どの範囲でデータを共有するのかということでございますけれども、これも詳しいことは今日省略いたしますけれども、これは別の資料から引っ張ってまいりましたけれども、様々な考え方がございます。この中で、例えばNational Institutes of Healthのものはここに幾ら以上の金額のものであるとか、どういうデータを共有すべきかということがありますし、そのほかNational Science Foundationですね、それからあとはバイオ分野ということで言いますと、この辺りのBiotechnology and Biological Sciences Research Councilなど、こういうように、この辺りですと、論文に使われているかどうかに関わらず、研究から出るデータ全部を共有しましょうということが言われているわけでございます。
さてそれで、こういうふうに様々なところで様々な活動が行われていますけれども、一方でこの国際的にばらばらに活動されているものを束ねようという動きも幾つかございます。そこにありますように、一番有名なのがInternational Nucleotide Sequence Database Collaborationといいまして、国際塩基配列、DNAのデータベースを共有しようということで、アメリカのNational Center for Biotechnology InformationとヨーロッパのEuropean Bioinformatics Institute、それから我が国のDNA Data Bank of Japan、この三つが連携しまして、データを集めて、それらをお互いに交換しているということがございます。
それからヒトゲノムに関しましては、いろんな機微情報ですので、交換までは至っていませんけれども、メタデータをこの三つで交換すると。それからタンパク質の立体構造に関しましても、似たような構造がありまして、アメリカとヨーロッパと日本、日本は大阪大学の蛋白質研究所が担っておりますけれども、そういうような状況。それから、ヒトのプロテウム、タンパクの情報に関しては、20か国が連携するなど、アルツハイマーについては先ほど申しましたけれども、これも幾つかの連携がございます。
それから、最近非常に活発になっておりますのが、このGlobal Alliance for Genomics and Healthというものでございまして、つい10日ほど前も、国際会議がオランダでございましたけれども、そこにはそこにありますように33か国、330機関が入っております。いろんな国のファンディングエージェンシーなり病院や研究機関に加えまして、ここにありますようにアマゾンやグーグルなどの企業、あるいはイルミナという次世代シークエンサーを作っている会社なども参入して、これらでいかに国際的に情報を共有するかという議論が進んでいる次第でございます。
その次に、ではこういうようなデータを作るときに、どの程度の質保証や管理をしているのかということで、基本的には主にメタデータが中心でございます。ただ、中にはここに書いたような、今日は時間の関係で詳しく申しませんけれども、幾つかの中身に関するデータの検証を行っているようなことがございます。
それから、これを活用するためにどういうようなライセンスになっているかと言いますと、最近は非常に多くがクリエイティブ・コモンズのライセンスで、CC－BYだけではなく、CC－BYのNDだとかNCもございますけれども、そういうようなもの、あるいは最近はもっと進みましてCC0という、完全にパブリックドメインにしようというようなライセンスをつけるようなものも出てきているというわけです。
ここに幾つかほんの一例を出していますけれども、こういうようなもので、最近多くのデータベースでこのライセンスをつけた形でデータの共有、流通を図ろうとしています。
それから、少し別の考え方のものを持ってまいりましたけれども、これは先ほどから何度も出てきます国際的なDNAのデータベースでございますが、そこでは、内容的にはほとんど同じなんですけれども、基本的に自由に使ってくださいと、再配布もいいですと。ただ、中には著作権などがついていたりするものがあるので、それは個々のデータを使うときは少し気にしてくださいと。でも、基本は全部自由に、ここにあるように配布したり、利用制限無しに使ってくださいと、サイエンティフィック・アドバイザリーボードがこういうような声明を出して、皆さんこれに従ってデータを入れているというような状況でございます。
それから次に、非常に駆け足で恐縮ですけれども、データ提供者の義務とインセンティブということでございますけれども、まずこの分野は、出版社が基本的に論文投稿前に公的データベース、あるいはそれに対応する公的データベースがない場合は、コミュニティでよく知られているデータベースに登録をしなさいということを言っております。
それから資金配分機関は、特に一番有名なのはアメリカのNational Institutes of Healthでございますけれども、これは基本的に研究申請時にデータの管理をどうするのか、論文を公開義務化するなどですね、データ共有を義務化するということをやっています。
なかなかインセンティブはないんですけれども、最近御存じのように、データパブリッシングなど様々なところで、どのデータを誰がどう出したかというようなことは大分検索できたり、サイテーションができたりということで、徐々にそういう意味でのインセンティブが出てきているとは思います。
それから学術論文、これは皆様よく御存じだと思いますけれども、この分野ですと有名なのが、PMCという、全体で2,500万件ある論文の内のフルペーパーが入るものでございまして、これもアメリカのNational Institutes of Healthが運営しています。当初はなかなか論文が集まらなかったんですけれども、2008年から義務化しまして、350万件くらいの論文が自由に読めると。
それから、その下の二つが、真ん中は民間企業のシュプリンガーがやっているものですけれども、これは投稿者がお金を払う形で論文を公開する。それから、下の方はもう少しノンプロフィットのものですけれども、PLOSという、これも投稿者が費用負担をするということですね。
公的配分機関や出版社が、こういうふうにある程度、義務化やリコメンドしているという形で、物事が進んできているというわけでございます。
どういうふうに公開をするか、意義は何かということで、これはアメリカですとNational Institutes of Health、ヨーロッパですとWellcome Trustが資金配分機関として非常に大きなところですけれども、それらがそこに書いてあるようなことをやっていると。
それから、出版社は今申しましたNatureやScience系列がいろいろございますけれども、基本的には皆さん同じように論文に関わるデータは全部公開しましょうということになっています。
これは、たまたまNatureのものだけ持ってまいりましたけれども、Natureですと、こういうような左側のデータが出てきて論文を書く場合は、ここにある公的データベースに入れなさいということが決まりになっているわけでございます。
この中には、先ほど申したように、我が国の例えばDNA Data Bank of Japanなども入っているわけでございます。
それから、こういうふうないわゆるちゃんとした公的データベースがない場合も、Scientific Dataということで、いろんなこういうRecommended Data Repositoriesという形で、どこにどういうようなものがあって、そこに入れるようにしてくださいというようなことが言われていたりするわけでございます。
それから、公開、非公開の基準でございます。このライフサイエンスの場合は、基本的にみんな共有しようという方向なんですけれども、ただパーソナルゲノムみたいな個人同定可能なものは制限アクセスにして、許可が得られる人だけが見られるというような形になっています。このために、いろんな国で、あるいは研究機関でこのデータアクセス委員会というのを設けまして、利用者からの申請を受け付ける、それで見せるか見せないかを判断すると。
それから公開の時期でございますけれども、これはどんどんNational Institutes of Healthのポリシーが厳しくなっておりまして、最近出ましたNational Institutes of Healthのgenomic data sharing policyでは、そのデータは品質管理が済み次第、すぐにデータベースに登録しなさいと。そして、6か月たったら公開してしまいますと、エンバーゴはできないというようなことが言われています。ヒト以外のデータに関しては少し緩いんですけれども、基本的には同じような形で、どんどん公開の時期が早まっているというようなことがあります。
それから、それ以外にも、最近は非常にこういうものまで共有するのかという話がいろいろありますけれども、臨床試験のデータや臨床データなども、どんどん共有して研究を加速しようという動きが出てきていますし、それはまさに国際的にも共有しようというような動きも出てきているというわけでございます。
そのために、先ほどから申していますデータアクセス委員会では、このようなデータに対応して、どう機能を拡張するかというような議論をしているということでございます。
それから、データの保管・公開に関わる役割分担でございますけれども、基本的にはこのデータの保管や運用というのは、先ほど申しました幾つかのデータベースセンターが担っていると。
それ以外にも各研究機関で、例えばアメリカですと、Department of Energyの研究機関などいろいろございますので、それぞれが分野ごとのデータベースを構築、公開をしていると。例えばアメリカのがんセンターでありますとか、そういう幾つかのエネルギー省の関係のものなど、それぞれの大きなセンターが公開していると。それから、出版社はリポジトリを提供していると。それから、学会は自前のデータベースを作ったり、あるいは推奨データベースを使いなさいというようなことを言っているわけです。
それから、データ共有や公開のルール作りに関しましては、基本的に資金配分機関がいろんなガイドラインを作って、それに沿ってやっていると。
それから、制限アクセスデータに関しましては、データアクセス委員会がそれをコントロールしているというわけでございます。
出版社は、先ほど申しましたNatureの例でございましたように、公的データベース、若しくはコミュニティデータベースへ登録義務化、あるいは推奨するということになっております。
これで最後ですけれども、では我が国で、データの共有の義務化に相当するものがどうなっているかということでございます。先ほど申しましたライフサイエンス分野の統合プロジェクトが、10年ほど前に始まりまして、そのときから大分いろんなところに働きかけをし、幾つか賛同いただきまして、今は義務化はされていませんけれども、こういうふうに協力依頼という文章がいろんな公募要領に書かれるようになりました。
最近ですと、いわゆる日本版NIHのAMEDでも、こういうような文言を入れていただいて、データの共有を促進しようという方向に来ていると、こういうような状況でございます。以上でございます。
【西尾主査】大変貴重な御説明ありがとうございました。
それでは、先ほど渡邊室長の方から御説明のありました資料2を御参照いただきたいのですが、この資料の2ページと3ページにわたって、点線で囲まれている文章があります。また、4ページにも点線で囲まれている文章がございます。
2ページのところでは、研究データの公開についての取組ということで、論文のエビデンスとしてのデータの公開というものに関して、時期であるとか形式、種類、場所などをどのように考えるかということについて、一つの案として書かれております。
それから3ページにおいては、研究データの利活用に関わる許諾ルールの明示ということで、何々する必要があるとか、何々することが望ましいとか、そういう形の記述がございます。
それと4ページには、特に情報基盤整備に関して、前回の議論でもアカデミッククラウドの必要性等が意見として出ましたのを受けて、そのことと関連することが書かれております。
それで、今の高木先生の貴重なお話を伺いながら、例えば研究データの公開についての取組というところで書かれている項目について、今後検討を要する項目としてはこれらで十分なのか。3ページのところ、それから4ページのところも、検討事項がそれらで十分なのか。また、現時点で書かれている内容、これが今後の文部科学省における一つのポリシーのもとになっていくと思いますが、そのような記述で十分なのか等々、是非この点線で囲まれているところの文章に対しまして、皆様方からいろいろと意見を言っていただければと思います。
どうぞ。
【逸村委員】高木先生、どうもありがとうございました。
確認なのですけれども、14ページのところで、データ提供者の義務とインセンティブ付与というお話をいただきました。この14ページのところで、結局インセンティブはほぼないというふうにお話しになったんですが、それは逆に言うと、この資金配分機関ファンディングエージェンシー、National Institutes of Health等が義務化を強力に進めているということですよね。
それで、Scientific Dataのお話が出ましたが、Scientific Dataはまだ出て1年ほどなんですけれども、やはりそこら辺にかなり急速に研究者が対応しているというか、対応せざるを得ないというのがインセンティブの、何か日本語が変ですけれども、そういう理解でよろしいのでしょうか。
【高木委員】 Scientific Dataに今どれぐらいデータが集まっているか、私は特に存じ上げません（＊）。ただ、Scientific Dataは、あそこにデータを抱えるということではなくて、公的データベース、あるいは研究コミュニティデータベースに入れろということが中心で、そこのメタデータ的なものをあそこに持っているわけですから、そういう意味では皆さん何らかのデータベースに入れないと、基本的に論文が書けないと。だから、論文を書くというのがインセンティブであれば、そういう意味では義務化されているので、しょうがないというか、それがインセンティブになっているという状況だというふうに理解しています。
（＊2015年7月5日現在85件）
【逸村委員】ありがとうございます。
【西尾主査】ということは、何らかの研究費を得て、その経費をもとに論文を書く場合には、関連データをオープンにするということが必須になっているという考えですね。
【高木委員】ファンディングエージェンシー、それから出版社、両側から圧力がかかっているというふうに御理解いただければと思います。
【西尾主査】分かりました。というのは、この辺りの議論は、日本における研究費の今後の有り様、あるいは研究費に関する改革に、結構、連動している議論です。ただし、前回の議論で出ました意見としては、研究費のみならず、いわゆる運営費交付金における基盤的経費においても、やはり税金を使っている限りにおいては、データの公開をしていくということが重要だというメッセージをこの委員会から発していくということも、重要ではないかという御意見もいただいたところです。
どうでしょうか、ほかに御意見等ありますでしょうか。
喜連川先生、どうぞ。
【喜連川委員】ちょっとお伺いしたいんですけれども、これは研究全体から考えますと、資金の効率的な運用ということになると理解できるわけですが、二重に研究することをリダクションできているという点については、ファンディングエージェンシーから見ると、相当大きなメリットがあるように見えるのですけれども、そういうことを何かベリファイしたようなものというのはあるのでしょうか。こういうことをNational Institutes of Healthが導入することによって、本来無駄であったような研究がどれぐらい減った、何かそういう数値があると分かりやすいと思うのですけれども。
【高木委員】すみません。そういうデータは持ち合わせておりませんが、ただ、少し変な言い方になりますけれども、ライフサイエンスの場合は、ゲノムとかそういうような非常に基盤的な再現性の高い、どういうところからとっても、どの細胞からとっても同じようなデータがとれるというものと、ある種の文脈というようなものによって大分データが違うものがございますので、どこまで本当に一般の普通の研究が、重複が防げるかというと、なかなか難しい面があろうかとは思います。
【喜連川委員】ありがとうございます。もう一つだけお伺いしたいのですけれども、この場合、公的データベースということの維持と、それから検索可能な基盤というものを構築するということが前提になっているわけですけれども、それはある分野に対して与えられるファンドが、どこかのパーセンテージでそういうものに回すんだと、つまりパイは一定の中で、その部分を回さなきゃいけないという認識が、バイオ系の方々は比較的しょうがないという認識なのか、あるいは、この費用がエキストラにくるのか、自分の中でマネージしているのかというのが、何となくよく分かりませんでした。
【高木委員】正直申し上げて、よく私もそこのところは知りませんけれども、例えばアメリカですと、このNational Center for Biotechnology Informationというセンターはある法律のもとに基づいて作られていると。ただ、その予算が、例えば研究費が増えるにしたがって変わっていくかと、そんなことはどうもないようですので、ある程度は毎年予算要求していますから、微妙に考慮されるんだと思いますけれども、今先生がおっしゃったような形で、研究費総額とその何％かというような形で担保されているわけではないと思います。ですから、数年前ですけれども、データ量が増えすぎてパンクするので、データの受け付けをとめようかという議論なんかもアメリカでは一時ありました。
それから現在も、やはり先ほど申しましたように、このままいくと2エクサバイトくらいのところまで見込まれると、それを本当に公的資金で完全に無料で公開していくのか、あるいは負担金を受け取るのかという議論は、これからいろいろ検討しないといけませんけれども、一つは今データベースを使う人は皆さん無料ですけれども、むしろデータを預かる、データをもらう側に少し課金した方がいいんじゃないかというようなやり方も、アメリカでは今検討されつつありまして、そういうような、まあ論文の場合は読者が払うのか、論文投稿者が払うのかですけれども、ちょうど今と同じような形でデータに関しても、データを見る人じゃなくて、データを預ける人からお金を少しとった方がいいんじゃないかという議論はございます。そうすると、丸ごと預けられると自分のサーバーには、ローカルには持たなくてよくなるというケースもあり得るので、自分のラボに置かずに全部データベースセンターに置いて、必要なときに自分のデータをそこから見るというようなことだって、将来的にはあるのかもしれません。その方が、多分コストが下がるとは思います。
【喜連川委員】ありがとうございます。今、記憶空間はムーア則がかなり鈍化してきていますので、つまり、維持するコストが昔に比べるとどんどん上がってくるものですから、そういうことでお伺いした次第です。どうもありがとうございました。
【西尾主査】今の質問と関係して、高木先生として、例えば研究費と連動してそういうものを維持し、発展させるようなことが、経費の中に盛り込まれているべきであるとか、先生としての御意見は何かございませんか。
【高木委員】まず、どこまでこういう分野をサスティナブルにしていくかということがこれからの非常に重要な課題で、その一つの方策として、ちょっといい言葉かどうか分かりませんが、例えば消費税的なもので、あるプロジェクトをやったら、その1パーセントや3パーセントをこういうようなインフラに充てるというような考え方もあるのかもしれませんし、それから先ほど申しましたように、国全体で見ますと、誰がどういうサーバーを買うかという場合、個々で買って、それからしかもそのセキュリティをちゃんと保つことを考えるとなかなか大変なので、それを中央で持つというようなこととか、幾つかのものを併用しながら、そのときは当然お金をとるわけですけれども、そういうものを併用しながら今後進めていくのではないかと思っています。
ただ、そのためにはやはりネットワークが相当太くないといけないとかですね、いろんな技術的な問題もあるかとは思います。
【西尾主査】ありがとうございます。そこら辺が、一方でアカデミッククラウドというようなところに関係していくのだと思っております。
はい、そうしましたら、美馬先生、それから井上先生。
【美馬委員】高木さんに質問です。5ページのところで統合の考え方、意義、効果というのを御紹介いただいて、確かにそうだろうなとは思いますが、例えば具体的に小規模データかビッグデータ、小規模のデータがいっぱい集まってくれば、もっと何か出てくるんじゃないかとか、ほかの観点からデータを活用すると、確かにちょっと違うものが出てきそうだというのは、概念というか考えとしては分かります。そこで、具体的に何かこうこういうものが活用されているとか、やり始めて何か出てきた例というのを御存じだったら教えてください。
【高木委員】基本的には、いわゆるゲノムデータがそれに相当すると思います。例えばこれまでは、ヒトのゲノムだけを研究していた人が、自分のヒトのゲノムのある遺伝子の機能を調べようとすると、先ほど申しましたように、ほかの生物で分かっている機能を調べてくることによって、自分の遺伝子の機能が分かるとか、そういうことはもう日常茶飯事に今起きているというような状況でございますし、5ページの一番下にありますように、そういうものを活用して新たな論文がいろいろ出ているということも、現実問題として起こっているということで。
そういう意味では、生物のデータ全てがというわけではありませんけれども、非常に再利用性の高いゲノムとかタンパクの構造とか、そういうものに関しましては皆さんもう、余りにも当たり前にそれをいろいろなところで駆使して研究しているというような状況でございます。
【美馬委員】ありがとうございます。
【井上委員】高木先生、ありがとうございました。利用のためのライセンスに関して伺います。先生の資料12ページの下の方に、利活用のためのライセンスについて、CC－BYやCC0などのライセンス付与というふうに出ております。ライセンスについては、標準化と互換性の確保は非常に重要ですが、今の世界の流れとして、クリエイティブ・コモンズがかなり普及していると思います。CC－BYとCC0のいずれかの選択となった場合に、CC－BYが主流なのでしょうか。2010年のパントン原則では、CC0あるいはパブリックドメインで対応すべきだという提言があり、それなりの支持を集めていたように思います。現時点では、クレジットとの絡みもあってCC－BYを活用しようという動きの方が強いのでしょうか。教えていただければと存じます。
【高木委員】まず、ここにはCC－BYとCC0しか書いておりませんけれども、御存じのようにCC－NCだとかNDだとかSAだとかいろいろございますので、今現状はそういうものが、ちょっと数的にはどれがどれくらい使われているかというのは確認しておりませんけれども、いろんなものが今混在しているという状況だというふうに理解しています。
ただ、やはり共有しようという背景には、できるだけ自由に使おうということでございますので、CC－BYを推奨するようなところが多いように思いますし、最近ですと、やはりCC－BYでもなかなか難しい、いろんなデータを二つマージしたときにどうなるかとかいうことになると、結局いろいろ議論していくと、やはりCC0にしないと利活用はなかなか難しいということで、どこまで理解が得られるか分かりませんけれども、CC0を使おうという機運はそれなりに強いようには思います。ただ、そうは言っても、なかなか反対される方が多数いらっしゃいますので大分時間がかかると思いますが、CC0の方向かと私は理解しています。
【井上委員】もう一言だけ。そうしますと、CC0にした場合、著作権の処理としてはCC0になるが、学術コミュニティの中でのデータ作成者のクレジットの表記は、著作権とは別に表記させる、法的に拘束力ある形ではなくて、コミュニティ全体でルールとして共有していくという方向性も現実的にありうるのでしょうか。
【高木委員】はい、それは今後あり得ると思います。
【井上委員】ありがとうございました。
【西尾主査】はい、竹内先生どうぞ。
【竹内委員】千葉大学の竹内でございます。高木先生の大変興味深いお話をありがとうございました。私の知らないことがたくさんありまして大変勉強になりました。
それで、7ページのところにあるデータ利用に関する障害という観点ですが、大変多くの障害がまだ残っているという印象はありますが、実際には、ゲノムの領域では、データの共有は全体としてはかなり進んでいるのだと理解しました。
このデータ利用における障害の中で最も解決が困難と、現時点で高木先生が認識なさっているものは何かということを教えていただければと思います。
【高木委員】フォーマットやある種のオントロジーみたいなものは、徐々に整理をされて、時間がたてば進んでいくと思いますけれども、やはりデータをどう解釈するか、あるいはどういう文脈のデータをどう活用できるのかというのは、そのデータの持つ本質的なものと、たまたまそうだというようなことを分けていかないといけないわけですから、当然研究が進まないとデータの解釈そのものをどうするかという問題は、なかなか難しいので、そこのところは残っていくと。
そうなると、いろんな分野のデータの統合というのが進みつつあるわけですし、網羅的なデータのことを我々の分野ではomicsと言いますけれども、ゲノムとかプロテオームとか、最後に網羅性を表すomeをつけます。それでomicsというのは、例えばゲノミクスというように、ゲノムを研究する学問はゲノミクス。それでome、あるいはomicsという言い方をしますけれども、そういうものがいっぱい出てきて、ある資料によりますと1,000くらいあるとか。その中には玉石混交で、どれが再利用可能というか、ほかの人も使えるものなのか、そうでないのかということを、これからやはり研究を進めていく上で少し明らかにしていかないといけないと。その辺りが、それはデータベースの問題というよりは研究そのものの問題かもしれませんけれども、一番難しい問題かなとは思っています。
【竹内委員】ありがとうございました。
【西尾主査】北森先生、どうぞ。
【北森委員】現状について、非常に分かりやすいお話をいただきまして、大変ありがとうございます。
現状についてはよく理解できたのですが、この現状に対して、特にバイオの分野の先生方、我が国の先生方がこうしたデータベースセンターを整備する、我が国の中に整備するということを、どのくらいアージェントな課題として皆さん思っておられるのでしょうか。あるいは、もう既に欧米でこうしたことが既成事実として立ち上がりつつあるところに対して、どのような危機感がおありで、これを若い人たちが自分たちの研究を進めるという観点に立ったときに、この既成事実化している、しようとしている欧米のデータベースを活用していく方がいいのか、それとも我が国にそれに対抗するデータベースがあった方がいいのか。ちょっと先の見通しをお願いできればと思います。
【高木委員】まず、生物といっても御存じのように非常に多様な研究分野がございますし、多様な考え方の先生方もいらっしゃいます。やはり、このデータを共有していこうというのは、先ほどomeという話をしましたけれども、網羅的に物事を解析していこうという、例えばゲノムとかプロテオームとかですね、そちらの方々がやはり中心でございまして、そうでない個別の非常に特殊な生命現象を研究されている先生方は、必ずしもデータベースの重要性だとかそういう共有の重要性というのは、道具としては日々お使いになっていると思うんですが、必ずしも御理解されていない面はあろうかと思います。
そういう意味で、生命科学者全員がデータベースということに関して、非常に大事だというふうに思っているということでは必ずしもないとは思いますが、でも大きな方向性として、私はこの統合プロジェクトに10年ほど前から携わっておりますけれども、この10年で全く変わったように思います。皆さん、この重要性というのは、特にゲノムプロジェクトによりゲノムのデータを使って研究するようになりましたが、そういうもののデータの重要性というのは多くの方が理解されていると思います。
そのときに、先生がおっしゃいましたけれども、じゃあ我が国で作る必要があるのかと、極端なことを言いますとですね、アメリカにいいデータベースがあるんだから、それを使えばいいんじゃないかというような考え方も、まだそういうことをおっしゃる方もいないわけではございません。ただ、そうは言っても、やはりデータのどろどろしたところのハンドリングを抜きに研究はできませんので、それを我が国が手放してしまうと、研究そのものが危うくなるんじゃないかと思って、私自身はもちろん思っていますし、そういうことに賛同される方も大分増えてきたと思います。
それから、もう一つ最初にお話のありました、欧米でもう大分前から確立してデータベースができていますから、後追いでどうなるのかという問題がありますけれども、生物の場合、非常にいろんな種類の手法が開発され、新しいタイプのデータがどんどん出てきておりますので、ゲノムというのはやはり非常に重要ではありますが、それ以外のデータも様々ありますので、まだまだ我が国が戦える、あるいは重要な部分というのはありますので、そういう意味で、データベースを作ることに十分意義を見いだしてくださる方は多いんじゃないかとは思っております。
【北森委員】ちょっと分野が違うのですが、私の分野はむしろデータを取り出す方の分野で、バイオの方にも使っていただこうというような研究をやっているんですが、現場感覚からすると、この実験で出てくるデータを、言わば実験ノートを公共の場に置きましょうと、そういう流れですよね。そのときに、実験ノートが今までは自分たちの研究室にあったものが、これがある場所に置かれ、それが自分の国ではないという状況も生まれてしまうのが、研究を進める上、あるいはローカルなコミュニティで研究を進めるということは大いにあり得るわけですけれども、そこのローカルのコミュニティが、むしろ我が国の外に行ってしまうということが現実的に起こり得るということ、我が国で整備していなければそれが外に行ってしまうということが起こり得るということでしょうか。
【高木委員】おっしゃるとおりです。先ほども冒頭にお話ししましたように、様々な種類のデータベースが作られています。ある動物のあるゲノムのデータベースだとかですね。それは日本だけで取り組んでいるものもございますけれども、やはり欧米と連携してそのデータを出して、データベースを作っているようなことがございます。そうすると、欧米のデータベースにどんどんそれが蓄積されていくような分野というか、データベースもございまして、それはやはり競争力という意味では、我が国がそうなってしまうと厳しい状況にあるということが言えると思います。
【西尾主査】どうぞ。
【相田委員】この生物の分野は、データ、例えばPDBは結構フォーマットがしっかりしていて、誰でも使えるようにフォーマットができていますよね。それは、そのようなしっかりしたものを作った人たちがいるからだと思うんですけれども、そういうレベルのデータベースと、本当に何でもいいからとっておくみたいなデータベースとでは、使い方というか全てが異なると思うんですね。
この7ページ目のところに、バイオインフォマティシャンの不足で競争に負けるという記述があるんですけれども、そういう本来のいろんなデータをちゃんと使えるようにするためには、その研究の中身をある程度分かっている人が、使うためにはこういうようなフォーマットにしておかないと駄目というのが分かっている人がいないと、ちゃんとしたデータベースにならないと思うんです。生物の分野はそういう人たちが少ないなりにもいるから、ちゃんと使えるような形ができているんだと思うんですけれども、それを一般化するのは結構困難じゃないかと思うんですけれども。
分野ごとにそれぞれ事情が違うので、分野ごとに必要なフォーマットだとか、どこを強調すべきか全部違うから、それなりの非常に優秀な能力を持った人がいないと、ちゃんとしたものができないんじゃないのかと思うんですけれども、この競争に負けるという記述はそういう意味なのでしょうか、それとももう少しほかの意味が含まれているのですか。
【高木委員】まず競争の前に、もちろんおっしゃったように、生物のいろんな分野があって、大分様相が違いますので、データをどう持てばいいかというのは違う面がございますけれども、先ほど申しましたように、やはりゲノムが出てきてから、みんなゲノムをベースに物事を考えるということになりますと、そこのベースのところは同じなんですね。そういうところがございまして、大分個々の違いはありますけれども、共通する部分も結構多いということで、最近ですと私どももそうですけれども、セマンティック・ウェブやRDFの技術を使って、生物横断的、あるいは研究分野横断的にいろんなデータをつないでいこうと。逆につながないと、例えば植物と微生物をばらばらに研究しているのでは駄目で、一緒に共生しているとか様々なことを研究、あるいは環境がどうなっているかとか、その辺りを全部つながないと、なかなかいい研究ができないということで、その分野を超えてつないでいこうというような状況があるかと思います。
ただ、ここで競争に負けるというのはそういう意味ではございませんで、データをアメリカもヨーロッパも用意ドンで皆さんがどこかにあるコモンズに持ち寄ったときに、そこからどういう論文を書くかとなると、やはりそこのデータをどう解析する能力があるかによって、勝ち負けが決まってしまうわけですね。そうすると、無邪気にデータを出すと自分は全然論文が書けなくて、他人の論文を書くのを手伝ってしまうというようなことが起きるということを懸念されると。
日本の場合は、そこの解析力、データサイエンスと言ってもいいのかもしれませんが、そこのところが一般に弱いというような、それは分野によって大分違うと思いますけれども、特にバイオの部分は弱いというようなことを言われておりますので、そうすると、自分はデータを出したけれども、論文1本も書けずに終わるんじゃないかという危惧があるということでございます。
【相田委員】結構バイオ分野の研究者が多いので、そうするとそういう研究者に対して、そういうような教育をしなきゃいけないということを暗におっしゃっているように聞こえましたけれども、そういう理解で正しいですか。
【高木委員】その人たちがデータを自分で解析する能力を高めるということも重要だと思いますが、そういうものを専門に解析する人の人口も増やしていかないといけないと思っています。両方の意味でございます。
【西尾主査】どうぞ。
【羽入主査代理】簡単に二つ教えていただきたいんですけれども、一つは、ライフサイエンスの分野でこのような形でのデータベースが必要だというのはとてもよく理解できるんですが、高木先生に伺うことではないのかもしれませんけれども、全くほかの分野で考えたときに、何か本質的に違う部分があるのかということを教えていただければと思います。
もう一つは、先ほどデータの質の保証の話をしてくださいましたけれども、これは膨大な量のデータが蓄積されていったときに、どういうふうにして質の保証が可能なのか、あるいは自然に淘汰（とうた）されていくものなのか、そのようなことを教えていただければと思います。
【高木委員】まず、最初の方のほかの分野でということでございますけれども、私は余りほかの分野のことを存じ上げませんので分かりませんけれども、基本的にはいろんな分野でデータを共有して、研究を進めようということは進んでいるように思います。
ただ違うのは、要するにそのデータを単に置いておけば割とみんなすぐに利用できる性質のデータと、ライフサイエンスみたいにいろいろこう手を入れて、少し整理をしないと他人が使えるようにならないという、そこの違いがあるかと思っています。
そういう意味で、割と大きな、例えば国に一つしかないような装置から出てくるデータですと、それは余りノーマライズしなくてもいいわけですけれども、小さな装置から何百、何千の研究室から出てくるようなデータですと、そこはやはりある種の正規化や標準化をしないと使えないと。その違いはありますけれども、共有しようという方向は、いろんな分野で、材料科学などでもそういう動きになっていると思います。
それから、2点目は質の保証ですけれども、これは非常に難しい問題だと思っています。先ほど幾つか例を書きましたけれども、それで十分ということでは全くありませんで、最低限のチェックをしているという状況でございまして、やはりそれはデータをサブミットした人、それを使う人がやはり責任を持ってやらないといけないと。そのときに、だから先ほども言いましたように、何も処理せずに入れて、何も処理せずにデータを読むと、全くうまく使えず、そのデータの価値を生かせませんので、やはりそこに誰か介在をして、整理をする必要があると。そのときに、非常に品質を保証したデータベースと、それから保証はしないけれども、そこに行けばほとんどのものが入っていると、そういう幾つかのタイプのレベルの違うデータベースを、幾つも運営していかないといけないとは思っております。
【羽入主査代理】ありがとうございます。
【西尾主査】どうぞ、久門先生。
【久門委員】大変興味深いお話、ありがとうございます。幾つかお聞きしたいことがあるのですけれども、データを再利用可能な形に保持し続けなければいけないということは、かなりコストの高い問題だと思っています。フォーマットは、当初からある程度限定されていたわけではなくて、膨大な数が最初にあったものが、ある程度淘汰（とうた）されて収れんしていったんだと思います。そのように淘汰（とうた）されるために、淘汰（とうた）を促進するための何らかの力とか、あるいは淘汰（とうた）を誰が主導したのかといったことについて、もし御存じでしたら教えていただきたいというのが1点目。
あともう一つは、出す側から見て、データを作る側が、特定の形式の共通データにすべきだ、要するに独自のものを出すよりも、共通の形式にした方がいいというインセンティブは、どこら辺から生まれているのかというのが2点目。以上、2点お願いします。
【高木委員】まず、前半の御質問ですけれども、確かにおっしゃるように、これまで非常にいろんなフォーマットなりデータベースの仕組みというのが、試しては失敗するというかそういうことで、例えばオブジェクト指向にしようとかそういう時代がありましたし、それからXMLで書こうと、今はそれもまだ生きていますから、それからASN.1というフォーマットを使おうとか、様々な動きがあって、それがどうして淘汰（とうた）されてきたのかよく分かりませんけれども、何となく徐々に今まとまりつつあるということでございます。
ただ、一番ベースになっているデータは、いまだに単なるフラットファイルで交換しているような状況でございまして、そういう意味では、データベースのテクノロジーが非常に生かされている分野と、生かされずにずっと昔のものが残っているということがまだ混在しているというのが、現在の状況でございます。それが、どういうふうにして淘汰（とうた）が起こっているのかちょっと分かりませんけれども、やはりいろいろアメリカとヨーロッパでは考え方が違いますので、どっちのフォーマットを採用するか、常にいろいろ戦いといいましょうかそういうことがあって、その中で何らかの形で今あるところに落ち着いてきているという状況でございます。
それから2点目の質問は何だったでしょうか。
【久門委員】 2点目の質問は、データを作成する側は、勝手に作れと言ったら本当にいろんなフォーマットが次々と生まれると思うんです。努力してでもデファクトというか、そういうよく使われているフォーマットにしたい、あるいはしなければいけないと思うインセンティブは、教育によって強制していったとか、あるいはデファクトを作って入れた方が様々な見返りが大きいとか、どういったものがあったのでしょうか。
【高木委員】まず、今ゲノムなど、割とこの分野で重要なデータベースは全部公的データベース、あるいはコミュニティデータベースができておりますから、そこでのフォーマットで受け付けるということなので、それは強制的にそこに入れざるを得ないと。あるいは、センターによってはそういうものを少しアシストするような仕組みなどがございますけれども、基本的にはそのフォーマットに従って入れると。
ただ、多分先生の御質問は、例えば新しい分野が出てきたときに、それをどうフォーマットにするのかということでございますけれども、これに関しては余り手がついていなくて、こう言っては何ですけれども、適当にそこにいる人が作ってしまうというケースは多々あります。
ですから、そういうものを防ぐために、私どもとしては先ほど研究申請のときにデータマネジメントプランという話もございましたけれども、データベースができてしまって、プロジェクトが終わってからそれをフォーマットを変換して統合するのではなくて、プロジェクトがスタートしたときから一緒にデータベースを作り上げていく、必要なオントロジーも既存のものはできるだけ使うようにするとかですね、そういうような活動を、要するにプロジェクトの初期から関わっていくような仕組みを作れないかとは思っております。
【久門委員】どうもありがとうございました。
【西尾主査】加藤委員、どうぞ。
【加藤委員】高木先生の御説明の中の7ページのところで、我が国の事情というところがございます。この部分で、例えば資金配分機関からの共有の義務化のルールがないと記述がありますが、もしルールがあると進むのでしょうかという質問です。逆説的に考えると、高木先生はこの6点を挙げてございますけれども、この6点を改革する、あるいは改善するためにはどうすればいいかというようなところで、何かお話があったらお伺いしたいと思っています。
特に、義務化をしてほしいと研究者側が思っているのかどうかというのも含めて、それから資金配分機関、それから学協会、それから大学等々、ステークホルダーがたくさんございますので、その辺のところ、義務化のルール無しという状況で、義務化のルールがあれば進展するということがあるのかどうか。
それから、今データの囲い込みの話もありましたけれども、論文になって、オープンになったときのデータというものと、それ以外のデータはたくさんあると思いますが、その辺のところ、バイオ関係では、実は研究途中のデータも公開するというようなそういった仕組みがあるのかどうかというところ。
それから、データの権利関係不明と記述してある点についても、海外と違っているところがあるのかどうかというようなところ。特にこの6点について、もう少し高木先生のお考えを教えていただければと思うのですが。よろしくお願いします。
【西尾主査】少しコメントさせていただきたいのですけれども、要はこの委員会として、例えば研究データのオープン化ということに関して、内閣府のもとでメタなレベルの指針が出ている中で、文部科学省として、よりブレークダウンしたポリシーを提示することを考えたとします。さらに、全分野共通的なものをなかなか一遍に出してしまうのが難しいときに、まず、ライフサイエンスに限って事例的なポリシーを提示することを考えたとします。
それがほかの分野にも波及を及ぼすというようなことを考えたときに、高木先生のお考えとして、我が国の事情を踏まえた上で、先生の今日お話しになったようなことをベースとして、この委員会からそのようなポリシーを発信するということに関するタイミング的な課題をいかがお考えでしょうか。そういうことも考慮していただいて、今の加藤委員の御質問にお答えいただけますと、我々としては有り難く思っているのですけれども。
【高木委員】なかなか難しい御質問ですけれども。まず、義務化のルールは今はないというのがよく御存じのとおりで、最後にお話ししました公募要領に協力依頼が書かれているだけという状況でございますので、やはり欧米の例を見ていても、先ほどのPMC、PubMed Centralも、義務化した途端に非常に論文が格納されるようになったとか、様々な効果はあると思いますので、私はどの程度強い義務化かはともかくとして、今の協力依頼よりは、もうちょっと強めのものが何かある方がいいんじゃないかと思います。
それから、コミュニティ全員が賛成されているかというと、基本的には必ずしもそんなことはないだろうとは思います。ただ、これはライフサイエンスの特殊事情かもしれませんけれども、皆さんやはり多くの研究者は、欧米で留学をして帰ってくるという方が大部分でございまして、そういう意味でやはり欧米流のルールに従うというのは、そんなに抵抗がないという側面もございますので、アメリカのNational Institutes of Health、あるいはWellcome Trustもそういう方向なので、それほどは抵抗ないと。皆さんやはり他人のデータを使うという、先ほどのアメリカのデータベースを使っている人も多数いますので、そこのところはそうなんですけれども、でも一方で自分のデータはちょっと隠したいという、そこのところの総論賛成、各論がどうのこうのみたいなところが若干あるのかと。そこをうまい具合に、どう作文していいのか分かりませんが。
それから、データの囲い込みの話でございますけれども、これは従来から大きなプロジェクトをとった方は、皆さんデータを公開しますとおっしゃるんですけれども、一般には公開はされていますが、共有はされていません。あるキーワードを入れると、それにひっかかるデータだけは見せるという意味での公開はよくされているんですけれども、やはり丸ごと使ってほかの分野のデータと組み合わせて、何か新しい発見をするということがイノベーションを起こすことだというふうにすると、やはり狭い意味での公開ではなくて、共有ということを進めていかないといけないと思いますし、その共有によっていろんな成果が出てきていることは、ゲノムプロジェクトをはじめ明らかではないかとは思います。
それから、データの権利関係は、私どもはCC－BYとかCC0、そういうものを推奨しておりまして、大分広まってまいりましたけれども、我が国にあるデータベースの多くは、まだ権利関係について何も書いてありません。そうすると、企業の人にとっても、いわゆるアカデミックな人にとっても、そのデータベースを使ったらどういうふうに謝辞を書けばいいのか、あるいは特許を出していいのかとか、様々なことが非常に不安で、なかなか使えないという声をよく聞きますので、仮にCC－BYじゃなくても、CC－BY－NDでもNCでもいいのかもしれませんけれども、そこのところをやはり明確にするということが非常に重要かと思います。
それからバイオインフォマティクスは、人手が足りませんので、私どもの我田引水的な意味ではなくて、やはり人を増やさないといけない。
それから、受皿となる中核センターがないと。これはもう大分解消してまいりましたけれども、ただ先ほどお話ししましたように、三つも四つもまだ日本にあるので、そこをどう連携させるか、あるいは一つにしていくのかというのが、次の課題だと思います。
それから、プロジェクトが終了すると、データを管理する予算がなくなってしまいますので、どうにもならないという状況で、やはり先ほどの消費税がいいのか分かりませんけれども、プロジェクトが終了したらどこかに入れることとかですね、そういうことをしないといけない。
それから、どの範囲のデータか、これが一番難しい問題です。それなりにジェネラルに議論しますと難しい問題ですけれども、個々に見ていくと、それなりにこれは共有すべきデータであるし、このデータは見せる必要がないというのは、そんなに難しい問題ではないとは思っています。
【西尾主査】高木先生、貴重な御回答をいただき、誠にありがとうございました。ライフサイエンス系として、やはりこの辺りで先ほど来の問題点があるのだとしたら、何らかのポリシーをオールジャパンで作っていくということに関しては、必要不可欠と考えてよろしいですね。
【高木委員】はい、そのように理解しております。
【西尾主査】はい、どうぞ。
【井上委員】先ほどと少し違う観点からの質問をさせてください。7ページの我が国の事情のところで、データの権利関係というのが出てまいりますけれども、クリエイティブ・コモンズですとか著作権絡みのことではなくて、特許も含めた知財戦略との関係はどういう状況にあるのでしょうか。例えば産業界との共同研究ということもありますでしょうし、それから大学自身も特許を取って利活用を図るというのが最近の動きでございますけれども、特にライフサイエンスの分野でデータをオープンにする、共有にしていくということについての知財戦略との関係で当事者にためらいがどの程度あるのか、教えていただければと思います。
【高木委員】御存じのように、今おっしゃったように、企業が一緒に入ったコンソーシアムなどで、あるプロジェクトをやってデータを出すというようなこととかも、いろいろ我が国でも行われておりますので、そういうものに関してどこまで、いわゆる全部を公的資金で行ったプロジェクトと同じにするべきかどうかということは、少し精密な議論をしないといけないとは思います。
少し前までは、企業の方はやはり隠したいというのが多かったんですけれども、最近はオープンにしようということが、非常に私は増えてきたように思いますので、その辺りはそれほど心配しなくてもいいかと思っています。
それはどういうことかと言いますと、バイオの場合は多分、何か一つが決まったら、もうそれ以上手も足も出ないということじゃなくて、例えば同じ病気でも違う変異があって同じ病気になっているとか、様々なことがあるので、何か一つの特許が押さえられたからということではないようなケースが多いと思いますので、そうすると公開しても、しかもまた非常にこれだけ遺伝子の数もありますし、様々なことがありますので、変異も何百万とあるわけですから、その組合せなどで考えていきますと、また新たな組合せで何か物事を見つけられることもありますので、それはやはり隠すことのメリットとみんなで共有して解析するメリットと、どちらがどうかというと、最近はそちらの方の、共有していろんなことをしていった方のメリットを感じる人が、企業も含めて多くなっているというふうに理解しています。
【西尾主査】よろしいですか。
【井上委員】はい。
【西尾主査】先ほどの北森先生からの御質問で、実験ノートの問題が出てきたのですけれども、北森先生としては、もう少し研究倫理とも絡めたより深い質問をなさっておられたのではないか、ということを察しておりまして、その辺りいかがでしょうか。
【高木委員】まず、研究倫理でデータをどこかに保管しておいて、必要に応じてそれを見るということは、今非常に重要な状況になってきておりますが、一方でそれを再利用しようというときには、もう少し手をかけていろんなことを処理しないといけない。そうすると、やはり研究不正のデータをどこかに保管しておくということと、それを再利用するということは、やはり大分距離があると思っていまして、研究不正用の場合ですと、一応どこかに置いて無くならようにする、必要に応じて取り出せるということだと思うんですけれども、この再利用やイノベーションということになりますと、大分違う処理をしないといけないというふうに感じておりますので、それを今後どういうふうに2種類のデータベースを作っていくのか、1種類でそれを兼ねるのかということは、これから議論しないといけないと思っています。
【西尾主査】よろしいですか。
【北森委員】先ほどのバミューダ原則だと、24時間以内にアップしないといけないと、そういう分野もあるわけですね。そうすると、倫理上の問題だけでなくて、クオリティーの問題で、不確かなものをあげるようなことにもどんどんなってしまいます。現場での意識と、それからこうした制度をどうするかということが余りかい離してしまうと、少しちぐはぐなことにならないかという懸念もあります。
今のIT技術だったら、ラボでとったデータが自動的にデータベースに格納されるようなことを、技術として開発することだってできてしまうわけなので、その辺りの現場感覚をうまく持ち込み、反映させるということも非常に重要なこととは思います。
【高木委員】おっしゃるとおりで、どんどん公開時期を早めようとか、共有の時期を早めようという方向にあるんですけれども、先ほどのNational Institutes of Healthのガイドライン、ゲノムのデータシェアリングのポリシーでも、品質管理が終わったら何か月とかいうことになっているので、その品質管理を長くとれば、それなりにデータを保持することもできるし、今先生がおっしゃった現場の事情というのは、実際の運用において、その辺りにうまく反映するような仕組みというのもとれるかと思っております。
【西尾主査】あと安達先生は御意見ございませんか。それと美濃先生、科学官として何かお言葉ありましたらどうぞ。
【美濃科学官】データを共有してどんどんたまるということは、大賛成ですが、これがずっとこのまま続いていくとどうなるんだろうということを、反対に心配するんですね。どこかでデータの賞味期限というか、何か残しておくものと、消えていいものというのを分けていかないといけない。将来的にはきっとそういうことが起こるだろうと思います。そういうことに関して、何かコミュニティなどで議論がなされているのかどうか、その辺りの話をお聞かせください。
【高木委員】まだその辺に関しましては、議論が始まったばかりというか、ここ数年で急激にこういう状況が出てきましたので、これから議論しないといけないと皆さんは言っているんですけれども、具体的な何かある種の戦略が出たわけではございません。
ただ、一方でゲノムの今の状況ですと、保持するコストと、それから新たにもう一度読み直せば、測定し直した方が安いというようなこともありまして、その辺の分岐点、でも一方で、非常に貴重な資料に関してはずっと保存しないといけないとかですね、そういうことがいろいろなケースで考えられます。それから、個人やラボでデータを保持するより、どこか中央で持った方がいいということも含めて、多分それだけ全体を見渡した何か戦略を今後立てていく必要があるだろうとは思っていますが。
ただ、これだけやはり国際的にいろいろ連携していますので、我が国だけでこうするというわけにもいかないので、その辺はこれから国際的にも連携しながら、方向性を出していくことになるかと思っています。
【安達国立情報学研究所副所長】お尋ねしたいのは、中核的なデータベースセンターがないという御指摘に関してですが、この分野のデータについてある程度フォーマットや作法が決まっているようなデータを、ある意味で粛々と組織的に維持していくというものと、研究のダイナミズムがあり、まだフォーマットも決まっておらず、どんどん変わっていくというようなものを区別して扱うことが適当なのか、中核センターが融通無碍（ゆうずうむげ）に先端的に動いている研究分野のデータも支えるところまでカバーしなければならないのでしょうか。その辺について教えていただけませんでしょうか。
【高木委員】まず、この7ページに書いた中核センターがないというのは、今から数年前の話を書いておりまして、ある意味では、その後幾つかのセンターができておりますので、この問題は少し解消しつつあるかと思っています。
それから、一つの戦略としまして、例えば今私のおりますNational Bioscience Database CenterというJSTのセンターでは、そういう基盤となるもののデータベースは自前で作り、それから今おっしゃったような非常に新しい分野、出てきたような分野はファンディングという形で、その分野のデータベース支援、構築を支援すると、そういう2段構えで今やっておりまして、それが分野が枯れてきて、フォーマットなりオントロジーが整理されていくと、それはファンディングじゃなくて自前でサービスしていくと。そういうようなロードマップを考えております。
【西尾主査】どうもありがとうございました。まだいろいろ御意見はあるかと思うのですけれども、予定しておりました時間が来ております。
高木先生、本当に貴重な御説明と、個々の質問に対しまして本当に丁寧な御回答をいただきましてありがとうございました。本当に参考になりました。
次回は、7月31日でございますけれども、今日の意見、また前回いろいろ頂きました貴重な意見を踏まえまして、次には中間まとめの案を事務局の方から準備していただくことにしておりまして、それをベースに審議をしていきたいと思っております。
それでは、事務局から連絡事項等があればお願いいたします。
【榎本参事官】失礼いたします。本日は高木委員、本当にありがとうございました。今回の議論をするに当たりまして、学術情報のオープン化に関しては、どうしても議論が抽象的になりがちなため、ライフサイエンスに関しまして、高木委員の長年の御努力がありますので、それを御紹介いただいてはどうかということで、今回の御発表をお願いしたところでございます。その後の質疑の応答も含めまして、本当にありがとうございます。
先ほど主査からもお話がございましたけれども、次回に向けて論点整理をしたく思っております。このテーマに関して非常に論点も多く、また各論で詰めるべき点等も多々ございますけれども、押さえるべき点を明確にしていきながら、スケジュール感も含めて次回に向けて準備したく思っております。よろしくお願いいたします。
次回に関しましては、7月31日の午後を予定しております。また、それ以降の当面の予定に関しましても資料3のとおりでございますので、御多忙のところ恐縮ですがよろしくお願いいたします。
以上です。
【西尾主査】それでは、本日はこれにて閉会とさせていただきます。どうもありがとうございました。
── 了 ──

お問合せ先

研究振興局参事官（情報担当）付学術基盤整備室

佐々木、三石
電話番号：03-6734-4080
ファクシミリ番号：03-6734-4077
メールアドレス：jyogaku＠mext.go.jp（コピーして利用される際は全角＠マークを半角@マークに変えて御利用ください）

（研究振興局参事官（情報担当）付学術基盤整備室）

第8期学術情報委員会（第3回） 議事録