資料3 オープンサイエンス推進における課題及び論点(案)

1.オープンサイエンスが求められる背景

(1)世界的な検討と我が国の現状

  ○ オープンサイエンス推進の方向性は、G7やOECDで議論されるなど、世界的に検討が進んでいる。既に米国やEU、豪州において、オープンデータの積極的な活用に向けた取組が進められている。
  ○ このような状況下において、我が国が世界の潮流に乗り遅れることがあれば、我が国の研究活動に大きなデメリットを生じる恐れが指摘されている。
    ・ 国費を投入した研究データの海外流出
    ・ 地球規模研究におけるデメリット
    ・ 研究活動における効率化、国際発信におけるデメリット
    ・ 日本の「見えない化」
  ○ 我が国においても、世界と積極的に連携し、オープンサイエンスの動きに遅れることなく、具体的な取組を進めていく必要がある。その際、我が国が強い分野では主体的に、また即応出来ない分野ではデファクトスタンダードに則るか国際標準化をリードするかを選択して対応する必要がある。

(2)オープンデータを推進する意義やオープンデータへの期待

  ○ 研究データの相互利用を促進し、知の創出に新たな道を拓くことが期待される。とりわけ、データ駆動型の研究を推進することで、イノベーションの創出につなげることを目指した新たな科学の進め方が注目されている。
  ○ 研究者間、あるいは専門分野を超えた知の創造の加速、新たな共同研究スタイルや研究方法の誕生が期待される。
  ○ 社会に対する研究プロセスの透明化による理解の促進が期待される。
  ○ 適切な評価がなされないまま同じ研究課題に研究費が投入され続けることなどを避けることによって、研究費の効果的な活用を可能とすることが期待される。

2.オープンサイエンス推進の方向性

  ○ オープンサイエンス推進の方向性は、内閣府における政府全体の検討や第5期科学技術基本計画、科学技術・学術審議会における審議において概ね以下のように示されている。

   ・ 公的研究資金(競争的研究資金及び公募型の研究資金)による研究成果の利活用を可能な限り拡大する。このため、当該研究成果のうち、論文及び論文のエビデンスとしての研究データは、原則公開とする。
   ・ その他の研究成果としての研究データについても、分野により研究データの保存と共有方法が異なることを念頭に置いた上で、可能な範囲で公開する。
   ・ 研究成果のうち、国家安全保障等に係るデータ、商業目的で収集されたデータなどは公開適用対象外とする。
   ・ 研究データのアクセスやデータの利用には、個人のプライバシー保護、財産的価値のある成果保護の観点から制限事項を設ける。
   ・ 研究データを的確に保存し、活用していくためのプラットフォームの整備が重要である。また、当該整備に当たっては、国際的な強調を図っていく視点も重要である。

3.オープンデータ推進における検討課題等

(1)データマネジメントの推進

1)データマネジメントポリシー、データマネジメントプランの策定等                                             

【これまでに示されている方向性】

     研究データの公開を進めるための前提として、研究の実施段階から終了後に至るまで、研究データが適切に保存・管理される必要がある。

     このため、研究機関や大学等においては、論文、研究データ等の研究成果の管理に係る規則(データマネジメントポリシー)を定めるほか、プロジェクト等の規模やその目的及び分野の特性等に応じ、データ管理計画(データマネジメントプラン)を作成し計画に従った管理を行うよう研究実施者に促す必要がある。

 
 <今後の対応における考え方>
  ○ 研究分野別のデータポリシー策定を先導する観点から、研究開発法人(競争的資金配分機関を除く)については、内閣府総合科学技術・イノベーション会議(CSTI)がコアガイドラインを作成し、それに基づくデータマネジメントポリシーの策定が各法人に要請される見込み。     
    また、競争的資金制度や公募型研究制度へのデータマネジメントポリシーの導入についても、CSTIより要請を行う方向で検討中。
  ○ 知の創造を探求する場である大学等においても、データマネジメントポリシーの作成を着実に進め、明確な方針の下で研究データを保存・管理することで、最新の研究成果の流出を阻止するほか、貴重な研究データの散逸、消滅等の防止に努める必要がある。           
  ○ 一方で、大学等は幅広い学問分野・領域で構成され、研究データの保存や共有等に係る作法にも分野それぞれの違いがあることから、各大学等における組織全体としてのデータマネジメントポリシー策定には困難を伴うと考えられる。

 

<検討に向けた論点(案)>
  - 大学等において、組織全体としてのデータマネジメントポリシー策定は困難であるとしても、例えば、研究科や研究所、研究センターなど、特定の学問分野・領域の範囲から導入することについてはどう考えるか。     
  - 大学等がデータマネジメントポリシーを検討する際の参考として、
   ・ SCTIが策定する研究開発法人向けのコアガイドラインを大学等向けに検証、補足等を行い、公表してはどうか。
   ・ 優良事例の紹介やモデルケールの提示を行ってはどうか。
  - データマネジメントポリシーやデータマネジメントプランを検討する際の参考として、研究データの保存や共有等に関する学問分野ごとの特徴を検討・整理して、公表してはどうか。


   2) マネジメント対象となる研究データの範囲及び様式  

【これまでに示されている方向性】                                            
   メタデータ、数値データ、テキストレコード、イメージ、ビジュアルデータなど多様なデータが あり、データを扱うプログラムがある場合にはこれも含まれる。                  
   原則として、研究ノート、予備的分析、論文の草稿、将来の研究計画、同僚との私信、物理的対象物(試料、菌株、実験動物など)及び所属機関との契約により公開に条件が付されているものは含まれない。                                                        
   公開される研究データは、利活用可能な様式でなければならない。

   

 <今後の検討における考え方>
  ○ 一概に研究データと言っても幅広く多様である。議論を出来るだけ分かりやすくする観点から、まずは、対象を絞った上で検討を進めていくことが考えられる。
  ○ 対象となる研究費については、第5期科学技術基本計画等において、公的研究資金(競争的研究資金及び公募型の研究資金)が明示されている。一方、研究データの範囲については、同様にデータを扱うプログラムも含めた多様なデータが対象とされているが、特にプログラムの取扱については、マイグレーションの問題等もあり、丁寧な議論が必要とされた。

 <検討に向けた論点(案)>
  - 研究データの範囲はかなり広く捉えられているが、一義的には、研究成果としての論文を裏付けるエビデンスとしてのデータ(=公開することを前提とするもの)を念頭に議論を進めてはどうか。
  - 従来、内閣府等における検討において、研究ノートは原則として管理対象となる研究データに含まれないとされているが、研究公正の観点からは適切に保管しなければならないとされている。このことを含め、オープンサイエンスにおける研究データの保存・管理と研究公正との関係についてはどのように整理すべきか。


   3)研究データの信頼性及び透明性の確保

 【これまでに示されている方向性】                                            
   論文のピアレビューに相当するような評価の仕組みが必要である。また、論文、研究データの公開は、研究不正を回避する意味でも重要である。
  研究データは利活用可能な様式で公開され、かつその信頼性が確保されていることが重要である。研究データを基にした精度の高い成果の再現を可能とするためには、研究で使用したプログラムやソフトウエアのバージョン等についても、データ作成者が公開時に明示する必要がある。

       
 <検討に向けた論点(案)>
  - 研究データの品質管理において、個々のデータをそれぞれ評価することは現実的でない。そのため、例えば、研究者の所属機関を、キュレーターの雇用実績に基づき格付けを行うような仕組みを導入するなど、何らかの方策を検討する必要があるのではないか。


   4) 利活用を円滑化するためのルールの明示

【これまでに示されている方向性】                                             

   研究データは著作物でないのが通例であるため、CCライセンスを活用して意思表示を行う場合は、著作権法上の制約がなく自由に利用できることを意味するCC0を採用することが想定される。一方、研究データ作成への研究者のインセンティブを確保する観点から、利活用の際にデータ作成者の表示を求めることが望ましい。データ作成者の表示を求める方法としては、CC-BYライセンスを利用することや、研究者コミュニティのルールにより表示することが考えられる。                                                                  
    コンピュータ又はソフトウエアプロバイダーが収集する可能性がある大規模データセットの所有権の定義、とりわけ医療記録や生体記録など特定クラスのデータに関連するプライバシー、機密性又はセキュリティの問題に対応しておく必要がある。

 

   ※CCライセンスとは、インターネット時代のための新しい著作権ルールで、作品を公開する作者が「この条件を守れば私の作品を自由に使ってかまいません。」という意思表示をするためのツール
      CC 0:著作物の著作権やそれに類するさまざまな権利は国境を越えて放棄される。
      CC‐BY:原作者のクレジット(氏名、作品タイトルなど)を表示することを主な条件とし、改変はもちろん、営利目的での二次利用も許可される最も自由度の高いライセンス。

 <検討に向けた論点(案)>
  - 利活用のルールは、利害や関心の異なるアカデミアや産業界、さらには行政におけるルールを踏まえ、各ステークホルダー間で合意できるルールの検討が必要ではないか。
  - 公開対象としないものであっても、ダークアーカイブにすることは重要ではないか。


    5) 公開の制限

【これまでに示されている方向性】                                            
   研究成果のうち、機密保持、企業秘密、国益及び国家安全保障に関わるもの、研究成果の商用化・産業化を目的として収集されたデータ、又は民間企業が保有するデータ並びに共同研究契約などで研究成果の公開に制限がある場合などは、公開対象外とする。     
   データのアクセスやデータの利用には、個人のプライバシー保護、財産的価値のある成果物の保護の観点から制限事項を設ける必要がある。

                                     

 <検討に向けた論点(案)>
  - どのデータをどのような様式で公開とすべきか、あるいはどのような場合に非公開とすべきか、さらにはどのような制限事項を設けるべきかについては、コミュニティの特色を踏まえた検討が必要ではないか。
  - その際、法制度やデータ利活用の進展なども考慮する必要があるのではないか。


    6)研究分野の特性に対する配慮

【これまでに示されている方向性】                                           
    研究分野によって研究データの保存と共有の作法に違いがあることを認識し、特性に応じたルールづくりが必要である。                        
    高度な研究データであっても、人工衛星観測、地震・気象分野など、大学・研究機関等が新規性のある実験や装置で取得する研究開発目的のデータと、行政データとして整理・公開が行われる可能性のあるデータが混在する分野もあることも認識すべきである。      
    各分野の特色や研究のフローを踏まえ、分野ごとに整理・分類することが考えられる。

  
 <検討に向けた論点(案)>
  - 分野ごとの状況が異なる中で一律のルール策定は困難であるとしても、いくつかの分野において一定の方向性を示すことは可能ではないか。
  - 特定の分野において、こうすればうまくいくという部分に絞って議論してはどうか。

   ※ 個別の分野に係る特色・課題は、本文の最後に参考として表記

(2)研究データの保存・管理等

  1)研究データ基盤の整備

【これまでに示されている方向性】                                            
    研究成果としてのデータが、どこにあるかを把握しやすく、あるいは(プロジェクト終了後)アクセスできない現状を改善することにより、あらゆるユーザーが活用・再利用できるようなプラットフォームづくりが必要である。                                            
    担当研究者の退職やプロジェクトからの離脱後に、価値のあるデータを管理・理解できる後継者がおらず放置・削除される現状の改善につながるような、データの集約的保存基盤等の構築が必要である。                                                          
    データ基盤の整備については、国際的な協調を図っていく視点も重要である。例えば、ジャーナルに論文の掲載が決定した際に、エビデンスとしての研究データの公開を求められる事例があるが、その研究データの公開先として我が国のデータベース等がプラットフォームの役
   割を果たせるようにしていく必要がある。                                      
    クラウドを活用した大学等の研究データ基盤については、論文のエビデンスデータを搭載する機能や論文とデータを関連づける機能を有し、大容量化するデータを格納できる共用プラッ
   トフォームとする必要があり、NIIが提供している共用リポジトリサービスを強化し、研究データの公開リポジトリとして整備することが妥当である。                            
    プラットフォームの整備に当たっては、簡便な蓄積・利用に関するユースケース、研究者の
   インセンティブに裏打ちされたサービス設計が重要である。   

                        
 <検討に向けた論点(案)>
  - 国立情報学において、大学等の連携して開発を進めている研究データ基盤(データの平易な保存、網羅的な検索等を実現する共通システム)の開発を着実に進めるとともに、ユーザーの拡大に向け、研究機関や研究資金配分機関等との連携を強化すべき。
  - 科学技術振興機構が運用する総合電子ジャーナルプラットフォームであるJ-STAGEについて、搭載されている論文と当該論文のエビデンスデータとの紐付けや識別子付与など、データインフラとしての機能を強化すべき。


  2)保存すべきデータ及び保存期間

 【これまでに示されている方向性】                                            
    研究終了後も研究データの保存・整備が必要である。                         
    失敗データなどの取り扱いに関する考え方を整理すべきである。

    <検討に向けた論点(案)>
  - 全てのデータを保存することは現実的でないことに留意する必要があるが、研究プロセスとして、再現し、検証できるだけのデータについては残すことは基本ではないか。


  3)国際認証の取得

 <検討に向けた論点(案)>
  - 国際認証の取得に向けた実例や手順を整理して示すべきではないか。
  - その上で、具体的な取組を支援するための仕組みを検討すべきではないか。


  4)研究データの利活用

 【これまでに示されている方向性】                                            
    メタデータの標準化や格納対象とするデータを規定するデータ格納ポリシーの策定等を進める必要がある。 

     異なるインフラ間の相互運用性もデータ共有の障壁になり得る。データを有効に再利用できるようにするために、データの品質管理とともに、メタデータとも関連づける必要がある。
    マシンリーダブル対応が不可欠である。


(3)研究データを保存・利活用する際のインセンティブ

  1)研究者に対するインセンティブ

  【これまでに示されている方向性】                                            
     研究者及び科学コミュニティに対するインセンティブを高め、オープン化に対する努力を評価することが重要である。具体的には、高品質なデータを提供した研究者に適切な報酬(助成金や昇進機会)を与えるなど、成果に見合う処遇の仕組みを設けることも方策の一つ。
     データは死蔵するのではなく、公開することによって、より科学に寄与することを具体的に示すとともに、そのことがきちんと評価される仕組みを構築することが重要である。

 

  2)研究データの引用と評価

【これまでに示されている方向性】                                            
    研究データの利用者は、論文などの引用と同じく引用元を明らかにする義務がある。この引用により、データ作成者の貢献が記録され、業績として評価することを、大学等及び研究者コミュニティにおいて共通に認識し、実行していく必要がある。

 

  3)識別子の導入

【これまでに示されている方向性】                                           
    研究成果の利活用を促進する観点から、論文及び研究データに永続性のあるデジタル識別子を付与する必要がある。
    研究者識別子を活用することにより、研究機関間の異動や姓の変更などに関わらず研究者を同定可能。更に、研究機関内の研究者同士の繋がりや研究の近接性、他機関の研究者との関係なども分析可能となる。                                                
    研究データや研究者への識別子付与によって、研究の着想段階から波及効果までがモニター可能となり、研究活動の流れや効果の測定も可能となる。

  
 <検討に向けた論点(案)>
  - 現時点において、単一の識別子を奨励することは妥当であるか。
  - 多様な研究を奨励するという意味では、複数ある識別子でどれだけのものがカバー出来ているのか把握することが必要ではないか。それぞれに一長一短があると考えられ、それらを有機的に扱えるような方策を検討することも重要ではないか。


(4)人材の育成・確保

  1)オープンサイエンスのためのスキル

【これまでに示された方向性】                                                
    一部の研究分野においては、大規模な研究データを蓄積する慣例を有する場合もあるが、大部分の研究者にはオープンサイエンスを実現するために必要なスキルを開発するための訓練、教育が必要である。

                 
  2)データキュレーター等の育成

【これまでに示された方向性】                                                
    分野ごとに異なるデータの属性、管理手法、利用者、利用局面等を理解できる人材の確保(データサイエンティスト、データキュレーター)が必要である。                
    技術職員や大学図書館職員等が、データキュレーターとしての一定の機能を担っていくことも期待されている。職員の能力開発と併せて、専門人材の新たな確保についても考慮することが望まれる。


 <検討に向けた論点(案)>
  - 人材育成の観点として、個々の分野に対応した育成も重要であるが、全体としてどうするか考える必要がある。一方で、社会科学など、重要であるが人材が足りていない分野についてどうするのか検討が必要である。
  - 人材育成においては、若年層のみならず、シニア層も含めた幅広い層から創出することが重要ではないか。研究者が一線を退いた後、これまで訓練を積んだ者として、サポート側にシフトするようなことも有意義ではないか。
  - 大学等がキュレーションを行える体制とは、どのようなものなのか検討し、具体的に示していくべきではないか。


(5)その他の課題・論点

  - オープンサイエンスにおいて国際的な競争性をどう確保していくのか。
  - 社会科学系のオープンデータ等に係る論点として、
   ・ 日本の社会調査データのオープンデータ化推進
   ・ グローバルな社会調査データとの連係強化、貢献

【参考】 これまでの学術情報委員会における分野別の特色・課題に関する意見

〔人文学・社会科学〕
○ 人社系では、IIIF(トリプル・アイ・エフ)等の画像フォーマットで共有化が進行している一方で、日本や中国、インドなどのデータが欧州を中心に多数流出している状況。
○ デジタル人文社会学など、日本の古文書と情報系の人たちとが結び付くことで、日本オリジナルな物が生まれている。パイロットスタディー的なものを進めていくことも考えられる。
○ 心理学や社会学における社会調査などでもデータが共有・分析可能となる取り組みが進みつつある。
○ 歴史学では、国立公文書館などが中心になってデジタルアーカイブを進めている。
○ 人社系は、ある意味、オープンサイエンスによって最も研究が進みやすくなる領域でもあり、意識としては非常に高いものを持っているのではないか。

〔物理学〕
○ 高エネルギー物理学は、社会との関わりは間接的。コミュニティでの共有が望ましい分野で、数学も同様。
○ 高エネルギー物理学実験における大量データの共同解析は、公開というより研究者間での共有を促進するもの。共同観測の領域は、コデザイン、コプロダクション、コディストリビューションが可能な分野。

〔天文学、惑星科学〕
○ 天文学や地球科学は、元々オープンサイエンスが進んでおり、市民の関与も活発。
○ 最先端の情報はGoogle Scholarで検索し、arXivで研究内容を得ることが通例。データは大型望遠鏡や人工衛星などによって共通で取得され、個人のものとはなっていない。オープンサイエンスにおいては、その枠組みよりもむしろデータの特性が重要。
○ プロジェクト全体で多くの結果を出すことが次につながるということが認識され、データ公開が進んだ。
○ 一次データはそのままの利用が困難で、ユーザーが使いやすいようにある程度加工して公開することや、データ加工を行う人材をプロジェクト計画段階から手配するということが行われている。個人的なレベルで研究が行われている化学や物性の基礎的な分野とは明らかな違いがある。

〔化学〕
○ 有機合成化学は、知財との関連が強く、かつ、社会とのつながりも直接的でなく、オープン化するメリットは薄弱に見えるが、オープンイノベーションの観点から創薬のオープンプラットフォームの構築が進行中。
○ 有機合成化学は、研究者に比して利用者が多数おり、論文の価値は信頼性が重視されることから、クオリティコントロールが重要。
○ データ共有の可能性は、当該領域が扱うデータが構造化、定型化、標準化されているかという点が重要。結晶学においては、X線解析データをCIF形式で定型化している。
○ 結晶学における論文投稿では、まず、データをケンブリッジのデータセンターに登録し、査読者だけに開示、その後論文が出版されるとオープンとなる。他方、企業がデータを活用する場合、どの結晶を検索しているかさえ知られたくないなどの理由から、データセットをまとめて買い取るケースも見られ、収益モデルの一つになっている。

〔材料科学〕
○ 材料分野では、企業とともに研究開発するオープンイノベーションが進行中。データの共有は、オープンサイエンスという言葉が登場する前から自然なスキームとして存在。
○ 我が国が強みを持つ材料の情報を、オープン・クローズ戦略を踏まえて、アメリカ等と組んで、あるいはビッグデータ解析を加えるなどにより発展させ、新たな価値を生み出していくことが必要。

〔バイオサイエンス、ライフサイエンス〕
○ バイオやライフサイエンス分野、特にタンパク質やゲノム研究は、概してビッグデータの世界。データマイニングで新たな知見を見つけていこうとするスタイルは、分野相対的にオープン化しにくいという印象はなく、研究スタイルは天文学や地球科学に近い印象。
○ 扱うデータの構造が整っている分野は、データシェアリングが進めやすい。ゲノム科学や疫学など、元々定型化が進んでいる分野は、国際協調に乗り遅れると不利な状況になりかねない。

〔環境・海洋科学〕
○ 環境科学分野は、オープンサイエンスのメリットを最も享受しやすく、新しい市民科学の可能性も模索可能。
○ 海洋科学分野の情報は、一見オープンにしやすく思えるが、海洋資源など機微な情報も多く、丁寧に議論を行うことが必要。



お問合せ先

研究振興局参事官(情報担当)付学術基盤整備室

電話番号:03-6734-4080
ファクシミリ番号:03-6734-4077
メールアドレス:jyogaku@mext.go.jp(コピーして利用される際には全角@マークを半角@に変えて御利用ください)

(研究振興局参事官(情報担当)付学術基盤整備室)