ここからサイトの主なメニューです

学術情報データベース整備の推進方策について(中間まとめ) (学術審議会学術情報資料分科会学術情報部会)

平成9年6月27日
学術審議会

(目次)

1 データベース整備の意義

2 データベースの現状と動向
 1 データベースの範囲
 2 我が国のデータベースの現状
 3 内容形態別の内外の現状
 4 新たな動向

3 課題
 1 基本的な問題認識
 2 具体的な問題点

4 改善方向と施策
 1 基本的考え方
 2 良質のデータベースを構築するために
 3 取り組むべき主要事項

1 データベース整備の意義

 学術研究においては、各研究分野の高度化、国際化とともに、既存の分野や専門性にとらわれない学際化という新たな動向も顕著である。これに伴い学術研究を進める中で生み出され、研究者が必要とする情報も飛躍的に増大している。一方、コンピュータ技術やネットワーク技術の急速な進展により、情報の処理や遠隔地に存在する情報へのアクセスが容易にできる環境が整ってきている。
 このような背景の中で行われる研究活動の基盤として、研究者が、研究を進める上で必要とする情報を、いかに早く効率的に存在を知り入手できる環境を整えるかが、研究活動の発展にとって、大きな鍵となっていると言える。
 このため、必要となる情報を収集・蓄積し、整理・加工し、提供する体制の整備充実が研究活動の発展にとって必須の条件となる。そして、これらの情報を電子化し、体系的に整理し、コンピュータ処理が可能な形にデータベース化することが、益々必要となっている。
 また、このような研究基盤は、その国に存在する基礎資料や研究成果が活用可能な状態でどの程度整備されているかを示すものであり、その国の学術研究レベルを測る指標ともなるものである。

 データベースの優れた機能としては、以下のような点がある。
 1)情報の収集・提供に当たり、精緻・網羅的かつ迅速・効率的にこれを可能とする。
 2)情報を処理する場合、検索・加工、整理・分析が容易である。
 3)情報を国内外へ発信することが容易となり、研究面での社会への貢献のみならず、国際協力・国際貢献をも促進する。

 また、データベース整備の意義は、研究面に止まるものではなく、文化財ないし学術財として、研究活動の成果を電子的に記録し、後世への保存・伝承を可能とするとともに、教育面でも、データベース化された情報は、その活用を一層容易にするものである。

2 データベースの現状と動向

1 データベースの範囲

 研究者が研究を進める上で、必要とするデータベースは、必ずしも専門分野の研究成果としてのデータベースに限られるものではなく、広く一般的に使われるものやビジネス上使われることの多いものも含まれる。その意味で、我が国のデータベース全体の振興策を考えることは意義があるが、本報告書においては、利用環境の整備面ではデータベースの対象を広く捉えることとし、作成・提供面の振興策については、主に大学等の研究者等が作成、提供すべき学術情報データベースを対象とすることとする。

2 我が国のデータベースの現状

 データベースには、規模の大きさ、公開性等様々の態様があり、その現状を的確に把握することは困難である。
 学術情報センターでは、大学等における学術研究のためのデータベースの作成及び情報検索サービスの現状を把握するために、毎年アンケート調査を実施している。
 平成8年に行った調査によれば、作成データベース数は、2,016件、サービスデータベース数は、948件(以上累計)となっており、年々増加している。しかし、この調査では、各データベースのデータ量や利用度については不明であり、また、これに対応した外国のデータがないため、データベースの質的な充実がどうなっているか、あるいは、内外比較してどうかといった情報を与えるものではない。
 また、通産省が行っているデータベースサービスを業として捉えた統計情報でも、平成7年の我が国で利用可能なデータベース数は、3,308件(内、国内作成分1,124件、34%)となっており、年々増加している。売上高で見ると、平成3年をピークに減少傾向にあるが、この背景には、景気動向の影響が大きいことが考えられ、必ずしもデータベース自体の問題とは言えないと考えられる。なお、日米比較については、様々の指標により比較したものがあり、これによれば統計上格差は依然として縮まっていない。
 いずれにしても、作成ないし流通しているデータベースは統計上増加してはいるが、学術研究上、一般的にデータベース整備が遅れているとの認識は強く存在している。以下では、具体的な事例を挙げてその実態を見てみることとしたい。

3 内容形態別の内外の現状

 上で見たように我が国のデータベースは件数上順調に増加してきているように見えるが、これを学術研究面において見た場合、定量的な内外比較は困難である。しかし、形態別、分野別に一般に利用されているデータベースの事例を比較することによって定性的にはある程度の比較が可能であり、現実には、これが我が国の遅れを一般的に認識させている実態であると考えられる。
 それは、下記に見るごとく、米国がひとり抜き出ており、欧州各国においても我が国と同様に、データベース原資を米国に依存している体質が問題となっていると言われている。

 データベースは、その内容によって以下のように分類されることが多い。

 データベース─┬─レファレンスデータベース(文献データベース)
          └─ファクトデータベース(ソースデータベース)

 しかし、学術情報という観点を重視した場合、学術論文については、その重要性に鑑み、独立した扱いをすべきである。従って、以下では、次のような分類で現状を見てみることとしたい。

         ┌─レファレンスデータベース(目録所在データ、ディレクトリ)
データベース─┼─論文データベース(論文の抄録、全文データ)
         └─ファクトデータベース(実験・観測データ、一次資料データ)

(1)レファレンスデータベース

   目録所在データベースの作成に関しては、書誌データベースと所在データベースがあり、各国において取り組みがなされているが、書誌データベースに関しては、米国議会図書館が作成している図書の書誌データベースであるLCMARCが特に有名であり、1968年以降のもので、422万件を有している。これに対応するものとして、我が国では、国立国会図書館が作成する明治以降の国内刊行図書の書誌データベースであるJAPAN/MARCが188万件の書誌件数で整備されている。
 また、所在データベースに関しては、米国OCLCが作成する所在情報を含む書誌データベースであるOCLC Online  Union Catalogが3千万件の書誌情報について5億2千万件の所在情報を有している。これに対応する我が国のデータベースとして、学術情報センター目録所在情報データベースがあり、大学図書館の協力の下に3百万件の書誌情報について3千万件の所在情報を整備している。
 また、学術雑誌の目次データベースに関しては、米国では、ISI社(Current Contents)、UnCover社が学術雑誌の目次速報データベースを提供している。我が国では、国立国会図書館が作成する国内雑誌の索引データベースである雑誌記事索引データベースがある。
 この他、学術研究上、重要なレファレンスデータベースとして、研究者のディレクトリ、データベースのディレクトリ等があり、研究者のディレクトリについては、我が国では、学術情報センターが作成する大学等の研究者の経歴や研究成果情報を内容とする研究者ディレクトリ(13万件)があり、整備が進んでいる。

(2)論文データベース

 論文データベースについては、抄録形式のものと全文形式のものがある。抄録形式のものでは、我が国においては、科学技術振興事業団科学技術情報事業本部(JICST)が作成する科学技術全般の国内文献の抄録データベースのJICST科学技術文献ファイル(1千万件)があり、この他、学術情報センターが作成する学会発表データベース(30万件)等がある。
 米国においては、米国ISI社が作成する学術雑誌の引用索引データベースとして自然科学系のSCI Search(1,450万件)、社会科学系の Social  SCI  Search(280万件)があるほか、政府機関、学術団体等が各専門分野で、データベース作成を行っており、世界的に卓越した地位を確立している。政府機関の例としては、医学分野で、米国国立医学図書館が作成するMEDLINE(850万件)がある。また、学術団体が作成している例としては、米国化学会が作成する化学分野の抄録データベースCA(1,620万件)、生物学分野で米国生物科学会他が共同で作成しているBIOSIS(1,200万件)、数学分野で米国数学会のMathSci(118万件)、物理学分野で米国物理学協会のSPIN(103万件)等がある。これらは、内部組織か外部組織かの違いはあるが、いずれも独立性を有した組織によって作成・提供が行われている。
 他の国の例としては、英国電気技術者協会が作成する物理学、電気工学、電子工学、通信工学、計算機・情報科学分野の抄録データベースINSPEC(514万件)、オランダElsevier社が作成する医学分野のEMBASE(633万件)等が有名である。全文データベースについては、数は多くないが、米国化学会が作成する同学会発行の学術雑誌20誌の全文データベースCJACS(16万件)等がある。我が国では、学術情報センターが作成する電子・化学・理学分野の学術雑誌の全文データベース(4万件)があり、さらに現在、学会誌を対象にイメージベースでの全文入力を行う電子図書館事業を推進中である。

(3)ファクトデータベース

 有名なものとして、米国化学会が作成する化学物質の名称及び構造を内容とするCAS Registry File(1,470万件)がある。我が国では、JICSTが作成するJICST化合物辞書データベース(67万件)がある。現在、米国政府が補助している大規模データベースとしては、ゲノム・データベースやNASA宇宙科学データセンターでの宇宙科学の数値及び画像データベース事業がある。
 また、法律関係の重要な資料となるもので法律・判例等の全文データベースが米国LEXIS/NEXIS社によって作成されている(LEXIS;500万件)。我が国では行政情報システム研究所が総務庁の提供する原データから作成する日本国の法令の全文データベースである現行法令データベース(3,700件)がある。
 また、最近特に人文科学、社会科学の分野において欧米を中心に大規模な国家的事業の位置づけで文化遺産の電子化のための研究開発が進められ、多くのテキストアーカイブ、言語コーパスが作成・提供されてきている。
 英国では、オックスフォード大学、ロンドン大学、大英図書館などを中心に英国のみならず世界的に著名な作品のテキストアーカイブ化が進行している。(例;Oxford Text Archives)。さらに現代英語や口語英語のコーパス化が進行し、機械翻訳などで活発に利用されてきている。(例;British  National  Corpus)仏国ではFRANTEXTと呼ばれる16世紀から現代までの仏国の文学等の作品3000以上がデータベース化され流通している。さらに、フランス語宝典と呼ばれる用語、用例などを網羅したコーパスが完成している(国立フランス語研究所編)。
 北欧諸国や米国においても同様な動向が顕著であり、テキストアーカイブ、言語コーパスなどに関する活動が活発に行われている。
 これに対し、我が国では個別の研究成果はいくつかあるものの、規模や範囲においてこれらに比肩できるものはないのが実態である。

4 新たな動き

 一方、インターネットの急速な普及により、誰でもネットワーク上に情報を発信できる環境となってきたことから、一カ所で集中的に、これらのデータベースを作成することは困難になっている。そこで、データの属性に関する基本的な項目について、標準的な記述様式を定めて、データ作成者各自がこうしたメタ情報的項目を付加した上で情報発信するようにすれば、これに対応する自動検索システムを開発・運用することによって、総体としてデータベース的な効率的検索が可能になるという構想のもとに、こうした標準設定等が模索されている。
 また、もう一つの重要な動きは、学術情報の表現形態の視覚化、マルチメディア化である。学術研究活動の成果としての情報表現である論文やファクト、更にそのデータベースも、より臨場感、表現性の豊かな画像、映像やテキスト情報との結合(ハイパーメディア表現)などの表現形態が普及してきており、この傾向は、インターネットの普及や視覚化重視の流れに伴い、急速な勢いで進行している。

3 課題

1 基本的な問題認識

(1)このように現在、世界に通用しているデータベースのほとんどは欧米、特に米国が作成・提供しており、我が国はこれらに多くを依存している。分野によっては、我が国の研究者も協力するなど、応分の役割も果たしているが、主要な作成組織・機関が海外にあることにより、以下のような問題があると認識する。

 1)我が国固有の情報発信源を持たないことが、今後の学術研究遂行に支障を来す恐れがあること。
 2)欧米依存体質になり、我が国自らのデータベース作成の機運が醸成されにくいこと。
 3)海外から情報入超との非難がでる可能性があること。

(2)  学術情報データベースの作成・維持に関わる組織が、欧米に比して極めて不十分であり、研究の片手間的に行われている例が多いこと。また、研究者が作成する場合、業績として評価されにくいこと。

(3)  学術情報データベースは、作成に相当の経費がかかるほか、恒常的に事業として自立しにくい性格を持ち、民間では供給されにくいものであるが、これまで、公的部門自ら作成することも民間活動を支援することも欧米に比較し極めて不十分であること。

2 具体的な問題点

(1)データベースの作成から提供に至る工程の分類と問題点データベースの形成から提供に至る一連の流れは、分野やデータの内容・規模によってかなり相違があるが、基本的に必要な工程を次のように分けて考える事ができる。

 上図のように、工程を分けて我が国のデータベース整備の問題点を考察してみると次のようになる。

○ データベース形成の組織化・機能分担が不十分であることから、

  • 1)の形成過程は、特定の研究グループ、研究機関が独立に作業している例が多く、グループ内、機関内での使用に止まっているものが多い。
  • 一部の例外を除き、大型で網羅的なデータベースを形成するための体制がなく、又データベースの存在・所在に対する周知が不十分である。
  • 研究者が、時に1)~9)までの機能を負わされ、その負担感から、データベース形成活動に対する敬遠傾向がある。

○ 1)と5)に関し、歴史的な経緯を考慮する必要があるが、データベース形成活動に対する業績評価、データベース利用の重要性に対する認識とも低いこと。

○ 6)に関し、利用者たる研究者等は、データの追加や改良を行う生産者としての側面も有すべきであるが、その認識が低い。また、利用者側の要求との不一致があり、利用者からのフィードバックを生かす体制や利用者の要求に関する調査研究が遅れていること。

(2)国際化における言語上の問題点

 国内で生産されるデータは、当然ながら日本語の場合が多いが、内容によっては、日本語であること自体に意味のあるものもあり、一方、国際的に流通させる必要のあるものは、現状でも英語で発表されている。
 しかし、データが日本語である場合、海外からの利用に著しい制約があることは事実である。このことは、次のような課題を提起している。

○ 英語圏の国で作成されるデータベースに比べ、利用者の絶対数が限られるため、提供サービスが事業として成り立ちにくいこと。

○ 情報発信の促進の観点から、英語による表示が可能なものは、出来るだけその方向でも対応し、また、日本語であること自体に意味のあるデータについても、外国の研究者が簡易にアクセスできるような検索システムを構築することが、今後益々必要であること。

○ その他、漢字圏を中心とする各種言語に対する適切な対応も十分に考慮しなければならないこと。

(3)インターネット発展による新たな問題点

 また、インターネットの発展により、世界的に以下のような新たな問題点が指摘されている。

○ 誰でも、自ら情報を発信することが可能となったため、その利用に当たってはデータの質を評価する必要が出てきたこと。

○ データの標準がないため、データを統合することが困難になっていること。

○ データの提供に対して何が適正な対価かの判断基準に混乱があること。

(4)学術情報のマルチメディア化の問題点

○ より臨場感、広報性の高いマルチメディアによる学術情報表現は、上記の言語上の問題をも緩和する有力な方向であり、積極的に推進すべきであるが、その認識が一部に止まっている。

○ 情報表現のマルチメディア化については、そのための設備やノウハウが未整備であり、今後ネットワークの高速化も含めて対策が必要である。

4 改善方向と施策

1 基本的考え方

(1)データベースの作成を促進する観点から

○ データベース作成は、自己の研究成果の公開とともに、研究レベル全体の向上に不可欠なものであるとの認識を確認し、データベース作成作業についての理解と支援を惜しむべきではない。

○ 作業は、時に単調で根気を要し、また、分野の専門性とシステム工学的な専門性を要する。さらに、継続性が確保されることが必須の条件となることから、作成組織の充実、作成者の処遇改善、場合によってはポストの確保が必要である。

○ 内容にもよるが、入力は分散システムを、管理は集中制を指向することが重要である。

(2)国際貢献の観点から

○  世界に通用する我が国独自の大型データベースの作成提供を目指すことを推進する。

○  欧米の作成・提供する世界的に通用するデータベース作成・維持への協力を奨励する。

(3)研究上の利用を促進する観点から

○ 一般的・共通に利用するデータベースについては、購入費・利用経費等の充実など利用環境の整備を図る必要がある。

○ 研究者のニーズを踏まえたデータベース作成の推進のため、ニーズの把握が不可欠である。

2 良質のデータベースを構築するために

(1)作成面の改善策

1)レファレンスデータベース

 情報の所在を示すデータベースであり、データベースが分散環境で構築・発信される傾向の強まりとともに、益々重要性が増している。しかし、分野的な専門性は、それほど必要なく、サービス専門機関を中心としたシステム開発と事務体制の連携により、充実が可能である。

2)論文データベース

 データベース化する前段での審査が要求される。この審査機能には、高度の専門性が要求されるが、この過程を経た後のいわゆる論文集のデータベース化であれば、高度の専門性は必要ないため、入力作業の分業が可能である。
 しかし、今後、ネットワーク上に発表される論文に対応した、属性を明確にするための入力システムの標準化と審査システムの検討が必要となるであろう。

3)ファクトデータベース

 高度の専門性が要求される場合が多い。当該分野において、中核となる組織・機関が中心となって、内容の審査と記録形式の標準化を行った上で、作成・維持する必要がある。また、必ずしも大型のデータベースでなければならないということはなく、利用者が少なくとも学術的価値の高いものがあり得る。この場合、アクセスの容易性を確保することが重要である。
 また、ファクト・データベースにおいては、今後、マルチメディア情報が益々重要になってくると考えられ、マルチメディア学術情報データベースの構築に向けた配慮が求められる。

(2)システム開発面の改善策

 従来、システム開発面の重要性についての認識が不十分であり、利用者にとっての使い勝手のよいデータベースシステムとしなければならないという面での考慮が軽視されてきた。しかし、この面の重要性は、検索システム面では、データベースの利用サイドにとって、極めて重要な要素であり、いかに所要の情報に簡易かつ迅速に到達できるかは、そもそも利用するかしないかの判断を左右するといって過言ではない。
 常にこのことを認識して、開発を推進する必要がある。
 また、入力面でのシステムでは、入力の形式、方法とも将来の発展性(組織化、追加・修正が可能となるよう)を考慮し、可能な分野では、標準化を指向することが望まれる。
 標準化は、当然、検索システムにおいても、必要な方向であり、個別のシステム毎に開発すべき部分も多いと考えられるが、相互の組織化(統合化)が容易となるよう、利用者のニーズ把握を行いつつ、データベース全般について応用可能なシステムの在り方を研究開発する必要がある。

(3)入力面の改善策

 原資料及びシステムが確定していれば、資金的な手当があれば、事務的に外注等の方法により、行うことも可能であるが、研究者が原データを作成する場合は、その作成者層の広がりに応じて、システムとの関連においてデータをチェックする、いわゆる編集者的役割を果たせる組織・人材の確保・養成が必要となる。
 さらに、最近ではネットワークを通じて日々刻々、超大量の貴重な学術情報データが獲得可能な状況に至っており、これらのデータを版権を十分に考慮しながら、いかに入手し人手を介さずに自動的にデータベース化するかという技術の開発も重要である。

(4)システム・サービス管理面の改善策

 データベースは一旦形成されても、内容において更新・維持管理を怠れば、すぐに陳腐化してしまう場合が多い。また、システムを維持するハード・ソフトの維持管理も必要である。さらに、セキュリティを含む利用者管理も必要となる。
 これらは、本来の研究活動とは趣を異にしており、小規模のデータベースを特定の研究グループ内のみで利用している場合でない限り、本来、安定した事務組織が必要となる。
 データベース形成に携わる研究者グループと密接な連携が可能な事務組織の整備を図る必要がある。なお、流通面に関しては、必ずしも官に限る必要はなく、出版社等民間の活用も検討すべきである。

(5)利用面の改善策

 ネットワーク、コンピュータの整備は急速に図られ、個々の研究者からのアクセスは、格段に容易になっている。しかし、所要の情報がどこにあるのかについての情報が整備されなければ使いようがなく、この面の整備を推進する必要がある。また、優れたサーチエンジンの開発を推進することも必要である。
 併せて、データベースの存在・内容(質)・利用方法に通じ、代行検索や案内をしてくれる人材の養成・確保も望まれる。
 また、有料サービスの場合、利用者負担の在り方についても検討する必要があり、研究者の負担感をできるだけ軽減する方向(例えばサイト契約や定額制の導入)で検討すべきである。

3 取り組むべき主要事項

(1)国際的に通用し、我が国が保守運用可能なデータベースの整備充実

 ある分野において、その分野の世界中の研究者殆どが利用し、かつ、その分野の研究推進に大きな寄与をし得るデータベースを発掘し、それを整備拡充し世界に広くサービス提供できるような保守運用体制を早期に確立すべきである。
 例えば、我が国においても日本文化に関わる学術資料情報の電子化とアーカイブ、並びに高次利用のための方策が進められなければならない。国文・国史学など人文科学の古典籍の電子化とアーカイブの推進、並びに世界に向けての公開が期待される。特に、古典から現代に至る作品のテキストアーカイブと、用例などの言語コーパスの提供が世界から強く要請されてきている。国文学研究資料館など関連機関による一層の努力が不可欠である。
 また、我が国が原資料を有するものについての電子化については、それらを集中管理する機関が中心となって、データベース化を推進すべきである。

(2)国際的な連携協力によるデータベース作成の推進

 地球環境、天文学、地震、遺伝学等、国際的な連携により、共通のデータベースを作成することが有効な分野においては、我が国の対応する機関が中心となって積極的に貢献すべきである。

(3)科学研究費補助金等によるデータベース支援の改善充実

 文部省が実施している科学研究費補助金におけるデータベース化の支援策は、研究成果の公開促進策の一環として行われているが、その一層の拡充を図るとともに、今後、支援の重点化を図る方策についても検討すべきである。その際、重点的に支援すべきデータベースについては、一定期間(複数年)の集中的支援を実質的に確保できるようにすること、一定期間経過後評価を行い、改善方向、維持管理体制、継続的な支援策について提言できるようにすること等を考慮すべきである。

(4)学術情報センターの機能強化

 専門分野に特化したデータベース作成や原資料のデータベース化については、各々に対応する組織・機関において推進されるべきであるが、学術情報センターは、これらに対して、連絡調整を行うと同時に、学術情報システムにおけるディストリビュータ的に機能することが期待され、それらデータベースを積極的に受け入れ、アクセス可能性を向上させるべきである。併せて、分野横断的に適用できる資料電子化のためのシステムの開発・提供も必要である。
 また、大学図書館等が推進している電子図書館的機能の充実に伴い、これらに関する総合目録データベースの開発や、分散するデータベースや原データを統合的に検索できるようにするための標準化の推進と関連システムの開発等も期待され、学術情報センターの一層の機能強化が必要である。

(5)データベース作成・維持・利用のための組織や人材の充実

 データベースの作成から利用に至る各段階で、専門性を有する組織の充実、人材の育成を推進すべきである。特に利用面では、「データベース・リテラシー」ともいうべきものの普及・向上が重要である。関係する大学や学術情報センターの教育・研修機能の充実が図られる必要がある。
 また、データベース作成等を行う研究者については、データベースも研究成果の一つの表現形態と位置づけられるものであり、業績として重視すべきである。

第15期学術審議会学術情報資料分科会学術情報部会名簿

(任期:平成8年2月16日~平成10年2月15日)

[委員]

(部会長) 増本 健 財団法人電気磁気材料研究所長
阿部 謹也 一橋大学長
池端 雪浦 東京外国語大学アジア・アフリカ言語文化研究所教授
石井 紫郎 国際日本文化研究センター教授
山本 明夫 早稲田大学大学院理工学研究科教授

[専門委員]

青木 利晴 日本電信電話株式会社常務取締役 研究開発本部長
川添 良幸 東北大学金属材料研究所教授
北原 保雄 筑波大学文芸・言語学系教授
坂内 正夫 東京大学生産技術研究所教授
戸高 敏之 同志社大学学術情報センター所長
根岸 正光 学術情報センター研究動向調査研究系教授
細矢 治夫 お茶の水女子大学情報処理センター長
松村 多美子 図書館情報大学図書館情報学部教授
宮原 秀夫 大阪大学大型計算機センター長
森 瑞穂 東京理科大学情報処理センター長
安永 尚志 国文学研究資料館研究情報部教授
山崎 一生 新潟大学総合情報処理センター長
 渡瀬 芳行 高エネルギー加速器研究機構計算科学センター長

お問合せ先

学術国際局学術情報課

-- 登録:平成21年以前 --