ここからサイトの主なメニューです
前(節)へ  次(節)へ
第2部   科学技術活動の動向
第2章  科学技術情報活動の動向
1  国内の動向
(4)  科学技術情報流通処理技術に関する研究開発の現状


科学技術情報を効率的に流通させるためには,ぼう大な量の科学技術情報を整理,蓄積し必要に応じこれらを検索するなどの技術が不可欠である。科学技術情報は,一般に言語を媒介として表現されており,その意味で科学技術情報処理技術は,基本的には一般の情報処理技術と等質のものであるが,古くから抄録,索引などのような整理技術が発達しており,また近年コンピューターを用いた大量の言語処理が実用化に至つているなど,情報処理技術の中核をなすものである。

以下個々の技術についてその現状を述べる。


(1) 情報の整理,蓄積,流通に関する技術

すでに述べた通り,科学技術情報の発生量は急速に増大しており,これらぼう大な情報の中から必要な情報を入手するためには,情報が整理された状態で蓄積されていることが必要である。このような目的で,文献の主題が分析され抄録および索引がつけられるわけであるが,近年では,特定分野に限り,仮に情報の寿命を5年位としても,文献数は数万件のオーダーになり,索引誌を使つて,人力で探すことは著しく困難になつている。このため,整理された情報をコンピューターで検索可能な状態に蓄積しておくことがきわめて重要になつてきている。

コンピューターによる検索は,基本的には照合のプロセスであるから,検索指令に合致した検索語が蓄積フアイル中に入力されている必要がある。検索語の入力方式にはシソーラス(情報検索用語関係辞書)を用いて,文献の主題をいくつかの用語で代表させるもの,学問分野あるいは技術分野の分類体系に従つて主題をあるカテゴリー分類で表現するもの,またその両者を組合せる方法等がある。検索効率を上げる(適合文献をできるだけもらさず,かつ非適合文献をできるだけ少なくする)立場からは,シソーラスは多くの用語をもつた詳しいものであることが望ましいが,また逆にあまり用語が多過ぎると,主題を分析し,検索語を入力するのが人間であるため,かえつて適切な検索語の入力ができず,検索効率を低下させる結果をまねく。そこで,最も検索効率を高くするための適切なシソーラスの作成がきわめて重要である。

現在,電機,自動車,繊維等特定技術分野に閃するシソーラスが,わが国でも実用化されているが,広範な科学技術分野をカバーするものとしては,科学技術庁で作成した総合シソーラスが注目されている。日本科学技術情報センターでは,このシソーラスを参考として,主としてコンピューターによる検索を効率的に行なう観点から,すでに開発されているDOCTOR(用語管理)システムを用いて2カ年計画でJICSTシソーラスの作成に着手している。

一方,主題分析を情報専門家が行なう場合,どうしても分析内容に品質の均一性を欠く面や分析に要する時間の遅れなどの不都合を生じるが,単純な言語処理をコンピューターに実行させることにより,速報性が高く,均一性のある処理を行なうことができる。これは自動索引技術と呼ばれている。すでにKWIC索引(不要語をあらかじめコンピューターに記憶させておき,論文タイトルから不要語以外の語を索引語として抽出する)は日本科学技術情報センターにおいて実用化されており,また若干の規則を加味し,より検策効率の高い索引語の抽出を行なう手法も研究されている。


(2) 情報の記録伝達に関する技術

このようにして整理蓄積された情報は,各種のチャンネルを通じて利用者のもとに伝達されなければならないが,従来は冊子形態の出版物として配布されるに過ぎなかつたのに比べ,近年は著しく多様化の傾向にある。まず第1に,磁気テープを媒体とした情報の流通である。すでに多数の磁気テープが国際的に流通しているが( 付表2-18 参照),わが国でも化学,医薬関係の業種においては相当使用されている。また,日本科学技術情報センターは昭和47年度より,同センターで作成した文献検索用磁気テープの公開を行なう予定になつている。

第2にマイクロフイルム形態での情報の流通である。マイクロ写真技術の発達もさることながらマイクロフイルムからプリントするマイクロフイルム・リーダー・プリンターの自動化やコンピューターからの出力を直接マイクロフイルムに作成する技術(COM)の開発により,従来の一次資料を主体とした流通にとどまらず,抄録,索引等の二次資料についてもマイクロフイルムを媒介とする多様な流通が可能となつている。

第3に,伝送回線を通した情報の流通である。現在のところ,科学技術情報活動の分野では社内オンラインシステムのように非常に狭い範囲でしか利用されていないが,伝送回線を通して,科学技術情報が伝達されることも,それほど遠い将来ではない。


(3) 情報検索に関する技術

磁気テープを媒体とした情報の流通に伴つてコンピューターによる情報検索がようやく実用化の段階に入ろうとしており,すでに民間ベースで情報検索サービスを開始しているところもある。

一方,日本科学技術情報センターはMEDLARSの検索実験を完了し,昭和47年度から実用サービスを開始するほかJICST文献検索磁気テープによるSDIサービス開始の検討を行なつている。また,昭和46年6月に設立された日本特許情報センターでも,内外の特許情報の検索サービスを実施すべく準備中であり,すでに,その一部は実施に移されている。

情報検索技術における大きな課題は,各種の情報ファイルがあつた場合,それら複数のファイルから必要な情報を重複せずにとり出すことである。それぞれの情報ファイルは,固有のフォーマットと検索語の体系を有しており,また収録情報には当然のことながら,相当程度の重複のある場合がある。このような多重入カデータベースの情報検索について米国の国立農業図書館が研究を進めているが,その方式としては,次の三つが考えられている。

1) それぞれのファイルを共通したコンピューターで処理できるようにコードおよび記録型式などのコンバートを行なうが,検索用ソフトウエアおよび検索語の体系は,それぞれの情報ファイル固有のものを利用する。
2) それぞれのファイルを共通の検索ソフトウエアで利用できるよう共通ファイル構造にコンバートする。しかしデータエレメント,検索語体系等は,それぞれのファイル固有のものを利用する。
3) それぞれのファイルのデータエレメント,検索語体系を統一した形式構造にコンバートして統合ファイルを作成する。検索ソフトウエア,検索語体系も全く同一のもので全ファイルを検索する。

1),2)の方式は結局ファイルを別々に検索しなければならないこと,ファイル間の重複を検索してから除去しなくてはならないなど,検索コストが必然的に高くなるが,技術的には容易であるので,現在のところ複数の情報ファイルを利用しているところでは,いずれかの方式を採用している。それに比べて,3)の方式は統合ファイルを作成するためコストが,相当高くなるうえ,技術的にも固有の入力方式に従つたデータエレメントあるいは検索語体系のコンバートに関する技術が確立されていないなど多くの未解決の問題がある。

一方,コンピューターによる情報検索技術の課題として,大量蓄積ファイルから,必要情報を検索する技術(遡及検索技術)がある。この場合10万〜100万件もの文献を対象とした検索であるため,磁気テープファイルて行なうことはきわめて不経済になり,より大容量,高速アクセス可能な記憶ファイルを必要とする。また,ファイル編成上においても,データを能率的に記録し,かつ,必要なデータに高速にアクセスできるような特別な編成が必要である。このように大量ファイルについての遡及検索技術は,未だ実用化されていないが日本科学技術情報センターでは30万〜40万件の蓄積ファイルをもつた会話形式のオンライン実験検索システムを完成し,その使用実験を行なつている。

コンピューターによる情報検索が充分に実用化されるためにはまだいくつかの課題が残されている。それは,まずコストが現在のところ人力による検索に比べて,若干割高になつていることであり,また検索効率については,呼び出し率(ファイル中から必要な文献をもれなく検索する割合),適合率(検索された文献が,実際要求に適合している割合)ともに満足させる段階に至つていないことである。したがつて,コストを下げ,検索効率を高めることが,情報検索システムの設計の面で今後に残された課題である。


(4) 言語処理技術

本節の冒頭に述べたように科学技術情報の処理技術は,基本的には言語処理の技術である。したがつて,これまで述べてきた諸技術は,コンピューターが処理できる形態に源情報を人間が変換する技術または変換されたものを源データとする処理技術であつた。しかしながら,自動索引技術でふれたように,このような変換を人間が行なうことは,データの均質性,処理時間などの面で問題があり,源情報を直接コンピューターに処理させることができれば,第1に省力化の点で,第2に情報の迅速な流通の点で,第3には個人差のない標準的な処理ができる点で,画期的なことである。

言語処理をコンピューターに実行させるためには,人間が言語情報の処理を行なうプロセスの解明を行ない,何らかの判断基準を設定して,それをコンピューターに実行させればよい。例えば,文献の内容を表わすような検索語の抽出に関しては,文献中に存在する語の出現頻度を調査し,出現度数の多いものは重要度が高いと判断し(この際,科学技術情報として意味の無いものはあらかじめ取り除いておく),そのような行為をコンピューターに実行させることは比較的容易である。しかしながら出現頻度が多くても,正にその文献の核心をついている語でない場合もある。

そこで,どうしても文章の構造を分析し,その上で検索語を抽出するような解析方法が必要になつてくる。このようなアプローチは,チョムスキーの文法理論が発表されて以降,コンピューターによる処理を意図して多くの研究が行なわれているが,わが国では各研究が相互に密接な関連をもつに至つておらず,これらを関連づけ実用化の方向に結集していく必要がある。

現在進められている当該分野に関する研究の中で注目すべきものとして,電子技術総合研究所,京都大学,九州大学のグループによる機械翻訳をめざした日本語,英語の構文分析手法,翻訳辞書,翻訳ソフトウエアなどの研究,東京女子大学における推論アルゴリズムの法令文検索への応用,日本科学技術情報センターにおける深層構造を論理式化し,文型パターンの抽出と自動索引への応用等があり,言語処理の技術を実用化に結びつける点で期待するところが大きい。

このほか,日本語独特の問題として,国語研究所における語彙調査およびそれに関連した日本語単語認定ソフトウエアの開発,電子技術総合研究所における漢字-かな文字変換およびその逆変換ソフトウエアの開発等言語処理に共通する基礎的技術について鋭意研究開発が進められている。


(5) 情報処理ハードウエア技術

ハードウエアについては対象が広く,しかも中心となる技術が,コンピューター本体であるため本節との関連においては,とくに漢字処理の入出力機器およびマイクロフイルム関係のリーダー・プリンターおよびCOMに対象を限定して述べることにする。

コンピューターにより情報処理を行なうと,一般的にはその出力が数字,かな文字により表現されるため,読みにくさ,同音異義語の判別難などの困難を伴う,このような問題は漢字を使用することによつて大幅に解決されるが,反面入力におけるパンチ作業の複雑,校正処理の困難,出力機器のコスト高等種々の問題が生じてくる。

漢字入力機器としては,新聞社などで従来から使用されている漢字テレタイプライターが最も一般的であるが,国立国会図書館のように4,000もの多数の字種を必要とする入力の場合には,漢字の偏と旁を別々に入力させるパターン入力法が用いられている。また,日本科学技術情報センターのように科学記号,数式等,文字と数字,文字と記号の組合さつた合成文字の表現には,各々を別々に入力し,あらかじめ定められている合成パターンに相当する指示を与えて合成文字を作る入力法が用いられている。しかしながら,これらの入力機器は,訓練されたオペレーターによつてのみ操作できるもので,誰でも手軽に操作することはできない。そこで,ディスプレー装置を備え,入力したい漢字の読み方を,かな文字キーボードから入力すると,スクリーン上に相当する読み方の漢字が映し出され,その中から必要な文字を選択して入力できるような漢字入力・表示装置が,電子技術総合研究所で開発されており,この装置を使用すれば,通常の日本人であれば,誰でも手軽に漢字の入力を行なうことができ,漢字入力の普及に大きく寄与するものと期待される。

漢字テレタイプライターをはじめとして漢字入力機器は,もつぱら大量の入力を行なう事業所で用いられている関係で,印字等のモニター部を持たない機器の方が作業能率が高いといわれている。その反面,誤字率がかなり高く,校正処理に大きな問題がある。校正処理用の機器として,ディスプレー装置が開発されており,さん孔された紙テープのデータをブラウン管上に表わし,原稿と照合しつつ漢字を修正するものである。すでに一部で実用化されているが,現段階では,コストが相当に高く,どのように修正したか記録されないため,ゲラが出てこないと分らない,長時間ディスプレーを見る作業は疲労するなどの問題がある。

漢字出力器としては,国産メーカー,米国メーカー等多くの機種がある。

原理的には,電子光学的に文字を発生させ,ブラウン管上に表わすものと,文字をディジタル化して,記憶素子に記憶させ,文字を発生するものとがある。前者には,飛点走査型,ライノトロン管型,キヤラクトロン管型などが代表的なものである。後者には,文字を点マトリックス上のパターンとして記憶させるもの(ドット方式)と横方向に分割した線素の合成されたものとして記憶させておくもの(ラインドット方式)および点と点の間を結ぶストロークの合成されたものとして記憶させておくもの(ストローク方式)とがある。

プリントは,一般的にはブラウン管表示したものを写真フィルムまたは印画紙に写し撮るが普通紙に印刷できるものも開発されている。一方,ドット方式のものは,ブラウン管に表示せずプリントする(ワイヤー・インパクトプリント)こともでき,印刷目的に応じて適当な方式を選択できる状況になつてきた。

マイクロフイルム関係ではCOMが話題になつている。小数の漢字を含んだ米国製のCOMシステムおよび国産の漢字COMシステムが開発されているが,まだ本格実用化の段階に至つておらず,需要より機器開発が先行している状況である。

他方,マイクロフイルムのリーダー・プリンターは,カセット・ロール・フイルムを使用して,自動的に必要な部分を選択するページ・サーチ機能をもつたものが出現しており,きわめて簡単な操作で所望のページのプリントを作成できるようになつた。

このように,マイクロフイルムを作成,利用する機器の性能向上により,マイクロフイルムの使用が普及するようになると,コストも低下し,あるいは紙に印刷する形式に代つてマイクロフイルム形態での出版等がかなり比重を増すものと予想される。


前(節)へ  次(節)へ

ページの先頭へ   文部科学省ホームページのトップへ