当サイトではJavaScriptを使用しております。ご利用のブラウザ環境によっては、機能が一部限定される場合があります。
ブラウザの設定でJavaScriptを有効にしていただくことにより、より快適にご利用いただけます。

第9期学術情報委員会（第13回）　議事録

1．日時

平成30年10月25日（木曜日）13時00分～15時00分

2．場所

文部科学省3F1特別会議室

3．議題

電子化の進展を踏まえた学術情報流通基盤の整備と大学図書館機能の強化等について
その他

4．出席者

委員

喜連川主査、引原主査代理、赤木委員、家委員、逸村委員、井上委員、岡部委員、
北森委員、五味委員、竹内委員、谷藤委員、辻委員

文部科学省

（事務局）原参事官（情報担当）、丸山学術基盤整備室長、高橋学術基盤整備室参事官補佐

オブザーバー

小賀坂科学技術振興機構知識基盤情報部長

5．議事録

【引原主査代理】皆さん、こんにちは。喜連川主査が来られるまで、私が代役を務めさせていただくことになりました。
本日はお忙しいところ、どうもありがとうございます。第13回の学術情報委員会をただいまから開催させていただきます。
前回は、研究分野ごとのオープンサイエンスにかかる取組の現状を把握するという意味で、ライフサイエンス分野及び人文学分野の状況を御紹介いただきました。今回も引き続きまして、研究分野ごとの状況を紹介いただくために、意見交換をお願いしたいと思っております。
本日は、防災科学技術研究所の汐見勝彦先生、それから東京大学の三輪哲先生にお願いしています。本日は出席いただきまして、どうもありがとうございます。両先生は、本日、プレゼンをしていただくことになりますので、よろしくお願いいたします。
また、オブザーバーとして、科学技術振興機構の小賀坂知識基盤情報部長に御出席いただいております。よろしくお願いいたします。
まず、事務局から配付資料の確認をお願いできればと思います。よろしくお願いします。
【高橋参事官補佐】事務局より配付資料の確認をさせていただきます。議事次第に記載しているとおり、配付資料としては資料1から4までを御用意しております。不備がありましたら、事務局までお申し付けいただければと存じます。
それから、本日の傍聴については、24名の方の登録があります。傍聴の方々におかれましては、お持ちの端末に資料のダウンロードをお願いしたいと考えております。よろしくお願いいたします。
それから、配付資料の1に、前回の委員会におけます主な意見を整理しております。時間の関係上、説明は省略させていただきたいと存じますが、意見交換の際に参考資料として御活用いただければと存じます。
以上でございます。
【引原主査代理】どうもありがとうございます。
最初に時間が経ってしまいましたので、早速ではございますけれども、審議に入らせていただきます。
まず初めに、防災科学分野の状況として、防災科学技術研究所の汐見先生に御説明いただければと思います。どうぞよろしくお願いいたします。
【汐見副部門長】御紹介いただきありがとうございます。防災科学技術研究所の汐見と申します。これから30分ほど時間を頂き、私どもの研究所が所有しております地震の観測データについて、そのデータの収集、公開及び共有について御紹介したいと思います。
表紙に見慣れない絵が描いてあると思います。これは、先月起きました北海道胆振東部地震のときの地震のデータです。これについては、後ほど紹介します。
まず、地震のデータと言っても、皆さんピンとこないかもしれません。生活していく上で皆さんがよく触れられる地震のデータというと、この程度かなと思って、まず三つピックアップしました。大きな地震が起きると、テレビや携帯電話などに緊急地震速報が流れてきます。これは、どのあたりで大きく揺れるかということを気象庁で緊急に解析をして発表されるものです。少し時間を置いて、各地でどのような大きさの揺れが観測されたか、震度の情報が公開されていきます。さらに、もう少し時間がたちますと、この地震がどういうところで起こったのか、震源の情報として、このバツの位置を気象庁で決めて発表しています。この例だと北海道で最大震度7の地震が発生した。その震源はどこで、震源の深さは何キロ、マグニチュードは幾つ、という情報が発表されてます。こういうものをテレビ等で耳にされたことがあるかと思います。
こういう情報を作り出す基になるものが地震波形で、使っているデータの大本の、一番重要なものになります。我々は、3次元の空間に生活しているので、3次元の揺れ、地面の動きを把握するためには、地面の揺れを測る装置である地震計で、直交する三つの方向の揺れの様子を測ります。地面の揺れを立体的に捉えるため、通常、よくあるパターンとしては上下の方向、南北の方向、東西の方向を取るように地震計を三つ並べて記録します。今は一体型になっているので、普通はこれ1台でやります。それに時刻の情報を付けて、4次元の情報としてデータを取ると、こういうものが得られます。上下、南北、東西になりますけれども、横が時間になた時系列のデータが出てきます。ここに少し黒く、太くなっているところが地震で、揺れが大きくなると、こういうのが大きくなって見えます。この揺れの幅、振幅を使ってやることによって、震度であるとかマグニチュードというものが決まりますし、何時何分に、どこの観測点で地震の揺れを検知したかということを使ってやることで震源の位置を推定することができる、そういうような処理をやっております。
こういう情報をどこがどういう管理をして、どういうふうに発表しているかということですが、まず一番我々の生活に直結してくる震度情報というもの、これは防災に関する情報になりますので、気象庁で一元的に処理をして収集して発表しています。ほかの機関、地方自治体であるとか我々の防災科学技術研究所でも震度の情報を計算できる地震計を設置していますけれども、気象庁が定めた計算方法にのっとって全部計算をし、結果を気象庁にお届けをして、気象庁から発表されるという仕組みになっています。このデータについては、気象庁でデータベース化され、ウエブサイトから全て公開されています。
次に、震源の情報ですけれども、地震がどこで起きたのか、その地震の大きさはどれぐらいであったのか、その地震が何時何分何秒に起きたのかということ、あるいは、これに付随する各観測点での揺れの大きさであるとか、何時何分に揺れが届いたのかということをリスト化したものになります。これについても、気象庁が代表してまとめられています。このデータは、大体100年間あります。1923年、関東大震災のあった年の1月以降のデータが全て集めてあって、やはり気象庁のウエブサイトから公開されています。ただ、古いデータはかなり精度が悪いということもあります。地震の観測というのは、気象庁だけではなくて大学や研究機関、いろいろなところがやっています。昔は、気象庁は気象庁のデータだけを使って、大学は大学のデータだけ、防災科学技術研究所のような研究機関は研究機関だけのデータを使って震源を決めるということをやっていたんですけれども、97年10月以降は、各機関のデータを全て気象庁に届けて、気象庁の方で一元的に処理をしていまして、それが日本のオフィシャルな震源カタログであるということで全て公開されている。現在は、かなり精度が上がっています。
大学や研究機関では、今でも震源カタログを作っています。そのときは、逆に気象庁や大学のデータ、研究機関の全てのデータを同じように使って、研究用として処理をしています。なぜこんなことをやるかというと、気象庁は、かなり丹念にデータを見ています。大きな地震があったときにはすぐ情報を出しますが、小さい地震、我々が感じないような地震については、1日後、翌日の夕方にならないと出てこないということがあります。防災科研では完全にコンピューターで、自動で震源を調べてその情報を出します。ただし、自動で決まった情報というとおおまかなものなので、もう少しきちんと震源を決め直したカタログを作って、それを研究のデータとして使いましょうということで、論文にもしていますし、こういうウエブサイトを作って広く公開するということもやっています。
これらの情報になる地震の波形、波のデータは、運用方法の異なる2種類の観測点を使っています。通常は、定常点の記録を用います。これは、それなりにしっかりした施設を作って、10年、20年、あるいはそれ以上にわたって安定して観測するための観測点になります。半ば業務的な部分もありますので、これは気象庁や国立の研究機関が中心になっていますけれども、大学も研究目的で作っているところがあります。
それ以外に臨時点というのがあります。これは、ポータブルな地震計、地震観測のセットを現場に持ち込みまして、重点的に観測を実施する。例えば、大きな地震があったときに、その余震活動がどうなっているのか、あるいは突然群発地震といいますか、昔の松代のような、ああいう地震が起こったときに、そこで何が起こっているのかを調べるために、定常点では足りないというときに臨時点を持ち込んで観測をするということです。これは、かなり研究的要素が強いので、大学や研究機関が中心となってやりますけれども、時折、気象庁も参加されて一緒にやることがあります。今日の話は、主にこの定常点の方を中心に行きたいと思います。
この定常点ですけれども、全国の微小地震観測網、これは95年1月、御存知の方はこれがなぜキーワードになるかというのはよく分かると思うんですけれども、この時点での定常点、微小地震観測網と呼ばれる観測点の分布になります。我々が感じないような弱い揺れも取りましょうということが目的の観測網なんですけれども、何でこんなものを調べることになったかといいますと、さかのぼること50年以上前になります。1962年、ブループリントと我々は呼んでいますけれども、こういう小さい地震まで全て調べて、どこでどういう地震が起こるのかということを調べていけば、いずれ地震予知はできるということを当時の研究者が考えて、そのための観測網を整備していくという話がありました。
その結果として、約30年後の1995年当時に運用されていた観測点はこのような分布でした。少し沖縄が切れていますけれども、沖縄にも観測点はあります。ちょっと見にくいかもしれませんけれども、赤、青、緑で、気象庁、大学、防災科学技術研究所の観測点があります。気象庁は業務的な観測ということで、大体有感地震を取れるようにということで、マグニチュード2から3ぐらいの地震が取れるよう、等間隔に観測点を配置している。それ以外の研究目的で置いているところというのは、大学ですと、それぞれの所在地の近くで重要だと思われるところに重点的に観測点が置かれていますし、我々防災科学技術研究所においては、首都直下地震であるとか東海地震が発生すると当時危惧されていましたので、そういう地震の予知をするために、関東・東海地方に密に観測点を置いていたという状況です。
95年当時、気象庁と研究機関のデータ交換というのも、たまには行われるようにはなってきていましたけれども、基本的には各研究機関がそれぞれ独自のデータを確保して、独自に処理をするということが行われていたという時代です。
95年1月、阪神・淡路大震災が発生しました。阪神・淡路大震災の発生を受けまして、もちろんこれは予知できませんでしたので、予知の観測網ということの位置付け、もう一回ちゃんと整理しましょうということで、95年7月に地震調査研究推進本部が発足しまして、この地震本部において地震に関する基盤的調査観測計画、そもそも地震という現象をちゃんと調べる必要があるだろうという計画が出ます。
この中で幾つか大筋のプランがあるんですけれども、そのうちの一つとして、全国均質な地震感観測網を整備しなさい、というのがあります。「均質」ということが一つのポイントになります。この地震観測網の整備については、関東・東海に作ってきた観測網をモデルにしようということで、この観測網を運用していた防災科学技術研究所が担当することになりました。
こちらが現在の地震観測点の分布になります。ほぼ、日本地図、海岸線がなくても日本の形が分かるぐらい、今は観測点を設置して運用しています。陸域の部分については、阪神・淡路大震災を踏まえて作った観測網になります。左側のところが陸域の観測網で、一番下は火山なのでちょっと置いておきますけれども、高感度地震観測網、基盤強震観測網、全国強震観測網、広帯域地震観測網、四つあります。この上の二つは同じところに置いてあるので三つの観測網があると。なぜわざわざ分けているかといいますと、地震という現象を言葉で言ってしまうと一つなんですけれども、皆さんも御経験あると思いますが、ガタガタと揺れる短周期の揺れと、この前の東日本大震災でも話題になりました長周期地震動と言われるもの、新宿の高層ビルがゆらゆら揺れるようなもの、あるいは、それよりももっと長い周期、10秒、100秒とかいうようなものもありますので、それを広く観測する必要がある。
さらに、強さは、この前の北海道や大阪の地震のように、建物が壊れるような強いものから、全く人が感じないような弱いものまであります。このような広い帯域のものを一つの地震計で測るのは、今の技術では事実上不可能ですし、もしできたとしても、その地震計が非常に高価で、日本全国を埋め尽くすというのにはちょっと手が出ない。ということで、守備範囲は狭いんですけれども、それぞれの特性に特化した地震計を設置して観測網を作っています。それぞれのネットワークは地震計に対応したネットワークになっています。
このうち、強震、強い揺れを測るものについては、強い揺れを伴う地震が発生したというのは分かりやすいんです。イベントトリガーと我々は呼んでいますけれども、地震が発生したときに波形データを収集して、そのデータを使って震度の情報であるとか、耐震設計に使うとか、そういうことにやりましょうと。
それ以外のもの、広帯域地震計、高感度地震計と呼んでいますけれども、揺れが弱いところをターゲットにした地震計については、地震が起きたかどうかを判断するのに失敗すると貴重なデータを消してしまう可能性がありますので、そういうデータについては、連続的に全て、地震が起きていない時間帯も含めて収集しましょうということでやっております。
これ以外にも、今、海域にも観測網が少しできています。南海トラフにおける地震発生の危険性の高まりを受けまして、海洋研究開発機構がDONETを構築しました。2016年4月に完成したのち、現在は防災科学技術研究所の観測網として運用しています。北海道、東北沖については、東日本大震災の発生を受けまして、この地域で発生する地震や津波の警報を早くしようということで、S－net（日本海溝海底地震津波観測網）というものを構築しまして、2016年4月からこちらも運用を開始しております。これらをまとめて、今、防災科学技術研究所ではMOWLAS（陸海統合地震津波火山観測網）ということで運用して、これらのデータの公開、共有をしているところです。
今、データの公開、共有と申し上げましたけれども、これをやるバックグラウンドの話というのが、実は平成16年、もう約15年前に、こういう協定が関係機関の間で結ばれています。これは先ほど申し上げた連続で集めるデータをどうやってみんなで、コミュニティーの中で共有するかという話を取り決めたものです。これは、4年前に改定が1回入っていますけれども、現在は、一番下になりますが、九つの国立大学法人、六つの研究機関、国立研究機関、自治体の研究機関、あと財団法人も一つありますけれども、六つの研究機関等と、あと地方自治体三つ、気象庁ということで、地震の観測をしている主な機関が参加してデータを共有しましょうという仕組みが作られています。
ここに目的だけ抜粋しています。地震調査研究の推進、防災に使います、あと国民の正しい理解の促進ということで、阪神・淡路大震災、皆さんよく聞かれたと思いますけれども、地震学者は、後から「ここで地震があることは分かっていました」と言う方がいっぱいいました。実際、それは事実です。地震学者の中では、関西は地震が多いことが分かっていたんですけれども、地元の方は御存じなかった。なので、国民にもちゃんと分かってもらうようにしなきゃいけないということで、データをそれぞれの機関が抱えるのではなくて、全て共有しましょう、共有してみんなでそのデータを使い倒して、新しい知見を得ます。その集めたデータを、保存してちゃんと公開するルールを作りましょう、ということがこの協定です。15年前に作られたものです。
観測データの保存及び公開というところについては、協定の中で「丁」と書かれている防災科学技術研究所が責任を持ってやりなさいというルールになっています。そのときの条件として、この三つが協定の中に書かれていまして、リアルタイムである必要はない、ウエブサイト、ホームページにより無償で全部公開しなさい。ただし、地震調査研究推進本部のルールの下でやっていますので、それの目的に合うものに限定して、その目的に合っているということを確認するために認証方式を使いなさい。観測データの二次配布、どういうふうに使われているかということをここで確認しなきゃいけないので、二次配布は認めないようにしましょう、という条件が付けられていました。
さらに、この協定には細目協定というものがあります。97年、この協定よりも前に決められている地震に関する基盤的調査観測計画という地震本部がまとめたもの、これには地震関係データを一元的に処理する機関を定めて、全てそこにデータを集めて、そこが中心となってデータの処理をしなさいと書いてあるんですけれども、どこがやれというのははっきり書いていなかったということで、平成16年に締結した協定において、気象庁がこのデータの処理をやりますということを約束しました。すなわち、関係機関の全てのデータを気象庁に届けて、気象庁が震源のカタログを作って公開します。全てのデータは防災科学技術研究所に集めて、防災科学技術研究所が公開しますというルールになっているのが現状です。
データの流れです。各観測点から来るものは、観測点で1秒ごとにパケット化しまして、IP－VPNのネットワークに乗せて、つくばにある防災科学技術研究所のデータセンターに届けるという形になっています。それ以外の各機関、今申し上げた気象庁であるとか大学であるとか、その他の研究機関等も自前の観測データを持っています。昔は、ここでこういうふうに線が入っていて、別にデータの交換などはしていなかったんですけれども、現在は、例えば気象庁さんにはIP－VPNのネットワークから防災科学技術研究所のデータを直接お届けする、できるだけ遅延時間をなくしてお届けすることで緊急地震速報に使ってもらう。あるいは、震源の情報、どこで地震が起きたかというカタログの整備に使ってもらうという仕組みにしています。
大学については、JDXnet（全国地震観測データ流通ネットワーク）と言われるネットワークで、ほかの大学との連携を地震研究所が主体となってされていますので、地震研究所にフロントに立ってもらっていますが、大学を含めた他の機関については、我々の方でデータ交換システムというネットワーク装置を用意して、そこに各機関の皆さんにデータを投げ込んでもらう。各機関は、そこから必要なデータを取り出すという形で交換をするというシステムを作りました。ここに流れてくるデータを我々が全て収集して、インターネットで公開するという流れを行っております。
実際、どのような情報を公開しているかということで、これはHi－net（高感度地震観測網）と呼ばれる観測網の情報になりますが、これはトップページです。ここでは何をターゲットにしているかといいますと、主に日本周辺で発生する地震の震源情報、どこで起きたかという情報を出しています。先ほども申し上げましたけれども、気象庁は大きな地震に対しては速報を出されますけれども、若干時間が掛かるというのと、規模によってはなかなか発表していただけない、翌日になるというのもありますので、ここについては我々の自動震源決定処理の結果を決まったものから出していく。ここに24時間の震源分布を出していますけれども、大体が無感、我々が感じることができない地震です。ただ、そういうのを含めると、日本全国で大体数百個、今だと自動処理で300個、人が見直すと600個ぐらい、1日に起きています。少し大きな地震が起こると、その余震で1,000個程度、これぐらい日本全国どこでも地震が起こるんだというのを見てほしいと思って、こういうものを出しています。
また、AQUAシステムとありますけれども、これは緊急地震速報にも一部関係してくる技術ですが、我々の方で技術開発を行ったもので、地震波形データが入ってくると、すぐにその震源の位置を決め、その地震がどういう力を受けて、どういうメカニズムで起こったのかというのを推定するという処理を、数秒で震源、数分でメカニズムを推定するということをやっています。こういう情報も研究開発レベルでやっているということのアナウンスとして情報を提供しています。
また、最近インバウンドで外国の方も多いという話もありますけれども、簡略版で英語のページも運用しており、基本的な地震の情報を英語でごらんいただけるような形も作っています。
こういう日本全国のマップをいろんなスケール、あるいは時間のスケールで表示して、概要を見ていただけるようにしているということです。
公開しているデータの基本は波形です。地震の揺れの強さ、揺れの大きさを含む記録がデジタルで出ていくということになります。ただ、そのデジタルのデータを一般の方に見せても、どうやっていいのか分からない、どう見ていいか分からない、ということがありますので、我々の方ではそれを画像にして公開するということをやっています。今、Hi－netと呼ばれる観測網は、日本全国に800の観測点を置いていますが、そのうち100点をここに取り出して、北海道から九州まで縦に並べる。その各観測点の上下方向の揺れをここに描画している。大きく黒くなっているところは揺れが大きくなったところで、ここの辺は揺れが小さくてここが大きいと。全く白く抜けているところは、何らかのトラブルでデータが来ていないということになります。
通常、横軸1時間で公開しているんですけれども、今回は北海道のときの地震なので、少し私の方で足して、2時間のものをお持ちしています。これを見ていただきますと、最初に北海道胆振東部のマグニチュード6.7、震度7を起こした地震の記録がここにあります。有感になったのは、関東以北、これぐらいの範囲だけなんですけれども、我々のネットワークでは地震の波が九州まで、日本全国に到達しているということを観測しています。この観測点が多分一番早く揺れ始めているので、これが一番震源に近いんですけれども、直後からデータが来ていない。これはいろいろと問題になりましたけれども、我々の観測網では有線のネットワークを使っていますので、恐らく物理的に線が切れてしまって、データの収集に間に合わなかったんだろうと思われます。後ろの方でデータが切れているのは、停電が発生していますので、恐らくバッテリーが切れてデータが来なくなったと考えています。震源近くの観測点でも、一部はデータが届いていますけれども、これはバッテリーの更新をしてあったところで、ちゃんと更新したところはきちんとデータが来続けていたということが分かる。
このほか、後ろ、同じようなパターンでずっといっぱい続いていますけれども、これが余震です。大きな余震があると、やっぱり九州の方まで波が伝わっていますし、小さいものは東北ぐらいまでしか伝わらないということが分かります。そのほか、長野県であるとか九州であるとか、こういうところでもいっぱいこの時間帯に別の地震が起きていたということがここで分かります。
これは、100点の代表値なんですけれども、それ以外にも自分の住んでいるところの近くの状況を見たいという御要望もありますので、こういう県単位のズームの画面を用意して、観測点をクリックしてやると、その観測点の揺れの様子というのが見えるようになっています。これは、例として、つくばの観測点で、横1本1本のトレースが1分になっていて、縦に60本並んでいますので、これで1時間分の記録を表しています。何もないところから少しゆらゆらしたものが5分ぐらい続いていますけれども、これは実は9月28日にインドネシアで大きな津波を出す地震がありましたけれども、その地震を日本で記録した波になります。大きな地震でしたので、こういうものが記録されている。外国のこういう地震も全て観測していますので、我々のネットワークというのは、日本国内だけではなくて、外国の研究者からもすごく注目されているということになります。
では、どれだけホームページにアクセスがあるのかというのを見たものが次のスライドになります。上が日別のアクセス数の分布です。すごく上がって、すっと下がっているように見えます。これは何かというと、地震が起こった数、これは気象庁が決めた地震の数ですが、それと対応させてみるとすごくピークが合っていくことが分かります。2016年の4月ぐらいに青い部分が若干増えているんですが、これは気象庁が処理の方法を変えられていて、小さい地震も多くカタログに採用するというルールに変わった結果ですので、少しここを整形するために小さい地震をカットしてみる。マグニチュード2以上の地震だけ見ると、ずっと以前から同じレベルになる。これを見てみると、地震の数としては、震災よりもまだ倍ぐらい起きているというのが分かると思います。
このピークと、上のアクセス数はかなり対応がいいんじゃないかというのが分かっていただけると思います。大きな地震が起こると、皆さん地震がどういうところで起きているのか、どういうふうな活動が続いているのかというのを見るために、こういうウエブサイト、地震情報を取れるサイトをごらんになっているということが分かります。
一方で、一部こういうピークが幾つか立っているんですけれども、下に何もないというのがあります。これはどういうことかといいますと、例えば小笠原で深い地震で、日本全国で有感になりましたとか、あと三陸沖、これは三陸はるか沖なんですけれども、大きな揺れを出したんですが、余震が続かなかったものについては、皆さん地震情報を知りたがるんだけれども、数としては少ないのでここには見えてきません。もう一つ特徴的なのは、関東地方で大きな揺れがあると、地震は大したことなくてもアクセス数が増えるというのがあります。曝露人口といいますけれども、影響を受ける人口が多い、それとの対比が強い。それは、裏返すと、こちらにも見えていまして、右の端っこのところに北海道胆振東部地震、これ、早朝だったということもあるんですけれども、非常に地震活動は活発だったんですが、残念ながらアクセス数としては全然増えていない。恐らく北海道の方には、我々のホームページの知名度もないというのもあるとは思うんですけれども、なかなかこういうところで情報としてはうまく伝わっていないのかなというのが読み取れるグラフとなっています。
今のものが一般向けですけれども、研究者や技術者向けには登録者用サイトというのを用意しています。先ほども申し上げましたけれども、こういう認証のプロセスを作ってデータをダウンロードできるようにする。波形のデータであるとか、カタログなんかは、ログインが必要ということにしています。ユーザー登録は全て約束どおり無料にしていまして、幽霊会員が増えないように、年度末にユーザー情報の更新をして、続けますか、どうですかという確認はさせて頂いている。現在は大体8,000名以上のユーザーの登録があります。
ユーザー登録していただいた方なんですけれども、年度末のユーザー情報更新のタイミングで、どういうことに使ったかアンケートを実施しています。必須ではなくお願いですけれども、そういうものを報告していただくようにしています。それはなぜかといいますと、この観測網は国の税金で運営しておりますので、この観測網が本当に必要なのか、税金を投入する価値があるのかとよく聞かれますので、そういうところで、こういう情報がいろんなところに使われているということを説明するための資料として、皆さんの協力で行っています。
この地震のデータ、1回収集したものは、どんどんたまるばかりで消すことはできませんので、すごくデータ量としては増えていきます。現在、月間で4テラバイトぐらい、1回大きな地震があると圧縮が効かなくなってきますので、それが5テラほどに伸びていきます。我々の研究所だけではなくて、大学や気象庁が観測したデータも含めて保存していますので、年間にしますと50テラから60テラぐらい、このプロジェクトが始まって今大体15年たちますので、大体そろそろペタバイトオーバーのデータになってきたということです。
大きいデータを扱っているところになりますと、ペタバイトは大したことはないんですけれども、我々の分野ではまだまだこれは非常に大きなものでして、保存をどういうところでしていくのかが課題です。現在はハードディスクのディスクシステムの中に二重に取っていますけれども、それではだんだんスペースが足りなくなってくるということ。あと、バックアップが大きな問題になっていまして、今はテープメディアにコピーをして、同じ建屋の中に入っています。テープは再生できなくなる危険性もありますし、同じ建屋だと、火災が発生するとそれで終わりということになります。そこが我々、データをお預かりする者の非常に大きな課題として認識しています。
もう一つがデータベース上の管理ということになります。これは、単に地震の数なんですけれども、これに各観測点へ地震波が到着した時刻の情報などが全てリレーショナルデータベースの中に保存されています。今年8月までの少し古いデータですけれども、約330万個のデータが登録されています。コンピューターの性能はどんどん上がっているんですけれども、やっぱりデータベース、こちらも減ることはないので、どんどん増えていく。増えていくと検索性能をどう維持していくかということ、あと、またこちらもバックアップをどう取るのかということが課題になってきているという状態です。
ただ、そんなネガティブな話だけではなくて、広く一般に公開することになったということで、我々が余り交流のなかった分野でデータを使いたい、あるいは使ってみたという御報告を頂けるという事例もあります。左上にありますのが国際リニアコライダー、現在日本が施策として推進しているものですけれども、やはり海外から見ると、地震が多いところでこういうリニアコライダーなんか建設して大丈夫なのかという御心配がありますので、そういうところに実際に観測しているデータを提供しています。農業、土木の方では、老朽化した施設と震災の関係、民俗学ですと、最近「ブラタモリ」とかよくやっていますけれども、地形の形成とその地域の特性といいますか、建屋の特性だとか、そういうものと、更にそれと震災の関係というものが議論されている。そのときに、こういう震源の分布のようなものを引用していただいている。こういう使い方が広まっているというのが事例としてあります。
少し話が変わりますけれども、海外の事例ということで二つ紹介します。
左側がISC、International Seismological Centre、日本語では国際地震センターになります。これは、センターのつづりを見ていただければ分かると思うんですけれども、本部はイギリスにありまして、ユネスコの支援の下に設立されたものです。これは、世界の観測網、データセンターの情報を集めて、ここに世界地図がありますが、世界の地震の情報をカタログとして整備して、ここからデータを公開するということをやられている、そういう組織です。主に震源のデータを古いものから含めて公開するということをやられているところです。
一方、右側、IRIS（Incorporated Research Institutions for Seismology）と呼んでいますけれども、これはアメリカの大学のデータ、あるいはアメリカ地質調査所(USGS)が協力して世界のデータを集めて再配信するという作業もやっている組織になります。世界ではこういうところが地震に関するデータ、震源の情報であるとか波形のデータを集めて公開するということをやっている。
ただ、世界でも大きな問題になりつつあるのが、次のところに示しています。「なぜ、地震観測網はDOIを必要とするのか」という記事が『EOS』という雑誌に出ました。『EOS』は、AGU（アメリカ地球物理学連合）が発行しているニュースレターです。ここに3年ほど前に見開きのこれだけの記事が出てきました。これは多分解像度がなくて読めないので、私の拙い翻訳ですけれども、この辺の部分だけ要約してあるのがこちらになります。
要は、研究者というのは査読論文を出して、その論文が引用されることが研究者の評価につながるんだけれども、データ提供者というのは、査読論文の生成以外のところにデューティーをかなり持っているのに、それが評価されていない。その査読論文の評価というのが研究資金を取るのにも重要になってきているのに、そこでネガティブになってくると、今後の後継者の育成に対して影響が出るのではないか。そこで、DOIをデータにも付けて、論文と同じように引用できるようにし、評価に使えるようにすべきであるということの提言がありました。
日本国内のコミュニティーでも同じような問題を抱えています。上の三つが定常観測網を運用する上での課題として我々が持っているものですが、一つ目は同じです。観測施設の整備や維持管理に従事する研究者・技術者というものが、それに従事、時間を割かれて研究が滞ってしまった場合に評価がうまくされていない、評価がされないと若い人が入ってこないので、こういうものの維持管理がだんだんできなくなってくるという課題があります。
これは、先ほども申し上げましたけれども、観測データというのが実際にどのように使われているのか。今は、ユーザーの皆さんから申告していただくというルールでやっているんですけれども、それだと全部を網羅できないですね。それを何とかして我々の方から能動的にデータを収集できないか。我々の観測設備も建設からもう20年たってきますので老朽化という問題が出てきています。そのため、かなり予算が必要になってくるんですけれども、そういうところでちゃんと使われているのでこれを更新しましょう、修理しましょうというお願いをするときの基本データとして使っていく必要がある。
あともう一つ、これがここ数年で大きな問題になりつつあるんですけれども、学術論文を投稿したときに、その解析をした基本となるデータを全てサーバーにアップロードすることを条件とする雑誌が増えてきました。解析したデータとかその基になるデータを、ユーザーにアップロードされると、二次配布禁止という我々のルールの意義が全くなくなってしまいます。ここからダウンロードした方が二次利用ということで次のステップの解析をされる。それはオープンデータの考え方ではすごく理想的なんですけれども、そのときに我々の基データのところに利用に関する情報が戻るすべはないものですから、もうトレースできなくなってしまう。実はどんどん我々のデータが新しい研究成果を生んでいるんだけれども、それが確認できなくなっていくということが課題として増えてきています。
最後の四つ目は、定常点ではないんですけれども、古い臨時観測データ、デジタル化が進んできたのが30年ぐらい前になります。そのときに集めたデータを主導されていた先生方が団塊の少し下ぐらいの世代になりまして、今どんどん退職されていく時代になっています。そういうデータ、実はすごく有効なデータがたくさんあるんですけれども、退職されてしまうと、そのデータがどういうデータだったか、データ自体はあるんだけれども、それがどういうところで、どういう条件で観測されたものなのかというのが全然分からなくなってくるということで、これをきちんと整理するルールというものを作らなきゃいけないということで、我々の方でもデータDOIを導入して、利用頻度とか貢献度とかを可視化して、また更に再利用できるような仕組みを作っていくということが必要だろうということで、今、大学と共同でいろいろと検討しているところです。
最後に、ではデータDOIを付ければいいですよね、そういう仕組みもできていますからねという形で議論を始めたんですけれども、いざ始めてみると結構まだまだ解決しなきゃいけない問題があります。DOIをやるとき、雑誌なんかはそれで出版されたので、DOIを付ければ終わりなんですけれども、我々の観測網というのは稼働中でして、今現在もどんどんデータが追加されていっています。そういう時間軸で増えるものについてどう取り扱うかということが、まだこれははっきりとしたルールができていません。
あと、各観測網それぞれ、先ほど申し上げましたHi－netやF－net（広帯域地震観測網）、DONETといったものは、50から1,000点程度の観測点で構成されていまして、各観測点にメタデータ、あるいは故障履歴というのがありますので、これも本当はそれぞれで公開していかなきゃいけない。ただ、1,000点のDOIをばらばらに付けてやると、結局論文を使う方が1,000個のDOIを書かなきゃいけなくなって、それは全然現実的ではないので、これは全部に付けるのは駄目だろうと。
アメリカの方では先行しており、ネットワーク単位でDOIを付ける、ネットワークDOIという考え方を導入していますよという紹介があります。これも一案だろうということで、これの検討に入っているんですけれども、日本の場合はセンサーごとにネットワークを作った事例と、S－netは、ここに例を書いていますけれども、これは日本海溝の海底の地震津波を観測するという目的でネットワークを作っていますので、1か所に何種類もセンサーが入っています。海底の場合は修理するのも大変なので、バックアップという意味合いも含めて1か所に複数の地震計を入れて、1個の地震計が壊れてもそのまま使えるようにという形になっていますので、これに全部1個DOIを付けると、多分ユーザー側は混乱するだろうということで、今のところ、各ネットワークの各地震計に対してDOIを付けるということでどうかというので、今コミュニティーの中で調整している。ただ、これもいつまでもぐずぐずと検討していてもしようがないので、こういうことについて、年度内にある程度方向性を出して、まず先行としてMOWLASと呼ばれている我々の防災科学技術研究所のネットワークにDOIを付けて運用してみようということで、今議論を進めているところになります。
少し長くなりましたけれども、地震観測のデータの現状については以上になります。
【喜連川主査】どうもありがとうございました。それでは、何か御質問ございましたらよろしくお願いいたします。
横軸が時間で縦軸がそのアクセス頻度みたいなグラフを書くと、約1ペタバイトのデータ量に対して、3・11のような大きな地震が多くアクセスされるのか、それとも広く網羅的にアクセスされるのか、傾向はあるのでしょうか。
【汐見副部門長】今御指摘ありましたとおり、こういう大きな地震があったときに、熊本地震もそうですが、そういう傾向が確かにあります。その一方で、研究者は全てのデータをなめると言うんですけれども、ふだん、地震がないときも含めていろんな情報が隠れているんじゃないかと、全てのデータを持っていくという研究者もいますので、一様に大きな地震があったときのデータだけが重要になってくるというわけではないです。
【喜連川主査】その分布関数がどんなものを表しているのでしょうか。例えば、リモートセンシングの画像は、防災科学技術研究所も多分使っているんじゃないかと思うんですけれども、原則クリアに入ったところしか見ないと思います。そのような地震波の場合の特性が何かあるのかなと思ってお伺いしました。
【汐見副部門長】なかなか地震のデータの場合は、クリアかどうかというのは判断しづらいところがあるんですけれども、大きなデータが入ったところ、下の方で大きく伸びているところというのは大きな地震がたくさん、あるいは群発地震や余震とかのように地震のデータがたくさん入っていますので、そういうところを注目される方もいますし、あとは大きな地震が起こる前にどういうことが起きていたのかということを調べるというと、その少し前をごらんになることもあります。
例えば、熊本地震が2年前に起きましたけれども、ああいうところで、ふだんはどういう活動があったのかというと、地震のないところ、我々や気象庁が地震のカタログを出していないところについても、もう一回研究者の方が全てデータをダウンロードして、小さい地震はなかったのか、気象庁が検知できなかったようなものはないのかということを探っていますので、研究者の目的によって、いろんなデータを使っています。
【喜連川主査】 K－NET（強震観測網）は、大きいのが起こったときからとお伺いしたんですが、ちょっと前のウインドウも取っておいてその前は捨てると、そんな感じなのか、本当にそれ以降しか取らないのか、どうなんですか。
【汐見副部門長】 K－NETについては、きょうは御紹介していないんですけれども、現地の収録装置でループ的に全部収録していまして、大きなデータが入ったら、それよりも少し前からのデータを切り出してデータセンターの方に送っています。そういう形で、例えば小さなP波があって、その後大きなS波が来るというのが普通なんですけれども、S波でトリガーが掛かってもP波が切れることのないような工夫をしています。
【喜連川主査】観測は保存と直行しているということですね。
【汐見副部門長】やっぱり通信回線の経費とも直結してきます。95年、整備開始した当時は、かなり通信回線が弱かったものですから、できるだけ送るデータ量は減らすという観点もあります。今は、ブロードバンド化がかなり進んできていますので、一部の観測点では試験的に連続で流すということもやってみているところです。そうすると、今後は逆にデータが増えてきますので、それをどう保存していくのか、どう活用するのかということが、また別の課題としてあります。
【喜連川主査】谷藤委員、いかがでしょうか。
【谷藤委員】この分野のデータのことをきょう知りまして、大変よいお話をありがとうございました。
よく知らなかったので、ちょっと初心者の質問ですが、最初はデータを公開する部分と、限定的に登録した人だけに見せる部分と、階層的にデータを公開するということ、そういう歴史があって、今、結局そこは形骸化したということは、そういう階層的なコントロールとか、横軸にデータを共有するということについては、もう制限を設けない方向に全体としては今議論が進んでいるんですか。
【汐見副部門長】結論から申し上げますと、DOIを取ってしまいますと二次配布禁止というルールができなくなりますので、限定したユーザーにだけ公開するという条件は撤廃する形になると思います。
【谷藤委員】そうすると、DOIを付けるか付けないかというのが、制限なしの一般利用か、そうではないかの境目になるということですか。
【汐見副部門長】そうですね。DOIのルールとして、有料雑誌とかもありますけれども、条件を満たした人に対しては全て公開する。二次配布も禁止してはならないという形、ただ、ユーザーはDOIを必ず引きなさいというルールになります。もともと我々のホームページ、日本語しかやっていなかったというのもあるんですけれども、日本に留学された研究者の方がデータを日本でダウンロードして、母国にお持ち帰りになって、それをどんどん配付されるということが実際にありまして、そういうことがあると、配付されたデータを受け取った方が論文を書かれたときに、配った方にだけ謝辞を書かれる。我々の防災科学技術研究所、あるいは気象庁のデータを使ったということがどこにも残らないので、我々も統計を見るときに、使ったのかどうか分からないということが発生してきまして、これではもう駄目だろうということ。DOIを取ってそういうルール、枠組みに乗ってしまいますと、今度は論文誌の方で必ずDOIを引きなさいというルールができますので、中途半端な引用で論文を投稿しても、これは駄目だよ、ちゃんと書きなさいというふうにエディターの方から指示が入ります。そういう方向でどれだけ利用されたのかというのを把握するという方向にかじを切ろうということで、今、大学を含めて検討しているというところです。
【谷藤委員】そのデータにDOIを振るのか否かという選択肢は、どちら側にあるんですか。
【汐見副部門長】今はデータを管轄している各機関の方にあるということで……。
【谷藤委員】じゃあ、簡単に言うと、データ作者側にはないわけですね。
【汐見副部門長】データ作者です。そういう意味では、済みません、管轄している機関というのは正しくはないですけれども、データを作成した方、機関がDOIを申請して番号を付けるという形になりますので、今、例えば私と東京大学、京都大学などと話をしているんですけれども、例えば防災科学技術研究所はデータDOI付けますよという形になったとしても、東京大学地震研究所、京都大学防災研究所はもうちょっと考えますと言われたら、我々だけ先行してDOIを付ける。他機関のデータに我々が付けるということはしない。
【谷藤委員】なるほど。そうすると、当然メタデータの作成及び維持及び正確性の責任は、DOIを付けると決めた本人にあるということですね。
【汐見副部門長】そういうことです。やっぱりそこが一番のネックになってきまして、先ほども少し触れましたけれども、メタデータの管理であるとか、データの正常性、正確性の把握というところ、かなり観測点がありますので、それをどこまで的確にやれるのかというところと、地震の観測データというのは、何をもって正常と言えるのかが難しいというのが実はありまして、例えば震度の計算をするときにはどれぐらい揺れたかという情報が重要なんですけれども、震源の位置を決めるときは、その情報は実はそんなに重要ではなくて、時計が正しいということが重要なんです。ユーザーによって何が正しいかというのが変わってくるので、そこの情報を、多分正確だとかどうかというよりも、こういう情報はちゃんと取れていますよということを公開していくことが重要なのかと。また、そういう感じでDOIを発行しているJaLC（ジャパンリンクセンター）と話をして、そういう形で問題ないでしょうということは言っていただいているので、少し整理をしてDOIの付与に向けて動いているところです。
【谷藤委員】そうしますと、そういうことがこの分野で広く共通認識化されることで、これまで論文著者としては現れなかったデータ作者という人たちへの、何らかの評価とか認知が広がっていくという期待が大きいということになりますか。
【汐見副部門長】我々もそれを念頭に置いて、こういう取組を始めているということになります。
【谷藤委員】ありがとうございます。
【喜連川主査】ほかにいかがでしょう。はい。
【逸村委員】筑波大学の逸村でございます。大変興味深いお話でした。
8,100名のHi－netの利用者というお話がありました。スライドの12枚目ですか、この人たちの所属と、あとキャリアパスは、どのような方が多いのでしょうか。
【汐見副部門長】 Hi－netのホームページをここに出していますけれども、これに登録すると、我々の全ての観測網、K－NET、F－netも含めて全て取れます。キャリアパスまでは、個人情報の絡みがありますのでアンケートは実施していませんが、メールアドレスだけ頂いています。メールアドレスを見て、日本からの登録者の大体半数ぐらいは「co.jp」の方、民間企業の方、あるいは「ne.jp」、いわゆるプロバイダー経由の方、Gmailとか、そういう方もいらっしゃいますけれども、そういう一般の方が非常に多いです。4分の1ぐらいが「ac.jp」、「go.jp」ぐらい。そのほかいろいろ、「.edu」とか「.com」、あと「.gov」ですね、多分USGSとか、そういうところじゃないかと思いますけれども、そういう海外の方も幾つか登録があるという状況です。
【逸村委員】そうすると、専門的な情報であっても、利用の範囲は、ドメインから見ると幅広いというわけですね。防災科学技術研究所あるいは東京大学大の地震研究所、そういうところに今勤めている人、そういう意味では先ほど若手の人材の育成みたいな話がありましたけれども、そこら辺の関係というのはどういうふうになっているんでしょう。つまり、ある程度、教授みたいな立場に立つまでに、そういうものを、どういう段取りとか、そのときにこういうデータを活用してとか、そういうのは何かパターンがあるんでしょうか。
【汐見副部門長】私なんかもこの道に入って30年ぐらいになりますけれども、私が学生だった頃はこういうものはありませんでしたので、自分で地震計を担いで山の中に入ってデータを取ると。それだけ苦労したデータだから、自分たちで持つんだという世界だったんですけれども、今はこういうふうに全て世界のデータ、先ほど御紹介しましたけれども、IRISやISCで公開していますので、ほとんど、特に若手の研究者の方は、そこでダウンロードしてデータを取る。アルゴリズムの学習という意味で、今、大学の方はかなりやっておられますので、観測というよりは、観測データを使ってどういう情報を引き出すかという研究の方に重きが行っていまして、そういう形でデータの利用はしていただいているんですけれども、逆に観測をどうしていくかというところの人材が若干不足してきているという状況です。
【逸村委員】データセントリックなんですね。最後に、4ページ目に、全国の高感度（微小）地震観測網、550点とありましたけれども、これはほとんど無人が原則なんですか。
【汐見副部門長】はい、全て無人です。
【逸村委員】たまに人が行って……。
【汐見副部門長】気象庁さんのところは、ところによっては気象官署に設置されているものもありますけれども、特に微小地震といいますと、我々が歩いたとか車が通ったとか、そういう記録も全部取ってしまいますので、比較的人のいないところに無人で運用するというのが原則になっています。
【逸村委員】ありがとうございました。
【喜連川主査】ありがとうございます。ほかにいかがでしょうか。
井上先生、お願いします。
【井上委員】御報告ありがとうございました。大変勉強になりました。
先ほどのHi－netの利用実績、お願いベースでいろいろ報告を集めているということでございました。スライド12ページでございます。民間企業もかなり利用しているというお話で、官民データ活用推進基本法の下でよい形での利用が進んでいるのかと思いますが、具体的にどのような企業がどのような利用をしているのか可能な範囲で教えていただけますでしょうか。
【汐見副部門長】企業の場合は、守秘義務等もありますので難しいところはあるんですけれども、例えばコンサルタントが報告書を書くときに、こういうところの地震の波形データを使ってシミュレーションをしてみましたとか、あと震源データで、こういうところで過去こんな地震がありましたという絵を描いて納品しましたといった、物はなかなか見せてもらえないんですけれども、こういう業務に使いましたという報告だけ出していただくということをやっています。
なかなか、発電所の設計であるとか、シビアなものが結構ありますので、そこは我々も求めておりませんで、業務として使ったという報告だけでも求めています。あるいは民間企業というわけではありませんけれども、小中学生の方の夏休みの宿題とか、そういうのにも使っていただいたというときは、保護者の方から、「模造紙みたいなものに書いたんだけど、どうしましょうか」と言われる、「そういうのに使っていただいたという御報告を頂くだけで結構ですよ」という形で言わせていただいていますので、基本的にはタイトルだけでも頂ければという形でお願いしているところです。
【井上委員】ありがとうございました。
【喜連川主査】ほかにいかがでしょうか。岡部先生。
【岡部委員】京都大学の岡部です。
最後の2ページで、データDOIの付与というところが非常に参考になると思っています。特に、地震の場合は、さっきおっしゃった、気象庁と、それからこちらの防災科学技術研究所のような文部科学省所管の研究開発法人、そして各大学など、いろんなところがやっています。それをまず国内で、コミュニティとおっしゃいましたけれども、ある程度研究者としてはまとまっているにしろ、もともと組織が全然違う目的で設置されていて、観測装置も違って、そこをまとめていくのに御苦労があるかと思います。きっとほかの、いろんな似たようなところに対して参考になると思うので、国内をまとめていくに当たって、今、汐見先生の機関がデータDOIの付与についてリーダーシップをとってやっているのかというところが一つめのお伺いしたいことです。もう一つは、国際的にもそういうことがなされているとのことでしたが、国際的なものと日本でまとめているのと、どれぐらい互換性というんでしょうか、統一されようとされているのか。多分全く一緒にするわけにいかないし、とはいえ、全く違ったものにすると、逆に研究者が困ってしまう。そのあたりについても御経験とか、今、目指している方向とかありましたらお教えください。
【汐見副部門長】最初に、取組をしているコミュニティに関して、文部科学省の方でという形になるんですけれども、災害軽減のための取組として、正式名称は忘れたんですけれども、昔の地震予知をやっていた取組が、東日本大震災を踏まえて、災害軽減にどういうふうに我々の地震観測データを取り扱っていくかという計画（「災害の軽減に貢献するための地震火山観測研究計画」）がありまして、そこに我々の研究機関、あるいは大学というのが参画しております。そういうところで意見交換をする場というのがあります。各観測機関、今は地震のお話をさせていただきましたけれども、国土地理院の地殻変動のデータなどを今後どうやって取り扱っていくのか議論する場がありまして、そういう場を使って意見交換をさせていただいている形になります。
たまたま、先ほど紹介した『EOS』の記事というのを私は見て、ああ、これだなと思ったときに、大体年度末に研究集会があるんですけれども、たまたまそのときに京都大学にいらっしゃった先生が、こういう記事が出ていて、これを我々もやっていかなきゃいけないんじゃないかと、全然、別にその記事に気づいて重要だと思っていましたので、その先生は今、東大の方に異動されているんですが、その先生が大学側を主導して動いていただいて、私が防災科学技術研究所の方で取りまとめという形で動いておりまして、それと並行して、防災科学技術研究所という形で、地震だけではありませんで、気象であるとか雪であるとか、いろんなことをやっていて、そちらの方もデータのDOIを取らないと、だんだん今後やっていけなくなるという、たまたま時を同じくして、いろんな動きがありましたので、一気に加速する形でデータDOIの取得に向けて課題の整理に入って、取るんだという動きをしているというのが現状になります。
そういう研究所としてのバックグラウンドの動きがあって、かなりうちの研究所が進んでいるということもあって、MOWLASのデータを先にDOIを付与して、課題があったらそれを克服しながら、大学あるいは気象庁の方にもお勧めしていくという形でやっていければいいんじゃないかと、コミュニティーの中で話をしているというのが現状になります。
海外については、やはりそれぞれの国というか、機関によって温度差があるのは事実です。IRISあるいはISCというところ、実は先ほどISCのスライドのところで日本の参加機関を書きましたけれども、防災科学技術研究所は入っておりません。データ交換にそれぞれの機関の条件があって、折り合いがつきにくいところがあります。IRISなんかは、データを準リアルタイムで配信するということを重要視されているので、そこがなかなか日本の政策と合わないところがあって、今我々としてはデータが出せない状態です。
我々もオフラインで、ウエブページで出すということがルールになっていると申し上げましたけれども、気象庁の方との関係で、やっぱり防災に直結する情報をリアルタイムで出すと、今でもいろいろありますけれども、地震予知の情報というのを個人で出されて有料で収集しているという、もっともらしいものから非常に怪しいものまでいろいろあります。そういうところでかなり怪しい使われ方をされると、我々も含めて業務が増えるというところもあって、正しい使い方になれるように、それまで少し状況を待ちましょうということで、リアルタイムの公開というのは実はやっていないんです。そことの折り合いがなかなかまだつかなくて、海外とのデータ交換というのは限られたところ、例えば今ですと、韓国、台湾なんかとはリアルタイムでデータ交換をして、日本海で起きる地震であるとか、琉球海溝の方で起きるような地震に対して、きちんとモニタリングしましょうという取組をやっているんですけれども、それ以外のところについてはまだ協議をしているという状況です。
【岡部委員】ありがとうございます。
【北森委員】地震の分野のことがよく分かって、大変ありがとうございます。
データを保存している、あるいは測定して保存している階層としては、まず大学とか、それから気象庁や、研究機関の測定装置と、それを測って記録する記録装置があって、それが位置データになっていて、気象庁がそれを処理して震源データとして持っていると、そういう階層構造ということでよろしいでしょうか、まずその点を。
【汐見副部門長】おっしゃるとおりでして、各機関が観測装置、収録装置を日本全国に設置をして、そのデータを各機関の責任において集める。先ほどの絵に示しましたけれども、データ交換をする場所というのは、防災科学技術研究所が代表して作っているんですけれども、そこにデータを各機関が投げていただければ、気象庁はそのデータを全て収集することができて、気象庁でそのデータを解析して、日本のオフィシャルな震源カタログとして気象庁が整備されているという形になります。
【北森委員】そこで伺いたいことは、その予算措置なんですけれども、気象庁は当然措置されていると思うのですが、例えば大学であるとか研究機関であると、先生方の個人の研究室なのか、あるいは、東京大学だったら地震研究所に恒常的に措置されているのか、競争的資金であるのか、そのあたりはどうでしょうか。
【汐見副部門長】ちょっと大学の状況は、私、詳しく存じ上げないんですけれども、防災科学技術研究所については運営費交付金として組織に配分されていまして、その予算の中で、ほぼ国家プロジェクトに近い状態で運用しています。
一部、先ほど定常点と臨時点と申し上げましたけれども、定常点についてはそのような形で運用しておりますが、臨時点については、競争的資金が投入されているという事例が非常に多い。資金が切れたらそれで終わりになるので、臨時点という扱いになるのが非常に多いケースになります。
【北森委員】なるほど。そうすると、運営費交付金として配分される点は、もう固定して決まっていて、それがこの550点の中のどのくらいなのですか。
【汐見副部門長】これ、550点というのは過去の話でして、今、現時点ですと、Hi－netというネットワークで800点、F－netは73点あるんですけれども、それは全て運営費交付金で運用しています。
【北森委員】臨時で不安定なものはどのくらいなのですか。
【汐見副部門長】それはケース・バイ・ケースになりますので、その年度により何点動かしているかというのはばらばらになりますけれども、今現在の我々の研究所ですと、オンラインで動かしているものが数点程度、5、6点だったと思います。オフラインで現場に行ってデータを回収するというものが20点程度あります。
【北森委員】そうすると、圧倒的に数が違うので、臨時的なものがなくなっても多分大丈夫なんだろうと。
【汐見副部門長】はい。基本的には、定常的なモニタリングをするという目的でやっておりますので、その定常的な観測点を維持管理するということが、我々の一番の大きなミッションになっております。そんな中で、ちょっと先ほど申し上げましたけれども、胆振東部の地震があり、そういう大きな地震があったときに、周辺に定常点がないようなときにモバイル回線、携帯電話を持っていって現場に行ってオンラインの観測点を作るという形をやって運用しているという形になります。
【北森委員】そうすると、普通の研究、例えば化学だとか物理だとか、そういう分野でデータを保存したり、あるいは測定したりというときには、いろいろ競争的資金で、不安定なものはたくさんあるんですけれども、基本的に国のインフラとして、防災の観点から、常に安定的に運用できるように措置されているというふうに考えてよろしいですか。
【汐見副部門長】私どもの800点、あと気象庁で、たしか200弱ぐらいだったと思います。大学でもやっぱり200弱ぐらいということで、全国で大体1,200か所での微小地震観測網、先ほど550と出しましたけれども、現在は1,200ぐらいの微小地震観測網が国の方で予算を充塡しており、全ての機関でデータを共有しています。最低限は、それは動かすんだということで今頑張っているところです。
【北森委員】ありがとうございます。
【喜連川主査】ほかにございますか。はい。
【井上委員】リアルタイムでは気象庁などの問題があって、そう簡単にデータを出せない状況だと伺いました。リアルタイムで情報を公開すると怪しげな形で利用され国民に対して不安を与えるおそれがあるとのことでしたが、非リアルタイムでも同じような問題が生ずると思います。リアルタイムでデータを出せない理由は、それだけなのでしょうか。
【汐見副部門長】現状のデータを見て、例えば、津波が起きるかどうかという判断は、30分後とか、そういう判断になります。東日本大震災を想定していただければと思うんですけれども、データを見て、この程度の地震だったら津波なんか起きないという早合点をされたり、逆に、オオカミ少年みたいなことが起こったりします。基本的には防災に関する情報は、震度も含めて、全て気象庁からの情報を見ていただきたいと思います。しばらくして落ちついた後に、データをきちんと見て、研究開発も含めてやっていただけるといいんじゃないかと考えています。
ただ、研究の分野ではそれでは足りない部分もあります。リアルタイムで出していないのは、あくまでもホームページからの話で、先ほどお見せした協定の中に入っている大学や研究機関に関しては、リアルタイムで先ほどの図の中のネットワークで共有しておりますので、研究開発としてはそこで遅滞のないように中でやっているという状態です。
【井上委員】民間企業には、今のところリアルタイムでは出せないということになっているのですね。
【汐見副部門長】それは個別の協定みたいな形になっています。私は直接関係していないので誤解があるかもしれませんが、例えばS－net、DONETという海のネットワークの情報については、電力会社や鉄道事業者に、文部科学省も間に入りながらデータをお送りしています。気象庁もそこには当然協力して、できるだけ早く、電車や設備の被害が起きないような形で止めることができないか、実務担当者の方で研究開発を一緒に進めているという事例もあることはあります。
【井上委員】ありがとうございます。
【喜連川主査】少なくとも、天気予報はウェザーニューズがセンサー数は10倍以上で、ローカルなマイクロ・ウエザー・フォーカシングが上がっています。そうなったときに、地震がBCP等でビジネス価値のあるサービスになると、今、井上委員がおっしゃったようなこシフトが微妙に起こり得る、逆に言うと、起こった方がいいのかもしれない、ということを暗示したのかと思います。
【汐見副部門長】 1点補足いたしますと、やはり文部科学省のプロジェクトで、関東地方、首都圏で、地震研究所がもともと作られたMeSO－netという地震の観測網があります。それとガス会社、電力事業者、鉄道事業者と今、共同でデータの交換をして、都市の強靱化という形で、どういう情報が出せるのか、どういう情報を、これは一般の方にどういう情報を出していくのかということを研究しているプロジェクトもあります。その動きもにらみながら、今後のデータの在り方というものを検討する形になると思います。
【喜連川主査】私の知っている範囲では、地下鉄よりもガス事業者の方が圧倒的にネットワークをテンスに持っていると思うんですけれども、あれは逆に言うと、彼らは彼らだけ持っていて、防災科学技術研究所と共有していないということですか。
【汐見副部門長】今はガス事業者と共同で何かできないかということが、文部科学省のプロジェクトの中で進んでいますが、それぞれの目的が違いますので、データのクオリティーという部分でなかなか苦労があると担当者からは聞いています。
ガスの場合は、その場で大きく揺れたという情報が必要ですので、例えば先ほど申し上げた、4次元の情報の中の時間というのは余り重要ではなくて、その場が大きく揺れたらすぐガスを遮断する、それでいいという話になります。ただ、我々は例えば震源や、ほかの観測点と並べて波がどう伝わってきているかというのを見たい場合は、ほかの観測点との相対的な時間差を見たくなりますので、そういう情報も必要ということで、なかなかうまく使える方向がないかというのを議論しているところです。
【喜連川主査】手短に1個、最後にお伺いします。DOIを付けることは、ユーザーにとってみるとほとんど何の役にも立っていなくて、検索メカニズムの方がはるかに重要ではないでしょうか。さっきおっしゃったような、いつ、どこでみたいな、極めて原始的なデータよりは、パターン解析のようなインデックスなど、様々なデータが、一つの事象に対して周辺的に取れると思います。それをDOIで1個1個調べるなんていうのは論理的にはあり得ないようにも思います。私は登録するのに時間が掛かってできていませんが、ユーザーレベルでのデータのアクセシビリティーは、どの程度進んでいるのでしょうか。
【汐見副部門長】基本的に、データのアクセシビリティーは難しいところがありまして、かなり使いにくいという批判を受けています。ネットワーク等がよくなったとはいえ、研究所の足回りが弱かったりします。今、研究所の中にサーバーを置いて公開しているという弱点もありますので、大量のデータを持っていきたいという方からやりにくいという批判を受けており、改善の余地があるとは思っています。
ただ、DOIに関しては、それ自体で検索というよりは、実際に使っていただいていること、あるいは、どういう分野の方がこのデータを使っているのかという逆引きを我々がしたいという要望があります。ユーザーの方が、謝辞や、データのセクションに書かれるというのが現状ですが、その方法だと我々の方で検索を掛けてもひっかからないものですから、DOIを使い、こういう研究で我々のデータが使われています、という情報を並べたいというのが要望になります。
【喜連川主査】地震のデータがきっちり集まって整理されているということをお伺いすることができました。ありがとうございました。
それでは、引き続きまして、東京大学の三輪先生から、社会科学分野の状況について説明いただきたいと思います。どうぞよろしくお願いいたします。
【三輪教授】東京大学の三輪と申します。よろしくお願いいたします。
私からは、きょうは社会科学における研究データ公開の現状と課題と題しまして、報告をさせていただきます。20分程度で簡単に説明したいと思います。
まず、社会科学において、研究データ、リサーチデータってそもそも何を使っているのかというところから始めたいと思います。実は研究データ以前に、まず社会科学ってそもそも何か？という話です。Social Sciencesと英語では扱われますけれども、ここで既に複数形になっているのが少し鍵です。社会科学というものはただ一つだけあるというわけではありません。社会科学というのは人間行動や社会現象を対象とした学問、あるいは科学の総称でありまして、社会科学という名称の総称の下に、法学ですとか、政治学、経済学、社会学、ほかにも、時には教育学や心理学なども入れることもあります。あるいは経営学を入れることもありますが、一般に人間や社会を対象とした学問だと捉えればよいかと思います。
この後、社会科学におけるリサーチデータが一体どんなもので、どういう困難があるか、そして、更にデータ公開についても同様のことをお話しさせていただくんですが、ここで鍵となっているのは、もともと人間を扱っているというところです。なかなかデータが公開されないことも、基本的にはこのことが関係しているといます。
研究データは、我々がどういうふうに集めているかといいますと、何か確立された観測装置があるというわけでもなく、あるいは自然科学の分野のように実験ができるわけではありません。もちろん一部で社会実験ということができますが、実験に向いていない分野です。なぜかというと、もともと我々が、例えば原因と結果をモデル化するときの原因候補の変数が、そもそも人間が介入できない変数だからです。例えば社会学の分野だったらば、ジェンダーの格差、つまり男女間の獲得できる社会的なチャンスの格差を分析したことが主な課題となるわけなんですけれども、ランダムに、あなたは男性、あなたは女性と割当てすることは荒唐無稽で、できないわけです。そうすると、どんな方法に頼るか。我々社会科学者たちは、主に社会調査の方法によってデータを収集するのが常でございます。
社会調査データもたくさんの種類があります。きょう、この後でお話しするのは、そのごく一部、あるいは一番データ交換に向いている部分についてのお話なんですが、大きく分けると、定性的なデータと定量的なデータの二つに分けられます。
定性的なデータとは何かといいますと、例えばインタビューの会話の記録や、フィールドワークの記録、インタビューというのはフェース・トゥー・フェースで調査の対象者と調査をする側がやりとりして聞き取るような方法で、フィールドワークは対象者たちが生きて生活する世界へ飛び込んでいって、1か月、あるいは長いときだと3年、4年生活を共にしながら彼らを観察して、自らが観測装置となってデータをとってくるようなものです。ほかにも、議事録や文書の記録などをデータとして使うこともあります。これらは音声の形で保存されたり、あるいは文書の形で保存されたり、いろいろな形がありますが、これらのことを定性的なデータと呼ぶことができるかと思います。
一方で、定量的な、あるいは数字を使ったデータも使われています。そちらは行政管理のデータ、例えば貿易の金額が幾らになっているか、婚姻届がこの町で幾つ出たか、これらは意図的に調査をしなくても、行政機関が普通に業務をやっていく中でたまっていくデータです。これを行政管理データといいますが、これも一部の分野ではデータとして使われます。それから、政府が統計数値をまとめて公開しているようなデータの類いを集計データと指します。
きょう、メーンのトピックは、こちらに出てくる個票データというものです。こちらは一番砕けた言い方でお話しさせていただければ、アンケート調査のデータ、すなわち質問紙です。質問の文章と選択肢がたくさん構造化されてまとまっている紙を対象者にお渡しして、そちらに記入してもらって回収するといったものを、よく個票データと呼びますので、きょうのこの後のお話は、社会調査のうち個票データと呼ばれるデータに関しての話をしていきます。
なぜそちらに絞るかというと、私がやっている業務が個票データの収集と公開ということもあるんですが、実際にそれ以外の、例えばインタビューですとかフィールドワークのデータなどは、日本では事実上全く公開されていないような状況だからです。個票データだけは一部分公開されているというのが現状でございます。
今の個票データの基となるのは質問紙調査です。つまり古典的には紙を使って、訪問して、聞き取りをして記入してくる。あるいは、郵送での調査、電話での調査、更にウエブを使った調査などがありますが、基本的には紙がタブレットの画面に変わったぐらいで、要するに紙らしきもの、質問の固まりを相手に投げ掛けて答えてもらうといった調査です。
こういった社会調査の質問紙調査の場合は、大きく分けて、調査のポイントとしては三つあります。何かというと、まずは内容です。何を聞くか。これは、内閣府のまねをして私が簡単に作ったんですけれども、男性か女性かとか、あと、その人の年齢が何歳かとか、仕事が何かといった基本的な属性を尋ね、もちろんこれだけだったら別に、特に質問紙調査をやる必要がなくて、これ以外に、我々が聞きたかった、例えば今の内閣に関する支持するか否か、どの政党を支持しているか、あるいは生活に満足しているか、経済学の調査だったらば、収入ですとか、賃金ですとか、かなりのところまで当然細かく聞きます。そういった、それぞれ固有の分野に関心がある質問を並べていくわけです。これが何を聞くか。質問紙を用意します。
そして、ポイントの2点目は、誰に聞くかです。我々は、基本的には一般市民から回答をもらうことが多いわけなんですが、例えば会った人の誰からでも回答をもらえればいいというわけではありません。一応科学的な根拠はないわけではなくて、無作為抽出、ランダムサンプリングの方法にのっとって対象者を選ぶようにしてデータを収集しています。すなわち、日本に1億人の成人男女がいるとして、その中から1億人の調査というのは、コストも掛かるし、時間も掛かるし、できません。そうすると、実際には1億人の名簿があるとして、その中から、例えば5,000人とか1万人程度を無作為に抽出して、そちらにアタックしていくというふうにやります。ですから、母集団の適切な代表性を持った縮図が得られなければいけないので、そのために無作為抽出の方法を使っています。
そして、無作為抽出によって選ばれた、限られた、1万人、5,000人を選んでも、実はこの後回収率というのがあって、全部が全部答えてはくれません。我々の世界では、人間が対象ですから当然拒否をする、あるいは訪問してもなかなか会えないといったことがあるので、一般に社会調査のデータの場合は、方法によって様々ですけれども、回収率は大体4割から7割の間に収まります。
さらに、三つ目の要素は、どのように聞くかです。仮に対象者が選ばれ、質問紙が作られたとしても、それを訪問してフェース・トゥー・フェースのインタビューで聞くのか、あるいは郵送で聞くのか、電話なのか、ウエブなのかといった方法も、いろいろあります。それぞれデータのクオリティーが違ったり、回収までの期間が変わったりすることがあるので、例えばマスコミなどがやっている速報性が高い調査ですと電話を使っています。選挙の速報的な調査は大体こちらですね。そして、一般に学者がやるような調査だと、訪問して面接するような調査です。ただ、これは日本に住む1万人の人を対象に調査するわけですから、多くの場合は調査会社が担って、各地の現地の調査員さんたちが走り回ってデータを集めています。
では、この質問紙の回答がデータとなりますが、我々にとって個票データ、あるいはリサーチデータというのは、大体このような行列の形式で入ってくる数字の羅列のことを示します。一応入力にも法則性がありまして、この1行に当該のアンケート用紙、調査票の質問を順番に並べて打っていきます。そうすると、1行の単位が1人の回答を示して、そして、この1列で縦方向に見ると、これが同じ質問に対する回答を、複数の個人を比較したものになっています。実際、我々は、こういったデータセット、1個の値をデータというよりは、その固まりを一つのデータセットだとみなしており、こちらに、統計的な多変量解析法を使って、社会、あるいは個人の行動などを分析するという研究をしています。ですから、何か自動的に観測してデータがたまるといった性質のものではなくて、例えば一つの科学研究費補助金のプロジェクトに対して、こういった1個のデータセットが生まれてくるような感覚で進んでいます。
さて、そういった社会調査を行って個票データを得た場合、例えばそのデータをどんなふうに預かって、公開、共有しているのかといった仕組みについてお話ししたいと思います。私のいる東京大学社会科学研究所の中にあるデータアーカイブを事例に説明しますが、これは社会科学系のデータアーカイブの標準的な形式だと思います。
まずは、調査を実際に行った、あるいはデータの所有権を持っている研究者の方、研究機関が、このデータを我々のデータアーカイブに預けてくれます。その預けたデータについて、我々がメタデータを作成する。そして、データからエラーをチェックして取り除いて、確認して、それからオンライン上で公開するという手続に進みます。そして、それを全国のユーザーたち、実際には、大学院生から研究者、民間の企業の方も一部入りますけれども、利用者の方が検索して、自分の研究にとって都合がいいものがあれば利用申請をして、二次分析目的でデータ提供を受けて論文を書くという仕組みになっています。これが標準的なものですね。
現在のところ、我々の東京大学のSSJDA（Social Science Japan Data Archive）は、ある意味完全オープンなデータにはしていません。制限的だと海外の研究者から言われたりするんですけれども、つまり申請に関して一件ずつ人間の目を通して審査をして、利用の可否を判断します。ただ、これが通用しているのは、一つには、まだ利用の件数がそれほど多くなく、人間の手で処理できる程度の数だからといったこともあります。ただ、利用申請の内容を、我々が一件ずつちゃんとチェックしなければいけない、ということをそもそもなぜ考えたかというと、実はこれも、きょうの冒頭に申し上げた、我々が扱っているデータは、基本的には人間を扱っている。この研究機関、あるいは研究者の方が一般市民の方から回答を得て、つまりその人たちの、もともと個人情報とかプライバシーに属するような情報をたくさん含んでいる情報を、一定の秘匿処理はしますけれども、それを公開しているということなので、やはり寄託者も慎重になりますし、我々、データを公開する機関としても、個人を特定し得る情報がデータの中に残っていないかどうかなどを相当に慎重に、チェックを二重、三重にした上で、データを削除し、あるいは、時には勤め先の資本金と産業などで個人を特定できないようにわざと情報を粗くして、データの情報を削いでしまうわけなんですけれども、そうしないと公開できないという形でデータをまとめることもあります。
さて、我々は、SSJDAの事業としては、こんなことをやっています。一つは、今申し上げたデータを預かる、データを寄託していただくということです。こちらは、基本的にはデータアーカイブの役割は、まずは長期保存が第一義ですので、我々がデータを預かるということが主な任務です。
それから、預かるだけではなく、研究目的の公開といったことが大事かと思いますので、その預かったデータを確認して、それから秘匿処理を施すといったことをやっています。ここは、実はかなり地味で大変なことをやっていまして、調査の実施者から送られてきた報告書と実際に届いた個票データとを突き合わせる作業、つまり個票データと報告書の内容を全部再分析して、統計分析をやってみて、同じ数字が出るかどうかチェックして、出ない場合には寄託者へ問い合わせるといったことをやっています。そういったふうに、かなり個人情報の削除だけではなくて、データの確認のところも念には念を入れてやっていますので、実は一つの調査のデータセットを我々が預かってから公開するまでには、半年ぐらいのペースで進めています。
それから3点目に、メタデータを我々自身が作成しています。これも多分それぞれの分野で特有のやり方があると思います。かなり驚かれることが多いんですけれども、我々の場合、メタデータというのは、その調査がどんな調査で、誰がやって、どういうタイトルで、いつやって、どんな回収率で、どんな質問をしてといったことをまとめて調査の概要が分かるように作るわけなんですが、これが研究者の方、あるいは調査を実施した方々にメタデータを作ってくれとは我々としては要求をしておりません。それよりは、彼らが送ってきた報告書を基に、我々のスタッフが目で見て、どこに我々が欲しい情報が入っているのかということを判断しながら、メタデータを自分たちの欲しい情報を抜き出して作っています。こちらは、社会科学においてなかなかデータ公開がそもそも進まなかったという設立当初からの経緯がございまして、要するに、ここまである意味お世話をしないと、なかなか出してくれないといったことが現実です。
そして、その上に自分たちで整備をして、そのデータを公開、提供します。実は今、二つの形式でデータの公開を行っておりまして、一つは、これが通常の形式ですが、SSJDA Directシステムといった独自開発のオンラインシステムを使ったダウンロードの提供方式です。我々のデータは、8割5分から9割方、この形式です。しかしながら、これは我々が1998年に創業した当初のやり方なんですが、郵送によってCD-Rを送るというやり方をいまだに併用しています。こちらは、なぜそういうことをしているかというと、データを預けてくださった寄託者が、ダウンロードのリスクを恐れて郵送だけにするといったケースも、いまだにあるからです。我々は、一応ダウンロードに変えませんかといったことは常々連絡してお願いはしておりますが、寄託者の抵抗がある場合には、そのまま変えないといったことでやっています。それから、Nesstarというのはもともとノルウェーとイングランドの合弁会社が作ったシステムなんですが、リモート集計システム、これはオンライン上で個票データを入手することなく分析できるような仕組みも一部導入していまして、こちらも利用者に使っていただいております。
それから、我々の役割の大きなものとして、最後に、我々のところで提供したデータを使ったユーザーの方々には、データの成果物の登録をしてもらっています。ですから、例えばこういう論文が出た、あるいはこういう学会で発表したといったことを我々のシステム上で入力してもらって、そちらの論文のハードコピーを送ってもらっているといった方法を使って、彼らから業績を集めています。もちろんこれで全部集め切っているなんてことは全く思いませんが、一応そういったことをやって、もし業績を送ってくださる、我々のところにちゃんと登録してくださると、我々のホームページ上でもこういう研究成果がこの論文から出ましたよということがアナウンスされます。そうしますと、その研究者のプレゼンスも高まるといったことで、こちらとしても業績を送ってくれるインセンティブも作れるので、ウイン・ウインだということになります。
こちらが我々のホームページ上で公開している調査のメタデータです。ちょっと見にくいかもしれませんが、調査の番号とか名称、どの寄託者なのかだとか、ダウンロードなのか、郵送なのかという形式、それから、調査が一体どういう趣旨、内容だったかなどといったことがまとめられてございます。こちらのものも、自動的に作るようなものではなくて、我々が事実上、スタッフが手入力的にといいますか、きちんと情報を見分けながらより分けて作っているのが現状です。
先ほど申し上げたSSJDA Directというシステムは、2011年から稼働し始めたんですけれども、ウエブ上でのデータの検索、利用申請、ダウンロード、あと裏側では、我々が管理者としての、誰が、いつ、どんな申請を、どのデータに関してやってきたか、そして、その利用申請からどんな論文が出たかをひも付けられる管理画面を裏に持っており、我々はそちらを使っています。
我々のデータアーカイブの特徴としては、利用資格は大学や公的研究機関の研究者に限られているということです。つまり学術目的のみです。もちろん学術目的のみというのは正確ではなくて、事実上教育目的、すなわち大学での講義に使う、あるいは大学で卒業論文を書かせるために使うなどといったことには、もちろん認めています。ただ、例えば民間の研究機関の方とか一般企業の方には基本的にはオープンにはしていませんが、一部例外があります。それは寄託者です。つまり、我々の理念を分かってデータを預けてくれた方に関しては、それが民間企業の方だろうと、ほかのデータもオープンにするということになっています。これが、我々としてはずっと20年続けている方針です。
それから、Nesstarというのはデータ特性、先ほどでいうメタデータなんですけれども、メタデータに関する情報閲覧と簡単な統計分析がオンライン上でできるシステムです。こちらは、実は利用資格が特に限定されません。ですから、やはり中には高校生が卒業論文で使うこともあったようです。ただし、こちらも利用目的は原則学術目的のみということになっています。そういう意味では、我々は、基本的にはアカデミックな志向が強いデータアーカイブと言えるかもしれません。
このような社会科学データアーカイブは、我々が、今、日本の中では一番アクティブにやっているところだと言えるかと思いますが、データアーカイブの役割と意義がそれなりにあると思っています。一応6点ほどまとめましたが、一つは一番簡単で、データの喪失を防いで長期保存が可能になるということです。社会科学の分野で学問分野は細かく分かれて、使う統計ソフトが違うなど、いろんなことが異なるわけなんですが、我々のところで、一旦一番使用が多いものに標準化した形で保存して、かつ、それで公開しているというふうに、ユーザーの便宜を図るように、使いやすいようにしています。また、長期保存が可能にというのは、我々は一応永続的にやっていくつもりではありますので、例えば今、いろんな統計ソフトだとかデファクトスタンダードが変わったときには、そちらに乗り換えて、きちんとデータを受け継いでいくといったことを示しています。
それから2点目は、先ほども少し申し上げました個人情報の秘匿処理です。こちらは非常に丁寧に行っておりまして、安全に保管できるといったことが意義です。
それから、データキュレーションをきちんとやって、データの質を維持するように心掛けています。時にはデータが公開できないようなケースも、ごくまれですがあります。実際には我々が、ちょっとこれはもともとの報告書と言われるものと頂いた個票データが余りにも食い違うので公表できないということで、そのまま、寄託者にもちゃんと説明しますけれども、受け取れないといったこともごくまれにあります。
それから、あとは公開して、二次利用に関する意義なんですけれども、分析の再現性を担保といった重要な役割を果たしているかと思います。つまり社会科学も、自然科学に比べて再現性が低い分野ではありますけれども、まずは同じデータを使って同じ分析をすれば同じ結果が出るのは当たり前ですので、そういう狭義の再現性ももちろん大事ですし、それから、あと類似の調査をいろんな分野でやっていますので、それらを使った理論の確証といいますか、そういった広い意味での分析の再現性も重要でありまして、そのためには、こういったデータを公開する機関のデータアーカイブが役割を果たしているとも言えます。
また、社会科学の特徴としては、そのときにとったデータに意味があるということです。つまり古くなったデータに意味がないどころか、むしろ貴重になるという点が社会科学の重要な点です。新しいデータは今からとれるけれども、過去の、例えば戦後すぐの混乱期に日本の労働市場がどうだったかとかいうデータは、そのときでないととれません。そういったものを散逸しないできちんとした形で保存して、今のデータと比較、分析する形で多くの新しい研究を生み出している、こちらも社会科学データアーカイブの意義の一つではないかと思います。
そして、そのようにデータが公開されるようなことが進めば、いいかげんな社会調査はできなくなります。世の中いろんなアンケート調査、社会調査がありますけれども、中には相当いいかげんなものがありますので、そういったものを防ぐためにもデータの公開は進むべきだと我々は考えております。
こちらのスライドは、我々、SSJDAの業務統計の数字を、この20年間に関して出してまいりました。一番左端から新規公開データセット数、つまりその1年に何件データが公開できたかということです。こちらは先ほど言ったように、1個の調査がほぼ一つのデータセットに相当します。ただ、括弧内の数字と左側の数字がややずれております。これは何かといいますと、こちらは、例えば従業員の調査もやったけれども、経営者の調査もやるといったふうに、一つの調査の中に二つデータが組み合わさることがありますので、その場合には左と右が合わないことになりますが、社会調査の場合だと、そういった複数のデータを使うといったことがしばしばあります。
それから、続きまして、収録調査のデータベースの検索件数ですとか、公開データリスト、こちらは2008年からホームページに一覧を作るようにしたんですが、そちらへのアクセスの件数、この2列を見ますと、特にここ5年ぐらいでしょうか、近年注目度が高まりつつあって、閲覧が大分増えてきているなということが分かると思います。
それから、利用申請の件数、申請研究者数、提供データセット数、こちらが実際の利用の実態です。ユーザーがどれだけ使っているかの実態を表しております。利用申請の件数と研究者人数が合わないのは、一つの共同研究、共著論文などのプロジェクトの場合、一つの申請で何人も複数名前を連ねるから、やはりこれもずれてきます。ただ、こちらも自然科学の方だと5名共著、10名共著は普通にあるかと思いますが、社会科学だと、大体3名でも多いぐらい、単著も結構多い分野ですので、それほど大きくは食い違っていませんが、いずれにせよ増加基調であることは見えるかと思います。
そして、一番右端の欄、二つ数字がありますが、我々のデータを使って実際に公表された論文の数がどれぐらい出たのかといったのがこちらです。うち学位論文の数が右端です。残念なことに、学位論文の数には修士論文も入れていますので、博士論文よりは修士論文の方が主です。やはり修士論文ですと、まだ学生、大学院生が自力で調査をするだけの予算がとれないケースが多いので、こういったデータアーカイブの二次利用によってトレーニングをされ、それで論文を書くといったケースが多いようです。このように、20年間の歩みが数字で見てとれるかと思います。
さて、我々データアーカイブセンターですが、実はデータアーカイブはごく一部の部門でして、ほかに社会調査として、自分たちでも調査をやっています。つまり、ほかの人たちから調査データを預かる業務だけではなく、自分たちで、調査の実行、実施もしております。それから、調査データを使って、統計のセミナーを開催したり、それを使って全国の先生たちを集めた研究会を実施したり、計量社会分野の活動もあります。また、我々の役割として、東アジアにおけるデータアーカイブのネットワークのハブとなることを目標としていますので、そういった国際連携を目的とした国際調査分野も置いています。それぞれいろんな活動をしているということです。
今、調査データの利用が増えていると申しましたが、それなりに努力はしているつもりです。例えば、論文を送ってくれるのも利用者の善意に任せているだけではいけないので、優秀論文を表彰することや、非常に良質なデータを寄託してくださった、あるいは非常に人気のあるデータを寄託してくださった機関を表彰することを毎年行って、動機付けを強めるようにしています。また、データを渡しっ放しではなくて、そのデータの利用方法を説明するようなセミナーや、それを使った、例えば大学院生さんにとっては非常にトレーニングの機会となるんですが、プロの学者を交えたような研究会なども実施してございます。
さて、我々の活動は今述べたようなことなんですが、実は研究データを取り巻く日本の社会科学の状況は決して芳しいものではないと思います。我々は、一番のデータアーカイブというところに書いてあるのが、これは今、日本における社会科学のリサーチデータ公開の仕方が大体どのような類型があるかといったことで、四つぐらいに大まかにまとめてみました。一つが、我々がやっているような社会科学の多様なデータを収集して、保存して、提供するという、これが本来のデータアーカイブのものなんです。幾つかあります。そして二番目に、特定分野、例えば政治学だけだとか、教育学だけだとかいったふうに分野を絞ったデータバンクもあります。しかし一番多いのは、恐らく三番です。自分の機関、自分たちがやった調査は自分たちのところから公開するといった、こちらのものが多いかと思います。我々のところは、自分たちのところだけではなくて、ほかのところから、たくさんのほかの個人の研究者、あるいは組織からデータを受け取って、預かって公開していますので、その位置付けがちょっと違うかと思います。それから、政府の統計、政府が扱っている官庁統計に関しては、それはそれで別のところが扱っているというのが四番です。
残念なことに、括弧で書いてあるところなんですが、こちらは実質的に、今なくなってしまった、あるいは機能が停止してしまったデータアーカイブです。実は我々は予算も結構細々としておりまして、人員もそれほど多くありませんので、せっかく立ち上がったのに運営が立ち行かないということがしばしばありますので、いつも危機に瀕しているということは言ってもいいかもしれません。
これが海外に行くと、状況は変わります。自然科学の分野と比べて、予算はもちろん桁が小さい意味で違うところはあるかと思いますが、例えばアメリカでしたら、世論調査の、1947年に創設された最初のデータアーカイブがRoper Center、世界最大級の社会科学のデータアーカイブは、ミシガン大学にあるICPSR（Inter-university Consortium for Political and Social Research）、それから、最近この数年で非常に注目を浴びて、今一番積極的に活動しているのが、Dataverse、セルフリポジトリと言われるタイプのものなんですが、こちらのアーカイブも、今勢いがあります。
それから、ドイツ、イギリス、オランダ、ほかにもフィンランド、チェコなど、ヨーロッパには、やはり国の機関と結び付いた強力なデータアーカイブがたくさんあります。東アジアにはありますけれども、KOSSDA (Korea Social Science Data Archive)、SRDA (Survey Research Data Archive)、これはきのう、私、出張して行ったばかりなんですが、こちらは規模的には我々と余り変わらないので、それぞれ限られたスタッフで頑張ってやっています。
これらデータアーカイブの連携する組織というのが、ヨーロッパだとCESSDA（Consortium of European Social Science Data Archives）、それから、ヨーロッパ以外のところも含めたIFDO（International Federation of Data Organizations）といったものが活動してます。我々日本のSSJDAもIFDOのボードメンバーの一つにはなっておりますが、最近だとデータアーカイブの連携は、このヨーロッパのCESSDAが多分一番世界的には積極的で、いろいろな共通データカタログの提唱だとか、あるいはメタデータの共通規格の発明と、その提唱とかいったことも進めています。現在、東アジアも、先ほどのSRDA、KOSSDA、それから、我々とともにアーカイブ間の連携組織を構想中です。
最後は学協会における取組です。実は本当にごく最近、この4月から、日本学術振興会が人文学・社会科学データインフラストラクチャー構築プログラムといったことを始めました。こちらのプログラムを走らせたときの問題意識なんですけれども、社会科学の国際的な立ち後れといった位置があります。特に国際共著論文の少なさといった問題があって、それにはデータの公開や利活用が日本の社会科学はほとんど進んでいないからだといった批判がありますので、それに応えてオールジャパンの体制で何とかしなければといったことで動き出したのが、こちらのプログラムです。
そして、中核機関の日本学術振興会はデータ利活用のシステムを構築して、我々は、実はこの拠点機関に選ばれたんですが、こちらがデータの共有の基盤を整備するために、例えばアーカイブの強化ですとか、多言語化などを進めるといったことが言われています。ですから、社会科学としての現状、取組というのはまさにこれからでして、全く一元化されていない、それぞれが細々と自分のところのデータを出していることが事実上多いと言えると思います。
課題はたくさんありますが、当面の課題は、まずデータが出てこないんです。データは公共財で、公の研究費を使ったにもかかわらず、なかなか出してくれない。もちろんこれは、実は日本以外の国、要するに欧米だと、公開されないデータは投稿できないような規定もできてきていますし、日本でも、一部経済学の雑誌などは、今この動きに追い付いてきています。ですから、そうすると話は変わるかもしれませんが、現状ではなかなか調査を行った方々がデータを出してくれません。
それから、研究データの比較可能性を確保するためには、それぞれの質問や選択肢、カテゴリーなどを標準化する必要がありますが、それもなかなか進んでいないので、この連結が必要となっています。
更には国際化です。こちらも日本、国内の調査の場合は、特に日本語でしか調査票やデータを用意していない場合が多いですので、海外研究者の利用ですとか、国際比較分析の対応を考えるならば、やはり多言語化の対応が必要だと言われています。
また、実はどこまで個人情報を削除すべきか、あるいはそもそも社会調査は絶対公開されなければいけないのかといった共通のガイドラインや指針なども事実上、今はない状態です。これらも、そういったものを作成して普及することが急務ではないかといった批判もされています。
さらに、最後は、我々自身も、そして業界全体もそうだと思うんですけれども、こうしたデータアーカイブの事業はこれだけ意義があると考えてはいるのですけれども、こうした事業を支える人材の育成と確保が困難です。これもアメリカですと、データライブラリアンというポジションの方が社会調査の検索ですとか、それからデータのハンドリング、加工ですとか、いろんなことを指導できるようになっているんですが、ほとんどの場合、我々は、実は訓練を受けた大学院生か、あるいは既に助教のポストに就いているようなクラスの人がやらないと、すぐには人材が見付からない状況です。こういった難しい問題を幾つも背負っているといったものが社会科学の現状かと思います。
長くなりましたが、以上です。
【喜連川主査】どうもありがとうございました。それでは、今の御発表について、竹内先生、お願いします。
【竹内委員】大変興味深い発表をありがとうございました。質問というよりも確認ですけれども、スライドの12ページにメタデータ国際規格DDIエディターの開発というのがございました。メタデータの標準化については、先ほど14ページのスライドで御紹介があった、ヨーロッパのCouncil of European Social Science Data Archiveがいろんなことをやっているという話でしたが、既に社会調査を記述するためのメタデータの国際規格は、もう出来上がっているという理解でよろしいんでしょうか。
【三輪教授】おっしゃるとおりです。CESSDAが主導して始まったのが、こちらのDDI、Data Documentation Initiativeというものです。こちらは社会調査、我々が扱っている社会科学の分野で大体標準的に必要となる情報があるわけですが、そちらのメタデータの標準規格を彼らの方が主導して始めて、今、それに世界中が少しずつ乗っている状態です。
【竹内委員】そうしますと、既にSSJDAで動いている非常に詳細なメタデータがあるわけですけれども、これはDDIに準拠しているという理解でよろしいですか。
【三輪教授】そこが非常に残念な点なんですが、今、我々は大体累積で2,000ぐらいのデータセットを扱っているんですが、そちらのメタデータは、実は1996年に始めた当初のままで、まだDDIに準拠しておりません。ただ、一部分のNesstarというオンラインのシステムに載せるために変換したものはDDIに準拠した形になっていますが、まだそちらのデータは恐らく100に満たない程度ですので、DDIへの対応も国際化のためには必須で、喫緊の課題かと思います。【喜連川主査】北森先生。
【北森委員】ありがとうございました。遅れていると言われていながらかなり整備されている印象です。その中で、少しびっくりしたのですが、人文科学・社会科学データインフラストラクチャー構築プログラムが日本学術振興会から支援されているとのことですが、これは、支援先は研究機関なんでしょうか、それとも研究者、あるいは学会、どこを支援しているのでしょう。
【三輪教授】こちらは日本学術振興会自身がお金を用意していて、その中核機関ではなくて、各拠点にお金を配分して、事業を委託して任せているわけなんですが、実際には拠点が四つ選ばれたと聞きます。その四つのうち一つが我々の東京大学社会科学研究所ですが、つまり個人の研究者じゃなくて、慶應義塾大学のパネルデータ設計・解析センターや、既にここまでそれぞれの分野で、例えば経済学のパネル調査、あるいは政府統計の公開など、いろいろな分野のフロントで頑張っていた機関が今受け取って、何とかまずそこを独り立ちさせるといったところで推しているといったことかと思います。
【北森委員】既に存在しているデータのインフラを更に支援して、それを広げていこうという、ほかにもそういう拠点を作ろうということですか、それとも、そこを強化して一元化していくという方法、どちらなんでしょう。
【三輪教授】そうですね。私はその人たちに使われている方なのですが、恐らくは、基盤が弱いんですが、既存のものを育てて、それらを連結させていって、社会科学として、ひとつまとまったものにしていきたいといった発想なんだと思います。
【家委員】日本学術振興会からお答えしましょう。今おっしゃったように、今年は四つの拠点を採択していました。これは日本学術振興会が中核機関となって四つの拠点と協力して進めていく事業で、四つの採択された拠点には、もちろん自ら作られたデータも公開していただくんですけれども、同じ分野の研究者からこういうふうにデータの委託を受けたものも、そこで整備をして、一般に公開する事業もお願いしているところです。
今後、予算にもよりますけれども、拠点を増やしていければと思っています。
【北森委員】そうしますと、これは社会科学なんですけれども、理工学系のデータインフラストラクチャーもずっと議論してきてはいるんですが、理工系に関しては、同じような発想で支援はできないんでしょうか。
【家委員】今のところ、我々の認識として、やっぱり人文学、社会科学系が少し遅れているということで、そこにてこ入れといいますか、支援をする考えです。自然科学に関しては、それは、例えば高エネルギー物理だったら高エネルギー加速器研究機構（KEK）が中心になっているなど、共同利用・共同研究拠点とか大学共同利用機関がその分野の拠点になっているケースが多く、もちろんそこから漏れている分野もあるかとは思いますが、その辺は、様子を見ながらだと思います。今のところは、理工系は対象になっていないです。
【北森委員】ちょっとコメントさせてください。非常にクリアな対象で、先ほど汐見先生からお話しいただいたデータインフラは、防災という国家インフラとして整備されると、ちゃんと整うが、サイエンティストの支援に近い感覚だと、なかなかデータインフラとしてまとまっていかないということですね。やはり科学技術立国の国家インフラとして、サイエンスの方もデータインフラストラクチャーをしっかり作っていかなきゃという発想が、科学技術の分野でも必要じゃないのかなと感じました。コメントです。
【喜連川主査】要するに、ここからドライの実験ができるという流れが、先ほどの全体の潮流ですよね。でも、社会の場合に、今、先生がおっしゃったようにちょっとスケールが小さいので、まずは日本学術振興会からきっと支援をされているのかなという印象ですね。竹内先生。
【竹内委員】度々申し訳ありません。発表の最後にあったデータライブラリアンの問題ですけれども、社会科学におけるデータライブラリアンというのはどういう能力を持っている人であればよいのでしょうか。それから、そういう人を日本で養成しようとしたら、どういう形でやるのが一番望ましいとお考えか、お聞かせいただけますでしょうか。
【三輪教授】ありがとうございます。社会科学の場合ですと、実際に我々は国際シンポジウムという形で、ミシガン大学のデータライブラリアンの方に講演をお願いしたんですが、彼女の役割が何かというと、例えばミシガン大学の大学院生たちに適切なデータが何かといったことを示唆したり、あるいは統計ソフトウエアの使い方などをレクチャーしたり、実はそれは、日本だと大学教授がかぶっているような内容です。そこのところを専門職として、つまり日本だと教授か、いきなりその下だともう大学院生まで落ちてしまうんですけれども、その間にある、文系ですと技官がいないので、ちょうどそこのところをデータライブラリアンが埋めてくれているんだなと感じました。ですから、日本でもし養成……、実際に養成する機関は今のところないと思っているんですけれども、図書館情報学に、多分統計だとか、社会調査法とかの要素とかが入れば、恐らくはデータライブラリアンの方が持っていたスキルになるんだと思います。つまりそれらが利用されている。
ただ、彼女は学歴も高くて、修士を政治科学と統計学の二つ持っているとかいうぐらいの人材を抱えているので、ちょっとまだ現状だと、日本の社会科学はなかなかまねができていないと思いました。
【竹内委員】ありがとうございました。
【逸村委員】すいません。私の所属は図書館情報学なので、少し言わせていただきます。一応当方のカリキュラムでも、もう十数年前から、1年次から統計学、あるいはそのデータの扱い方、もちろん統計ソフトウエアも含めてカリキュラムとしては持っております。ただ問題は、彼らが仮に大学院まで出ても、就職先としてそういうものがないことです。また、最後におっしゃったように、別主題、複数主題を持っていないという点もあります。こちらとしても頭が痛いところではあります。
【喜連川主査】ほかに。先生、お願いします。
【赤木委員】慶應義塾大学の赤木でございます。データライブラリアンの力を持った人材ということですが、事実上は、今現在は日本学術振興会のメンバーで、すべてをこなしているという理解でよろしいですか。率直に申し上げて非常に人数が少なくて、それでもって日本を代表してやっていること自体大変だと思っております。確かにご指摘のように、社会科学系だと技官がいないので、そこに大きな問題があることを私も感じています。
それからもう一つは、先ほどの国際連携ですが、昔からICPSRとは非常に密接な関係があって、こちらの方は、本学は大学としてメンバーに加入しておりますが、これは研究者個人でも加入できるのでしょうか。そのメンバーシップの問題を教えていただければと思います。
【三輪教授】 ICPSRに関しては、個人で加入できるかどうかは、ちょっと存じ上げていないんですが、加入の仕方として、国単位のナショナルメンバーシップでの加入と、大学単位の加入があります。実は今、日本の大学は全てナショナルメンバーシップというふうに日本で束ねています。個別の大学がやるよりも、日本で束ねた方が一つ一つの大学にとってはコストが安くなりますので、我々の隠れた活動で、そのためのハブ機関として、ミシガン本部との調整や、会費の徴収をやっております。
ですから、基本的には機関単位だと思いますが、たしか個人でも、お金を出すとデータを受け取ることができるはずですので、単にメンバーシップといったものとデータのアクセスは、別なのかもしれないと思っています。
【赤木委員】どうもありがとうございました。
【喜連川主査】ほかに。先生、どうぞ。
【辻委員】どうもありがとうございました。お話を伺っておりますと、スライドの5のところで事業の御説明を頂いた際にも、データの確認や、メタデータの付与といったところで非常に稼働をたくさん掛けていらっしゃる、結構地道なところまでやっているとのことですけれども、例えば受益者負担の検討はされているかどうか教えていただければと思います。
【三輪教授】ありがとうございます。そうですね。データアーカイブに関しては、我々はユーザーも、あるいはデータを預けてくれる寄託者も、使っていただくユーザーもどちらも無料で行っております。ところが、別にこれが世界的な常識というわけではなく、例えば先ほどのICPSRもそうですが、あちらは大学ごとに加盟してお金を取っており、まさに受益者負担といったことになります。
我々は、今のところまだ検討していないんですけれども、まず一つは、データを預かるときにお金が取れるかといいますと、今の社会科学の現状は、なぜ私のデータを、お金を出してまで渡さなければいけないのということで、どちらかというと、こちらからお願いして、データアーカイブの意義などを僕なんかも直接説明しに行って、それで出してもらっている状況です。ですから、寄託者からお金を取るのはできていないのが現状です。
もう一つはユーザーです。ユーザーは、実は取る余地があるかと思っています。ただし、それをやってしまうと、我々が将来大きく成長した後には、データを預けてくれると期待している大学院生たちの芽を摘んでしまうことになりかねないので、ユーザーに関しても、今のところは有料化といったことは、たまに意見が出るんですけれども、まだ真剣に議論の俎上には上げておりません。
ただ、実際には、運営費交付金や外部資金などを基に、我々が人数的にも乏しいスタッフで頑張ってやっているというところがあります。ですが、今後もし寄託が増え、ユーザーが増え、スケールが2段階ぐらい上がったときに、このビジネスモデルでいいのかといったことは甚だ疑問ですので、黎明期としての役割が、転換期を迎えつつあるのかと受け止めている状況でございます。
ありがとうございます。
【辻委員】どうもありがとうございます。
【喜連川主査】ほかにありますでしょうか。
【岡部委員】先生の研究所は、今、多分共同利用・共同研究拠点として、運営費交付金が主でやっておられるのですよね。その長期的、永続的というところで、現状だと大丈夫でしょうけれども、多分増えてきたら、今後これの取組が進めば進むほど、大変になってくるということだと思うので、そのあたりの見通しをおっしゃっていただけたらというのが一つ。もう一つは、こういうアーカイブされているデータのベースとなる社会調査というのは競争的資金で行われているものが多いと思います。この委員会のミッションとして、競争的資金で、例えば科研費で行われるようなものについてはデータを原則として公開するとか、あるいは、少なくとも公開するものについては高い評価を与えるとかいう議論をしているところなのですが、それについて、先生の、個人としてのお考えをお聞かせください。
【三輪教授】分かりました。では、まず1点目の長期的な展望についてお話ししたいと思います。おっしゃるとおり運営費交付金から半分ぐらい出ています。それから、共同利用・共同研究拠点として受け取っているお金、それから、ほかに科研費を組み合わせ、継ぎはぎ、継ぎはぎでもっているのが現状です。しかも運営費交付金は少しずつこうなっていきますので、我々としては、お金に関しては、ですから……。でも、やはり学内での予算配分の仕方も変わりましたので、そういったものにこれらの事業を少しプロジェクト化して取るなど、いろいろなことをしながら維持するといったことを計画として思っています。
いずれにせよ、データアーカイブをそんな10年とかで放棄する気は一切ありませんので、半世紀でも、あるいは100年でも、もっと超えるぐらい頑張ろうという気持ちはあります。私はそのときはいないですけれども、多分。
二つ目の質問をもう一度よろしいでしょうか。
【岡部委員】競争的資金で行われたものに対してのデータ公開のポリシーというところです。
【三輪教授】そうですね。それに関しては、私は本当にもろ手を挙げて賛成です。つまり、データは誰のものかと考えたときに、もともと公的資金が出ているときに、それを社会に還元しないことはあり得るのだろうかと。例えば台湾でも研究費が出れば、それはちゃんと公開するといったことを署名しているそうです。ただ、それも罰則規定がないので破る方も結構いるときのう聞いてきましたけれども、それぐらいのことはあっていいでしょうし、かつ日本のジャーナルがちゃんと、もっと公開したデータしか認めないように社会科学も変わっていけば、お金と業績、あと、データに関しての、データを利用されること自体がやはり名誉であって、研究者として誉れであると。先ほど汐見先生の方でもお話がありましたが、そういった3点の状況が大きく変われば、今までとは全く話が変わると思いますので、私としては、そういった科研費、あるいは競争的資金に関して原則公開といったことは、非常に望ましい方向だと思って支持できると思います。
【岡部委員】ありがとうございます。
【喜連川主査】ほかはいかがでしょうか。
先ほど、地震のデータの場合は、一般国民としては何となく利用の形態のイメージが付きやすいんですけれども、この社会学のデータというのを、例えば先生のホームページを今拝見させていただくと、計量社会学であるとのことです。Computational Sociologyというので、例えば差別という問題がある。そうしますと、一体どんなデータをとって、どういうふうにそれが再利用されるか、ほかの先生方は分かっているのかもしれませんが、簡単にどういうイメージなのかなというのを教えていただけますか。
【三輪教授】ありがとうございます。社会調査のデータは、先ほどのものは簡単な性別や年齢を聞くとか、基本属性もありますけれども、ほかにも多様な質問を入れることができます。例えば、今考えている心理的特性に係るような質問項目を計ったり、あるいは過去の経歴、履歴をとったり、私どもがやっている不平等の調査ですと、回顧的に過去のその人がどこの高校からどこの大学へ進んで、どこの大学から更にどこの大学院に行って、卒業後どこに就職して、その後内部で昇進したか、転職したか、どれだけ無職の期間があったかといったことを、時間とイベントの発生をセットで聞くようなライフヒストリー調査をやっていまして、それを使うと、例えば失業してもすぐに職が見付かりやすい人はどういう人か、失業からのリカバーが最近は難しくなったのかどうか、非正規雇用の意味が深刻化したのは何年ぐらいからなのか、また、時には政策的に何かをしたときに、消費税導入とかがあったときにどういう人が購買行動を控えて、どういう人は今までと変わらなかったのか、といったことを丁寧に歴史的にも検証することができます。
【喜連川主査】私は先ほどおっしゃった転職できるのかどうかというデータに関心がありますがほかの研究者が、そこにはっきり見えないけれども、そこからくみ取れるような研究をなされるようなイメージですか。
【三輪教授】そうですね。機会の平等、結果の平等といったものを調査データから計りながら、しかもそれがこういった二次分析を使えば、過去のデータと今のデータを比較して、それが例えば戦後一貫して不平等が変わらないのかどうかといったこともダイナミックに検証ができ、調査データを生かして使っています。
【喜連川主査】調査自身は、いろいろなところで行われており、調査業務だけで成り立っている企業もあるように思いますが、公的な機関が行う個票というのは、商業的でない、深遠な調査をするのが特徴でしょうか。
【三輪教授】我々は、実は一般企業からもデータの寄託を受けているんですけれども、やはり企業がやる調査は、自企業の宣伝に係るところか、あるいは今の時流に乗ったような質問を用意します。我々、学者は、やはりその学問の理論の伝統にのっとった概念の測定のための質問を開発したり、その測定をしたりといったことが多いです。ですから、昔の調査票をうまく生かしながら使っているということでしょうかね。
【喜連川主査】先ほどDataverseのページを見ていたら、一部の国には大きな黄色い丸が付いていて、日本は全然ないと思ったんですが、あれはどういう理由なのでしょうか。
【三輪教授】恐らく一部の国から、利用者がそこからアクセスしているのか、そこからデータがアップロードされて入ったのか、どちらかだと思います。日本は、実は我々も苦労しているんですけれども、Dataverseは、基本的にはセルフで研究者が自発的にどんどんデータをアップロードしていくところなので、そういった流れに日本の人たちが余り乗っていないということだと思います。
【喜連川主査】そういうことですか。なるほど。ありがとうございました。
よろしゅうございますでしょうか。
そうしましたら、本日は大変貴重な御発表を、三輪先生、ありがとうございました。また、汐見先生からも、地震に関する貴重なデータの取扱いに関して、御講演ありがとうございました。
本日、最後に事務局からの御連絡等ありましたら、お願いいたしたいと思います。
【高橋参事官補佐】本日の議事録については、各委員に御確認いただいた上で公開させていただきます。
次回、第14回については、資料4にございますとおり、11月29日木曜日の13時から15時、場所はこちら、文部科学省15階の15F特別会議室を予定しております。
ついては事務局からは、以上でございます。
【喜連川主査】ありがとうございました。
それでは、本日は閉会とさせていただきたいと存じます。

―― 了 ――

お問合せ先

研究振興局参事官（情報担当）付学術基盤整備室

麻沼、小原
電話番号：03-6734-4080
ファクシミリ番号：03-6734-4077
メールアドレス：jyogaku＠mext.go.jp（コピーして利用される際には全角＠マークを半角@に変えて御利用ください）

（研究振興局参事官（情報担当）付学術基盤整備室）

第9期学術情報委員会（第13回） 議事録