付録 白書のテキストマイニングによる政策動向分析

 これまで刊行されてきた白書の年次報告部分を対象に、テキストマイニング(※1)を行い、白書内で頻度等が高く使用されている単語や、主要トピックスに係る単語の文脈でよく使用される単語の変遷を可視化することを試みました。特に、直近30年間の我が国の科学技術・イノベーション政策動向を中心に振り返り、前章までの記載を定量的に概観することを試みています。

 なお、白書の年次報告は前年の内容を取り扱っているため、例えば2013~2023年までの分析をするのであれば、2014~2024年版の白書を参照するといったように、分析対象年の翌年版の白書を分析対象としています。また、収集したテキストデータに対しては、抽出した単語のうち分析上不要なものを除外する、意図せず単語が分割されることを防ぐため、連語として認識するように辞書登録をする、抽出した単語のうち分析上不要なものをストップワードとし除外するなど、データ抽出・加工処理(以下「前処理」という。)を行っています。

第1節 特徴語分析 ~重要単語の変遷の可視化~

 本節では、テキストデータにおける単語の出現頻度と希少性に基づいて重要度を算出する「特徴語分析」と呼ばれる分析手法を用いて、直近30年分(1995~2024年まで)の白書のテキストデータを基本計画の各期間に分けて解析しました(基本計画策定前:1995~1996年版白書、第1期:1997~2001年版白書、第2期:2002~2006年版白書、第3期:2007~2011年版白書、第4期:2012~2016年版白書、第5期:2017~2021年版白書、第6期:2022~2024年版白書)。

 本分析は、単語の重要度をTF-IDFという手法を用いて、文書内での単語の出現頻度(TF(※2))と、文書全体における単語の希少性(IDF(※3))を掛け合わせることで数値化し、その数値の高い順にランキング形式で並べて、分析した時代ごとの順位推移が把握できるようにしています。分析を行うに当たっては、政策の対象や方針を表す名詞が出現するように、テキストデータの前処理を行いました。

 第1-4-1表に得られた特徴語分析の結果(上位50位までを表示)を示します。「研究開発」、「大学」、「情報」、「環境」といった各期において常に上位になる単語がある一方で、30年の中で順位が変動した単語(すなわち、白書内での重要度が変動した単語)も多く見られます。例えば、上昇傾向のある単語としては、「支援」、「データ」、「評価」、「創出」、「人材」などが、下降傾向のある単語としては「振興」、「地球」などが挙げられます。また、「イノベーション」や「AI」など、直近30年の中で新たに登場してきた単語も多くあります。こうした各単語の順位変遷の中で、直近30年間の政策動向の変遷の特徴を示しており、かつ今後の科学技術・イノベーション政策に示唆を与え得るものを幾つか選んで紹介します。

画像

「支援」及び「振興」の順位変遷

画像

 特徴語ランキングにおける「支援」の順位は、基本計画策定前の36位から継続的に上昇し、第5期以降は2位となっています。白書内では、研究開発における様々な段階や分野に応じた具体的な支援策に加え、「復興支援」や「若手研究者支援」といった社会情勢に応じて実施された政策としても使用されるなど、多くの支援に関する活動がなされてきたことが順位の上昇に寄与したと考えられます。

 一方で、「振興」の順位は、基本計画策定前から第2期までは10位前後を推移していましたが、第3期以降は大きく低下しています。「科学技術の振興」は基本計画の目的にも掲げられている重要な概念ですが、第3期以降、基本計画の目的が定着していくにつれて、具体的な政策・施策に関する記述が増加し、使用頻度が低下したと考えられます。「振興」や「支援」の白書内での使用頻度の変遷は、科学技術・イノベーション政策の主たる目的が「現状を踏まえた課題解消や改善のための政策」に移行してきたことを示しているともいえます。

「データ」及び「AI」の順位変遷

画像

 特徴語ランキングにおける「データ」の順位は、基本計画策定前及び第1期ではランキング圏外(200位より下位)でした。その後、第2期に61位で登場し、第5期では大きく上昇して15位、第6期では5位となっています。第2期においては、ライフサイエンスや環境分野のデータベースや知的基盤整備の文脈で「データ」という単語が使用されていました。第5期では「Society 5.0」の実現に向けてIoT、ビッグデータ、AIの重要性が掲げられ、科学技術・イノベーション政策全体を支える重要な基盤や概念として使われるようになっています。順位の変遷は、「データ」の概念の変化や重要性の高まりを表した結果といえるでしょう。

 また、「AI」は、第5期から登場し19位、続く第6期で20位となっています。AI技術はこれまでもブームを繰り返しながら進展していますが、2022年のOpenAI社のChatGPTに代表される生成AI技術の公開以降、AI技術の進展はこれまでになく非常に速いものとなっています。なお、白書内でのAIへの言及は、2017年版白書において、Society5.0の実現のために注力すべき基盤技術の一つとして登場しています。また、生成AI技術としての言及は2024年版白書が初出となっています。白書内でのAIの使用頻度や重要性は、我が国が強みとするロボティクスや自動車分野でのAIの活用による最先端技術の開発をはじめ、国際競争力や研究力を強化していく観点からも、今後も増加していくものと思われます。

「施設」の順位変遷

画像

 特徴語ランキングにおける「施設」の順位は、第1期及び第2期では20位圏内とランキング全体としては上位にありながら、それ以降はゆるやかに順位低下傾向となり、第6期では57位となっています。第1期及び第2期では、施設整備が重要な課題として認識されており、国立大学等の施設整備の具体計画として「国立大学等施設緊急整備5か年計画」(2001年)が策定されました。また、「特定放射光施設の共用の促進に関する法律」の成立(1994年)、「スーパーカミオカンデ」(1996年)、「すばる望遠鏡」(1999年)、「大型放射光施設(SPring-8)」(1997年)、「ISS」(「きぼう」日本実験棟の完成は2009年)などの整備と、それらの施設を用いた研究開発の推進などが、「施設」の出現数の高さや順位に寄与していたと考えられます。

第2節 重要キーワードの関連語分析 ~重要政策の変遷の可視化~

 本節では、特定単語と同じ文章内で使用されている単語(以下「関連語」という。)の出現頻度の変遷を、色の濃淡によって表現した分析・可視化手法(以下「関連語出現頻度ヒートマップ分析」という。)を用いて、直近30年分(1995~2024年まで)の白書のテキストデータを基本計画の各期間に分けて解析しました。分析対象とした特定単語は、科学技術・イノベーション政策に係る重要なキーワードとして、「科学技術」、「イノベーション」、「基礎研究」、「研究力」、「大学」を選定しました。これらの重要キーワードの関連語の出現頻度変遷からどのような文脈で使用されてきたかを推察することを通じて、それぞれのキーワードに係る政策の変遷を可視化することを試みました。可視化結果の考察については、文部科学省科学技術・学術政策研究所が提供する白書検索機能(※4)も活用しつつ、実際の白書内での文脈も確認して行っています。

 なお、関連語出現頻度ヒートマップ分析を行うに当たっては、テキストデータの前処理を行った上で実施し、結果については各基本計画期間に区切り、それを単年度平均として整理しています。

「科学技術」・「イノベーション」及び、それらの関連語の使用変遷

画像

 「科学技術」及び「イノベーション」についてそれぞれ関連語に着目すると、「推進」、「研究」、「技術」、「社会」など両方に共通するものが多くある一方で、各単語に特有の関連語もあることが分かります。例えば「協力」、「開発」は「科学技術」に、「創出」、「戦略」、「構築」等は「イノベーション」と一緒に使用される傾向があります。「イノベーション」特有の関連語は、“イノベーションを創出するシステムを構築していくための取組”が多くなされていることを示した結果といえます。また、「科学技術」の関連語の変遷の傾向として、30年間の中で「振興」が減少して、「支援」が増加していることが確認できます。これは前節の特徴語分析で紹介した「支援」及び「振興」の順位変遷と同じ背景によるものと推察することができます。そのほか、「科学技術」の関連語の変遷トレンドとして、「施策」が減少し「政策」が増加している傾向があります。これは科学技術に対する取組として、個別具体的な施策を行うのみならず、科学技術全般を包括的・大局的に捉えて国の方針や方向性を示していくことの重要性が高まっていることを示す結果と考えられます。

「基礎研究」・「研究力」及び、それらの関連語の使用変遷

画像

 「基礎研究」は多様な知と革新をもたらすものとして、科学技術・イノベーション政策の中心的な要素として重視されてきました。また、第3章で触れたとおり、基礎的な研究の成果がより短い時間で社会・経済に大きな影響を与える頻度が今後ますます高くなり、国力に与える影響も一層大きくなることが予想されます。「基礎研究」の関連語に着目すると、第3期以降から徐々に「開発」、「成果」の出現割合が増加していますが、これは、「将来の応用を目指す基礎研究」を産業や社会実装にいかにつなげるか、といった文脈での記載が白書内で増えていることを示唆しているものと考えられます。

 また、我が国の「研究力」の相対的な低下を背景に、「研究力」という単語が、近年の科学技術・イノベーション政策において重要な単語として扱われています。白書内では、特に基礎研究にフォーカスした表現として、2013年版に「基礎研究力」として登場し、近年はより広範な研究領域を含んでいる「研究力」と表現を変え、言及回数も増加してきています。「研究力」の関連語を見てみると、「大学」、「支援」、「強化」といった単語が出てきており、研究力低下の課題に対する大学支援や関連施策についての言及が白書で増加したためと考えられます。また、関連語として「パッケージ」という単語も現れていますが、我が国の研究力を総合的・抜本的に強化するための「研究力強化・若手研究者支援総合パッケージ」を2020年にCSTIにて策定したことが影響していると考えられます。

 なお、研究力の低下・停滞要因として、様々な要因が考えられますが、特に、研究者の研究時間(割合)の確保については、研究者に対する研究パフォーマンスを高める上での制約を問うアンケートで最上位にあり、研究力強化のために非常に重要な課題です。前述の「研究力強化・若手研究者支援総合パッケージ」の中でも主要対応事項として「研究時間」が記載されており、今後の白書の中でも「研究力」の関連語として「研究時間」が多く出てくることが考えられます。

「大学」及び、その関連語の使用変遷

画像

 「大学」は第1節の特徴語分析において、時代に関わらず常に顕著な特徴として現れ続けている、科学技術・イノベーション政策の要といえる単語の一つです。一般に大学が果たすべき重要な役割・機能として「教育」と「研究」がありますが、白書内ではどちらの単語も「大学」の関連語として多く出現していることが確認できます。そして、特に「研究」の出現回数については、分析対象期間中で常に1位であり、このことは科学技術・イノベーション政策において、「大学」が果たす役割を重視していることを示す結果となっています。

 その他の顕著な特徴として、第3期に「国立大学」、「法人」が突出して多く出現しており、2004年度の国立大学の法人化に係る言及が白書でもなされている様子が分かります。また、「整備」、「研究開発」、「研究者」が第1期以降減少傾向にある一方で、「企業」、「連携」という関連語が増加したことを踏まえると、研究現場、研究人材の供給源の文脈として語られることが多かった「大学」が、企業との連携にも注力するようになり、イノベーションを創出するプレーヤーとして語られるようになってきたことを示していると考えられます。

第3節 テキストマイニングの可能性と限界

 第1節で示した特徴語分析は、第1章及び第2章のコラム内で紹介したワードクラウドに比べ、直感的な視認性は劣るものの、一定の定量性をもって特定の単語の時代変遷をつかむことができます。各基本計画期間における単語の重要度の変遷を追うことで、その単語に関連する施策がどのように変化してきたのかを考察してきました。ただし、各単語が具体的にどのように使用されているかを特徴語の順位変遷から読み取ることは難しいといえます。例えば、第1-4-1表(特徴語ランキング一覧)において、「環境」という単語は全ての時代を通じてランキング上位に位置しますが、「地球の環境」、「研究現場の環境」、「重点研究領域としての“環境”分野」など様々な文脈で使用されている多義語のため考察には注意が必要です。

 第2節で示した関連語出現頻度ヒートマップ分析は、特定の単語が白書の中でどういった単語と一緒にどの程度使われているかを可視化することができます。実際の白書での記載を合わせて確認することで、使用文脈に関する考察を行いました。ただし、一般的な文章としても使われやすく、多義的な意味を有するなどの汎用性の高い単語(「推進」や「事業」など)は関連語として出現しやすいため、使用頻度の高い関連語が必ずしも重要単語と強い関連性を持つわけではない点や、白書の文量は刊行年で差がある点などには注意が必要です。

 テキストマイニングには、今回取り上げたような分析手法のほかに、単語同士の関係性を見ることに特化した共起ネットワーク(※5)や対応分析(※6)など様々な可視化手法があります。今回採用した手法とは別の手法・分析を採用することや、テキストマイニングの境界条件である辞書登録やストップワードの設定を変えることはもちろん、別の単語に注目することで、新たな切り口による示唆や見解が得られることも期待できます。今回は白書とともに振り返ることを主眼にしたため、政府の講じた施策の年次報告である白書のみを分析対象としましたが、政策動向や社会情勢を鋭く読み解くには、テキストマイニングの先行研究事例に鑑み、国会会議録、ニュース、新聞など様々なテキストデータを対象とすることや、これらを組み合わせて活用することも有意義です。また、テキストデータ以外に科学技術・イノベーションに関する数字データ(科研費データなど)を活用した分析とも組み合わせることで、科学技術・イノベーションのトレンドをより正確に把握することや、俯瞰(ふかん)することができるかもしれません。今回のテキストマイニングを通じて、科学技術・イノベーションに関する政策動向についての更なる分析や検討が進展することを期待するとともに、ここで示した見解を基に、次世代の科学技術・イノベーション政策のあるべき姿についての議論がより進展することを期待します。


  • ※1 「膨大なテキストデータから有益な情報を取り出すこと」を意味するテキスト分析手法
  • ※2 Term Frequency
  • ※3 Inverse Document Frequency
  • ※4 文部科学省科学技術・学術政策研究所「科学技術・イノベーション白書検索」 https://whitepaper-search.nistep.go.jp/
  • ※5 テキストデータにおいて、特定の単語やフレーズが一緒に出現する頻度を分析し、関連性の強い要素同士を線で結んで可視化したもの。単語間のつながりや構造を直感的に把握でき、文章全体のテーマや特徴を理解するのに役立つ。
  • ※6 単語間の関係性を、散布図と呼ばれるグラフで視覚的に表現する方法。例えば、アンケートの回答データで、特定の回答の傾向が性別や年齢層とどのように関連しているかなどを視覚的に捉えられる。

お問合せ先

科学技術・学術政策局研究開発戦略課

(科学技術・学術政策局研究開発戦略課)