代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備(前川 喜久雄)

研究領域名

代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備

研究期間

平成18年度~平成22年度

領域代表者

前川 喜久雄(大学共同利用機関法人人間文化研究機構国立国語研究所・言語資源研究系・教授)

領域代表者からの報告

(1)研究領域の目的及び意義

 近年、電子的に蓄積された大規模な言語資料、すなわち言語コーパス(corpus)を用いた研究が世界的に盛んである。数億語規模のデータをコンピュータ上で解析することにより、言語の実態を正確に把握した言語研究が可能になり、また様々な応用研究の可能性もひらけてきた。
 しかし、残念なことに我が国における言語コーパスの整備状況は、諸外国に比べて出遅れている。わけても日本語の多様な全体像を偏りなく反映した均衡コーパス(すなわち代表性を備えたコーパス)が構築されていない点で、先行する諸外国に著しく水をあけられている。
 本研究領域にはふたつの大きな目標がある。ひとつは、現代日本語のコーパス言語学的研究の基盤整備として、現代日本語書き言葉の均衡コーパスを構築することである。この構築作業は、国立国語研究所のKOTONOHA計画と連携して実施する。両者が協力して1億語超規模の『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese: 以下BCCWJと呼ぶ)を構築するが、本領域では書籍に用いられた現代語の書き言葉を対象とする5000万語規模の書き言葉コーパスを構築する。コーパスには著作権処理を実施して一般に公開する。
 本領域のもうひとつの目標は、構築途上のコーパスを様々な領域で利用することによってコーパス日本語学の可能性を探ることである。狭義の言語学だけでなく、国語教育、日本語教育、辞書編集、自然言語処理などの幅広い領域で活用の可能性を探る。
 このように本特定領域研究の成果は、今後長期間にわたって広い範囲の日本語研究に影響をおよぼすと予想される。本領域の正式名称の副題部分にはそのような意気込みがこめられている。

(2)研究成果の概要

 第1の目標であるコーパスの構築に関する目標は全面的に達成した。BCCWJ(『現代日本語書き言葉均衡コーパス』)には現在約1億500万語のテキストが蓄積されているが、そのうち6000万語以上が本領域で作成した書籍のデータであり、目標値を上回っている。BCCWJは2011年3月にウェブ上で全文検索を可能とし、8月にはコーパス全体に短単位と長単位による形態論情報を二重に付与したデータをウェブ上で検索可能にした。形態素解析精度の目標(見出し語の同定のレベルで98%)も達成した。
 形態素解析のために構築した電子化辞書UniDicも公開している。4000名の登録ユーザーがあり、形態素解析用辞書の新標準として定着しつつある。UniDicをOSの一部に利用したスマートフォンやタブレットもある。
 第2の目標であるコーパス日本語学の可能性の探索は、第1の目標のように定量的な目標に沿って評価することができないので、アウトプットの量を示す。5年間に査読論文192篇、無査読論文224篇、著書10篇、口頭発表541篇、報告書52篇(12178頁)を公開した。本領域の研究者数は約80名であるから、1名が査読論文2.4篇、無査読論文2.8篇、口頭発表6.8件を発表したことになる。関連領域における成果公表のペースを大きく上回るペースである。
 国際学会での招待・基調講演7件のほか、日本語学会、日本言語学会、英語コーパス学会、漢字文献情報処理研究会、情報処理学会、人工知能学会などで本領域の活動に関係する論文特集やシンポジウムが企画された。
 本領域で作成したコーパスを利用した応用研究の成果として、国語教育用の語彙表と漢字表が公開されたほか、日本語教育用のコロケーション検索ツールが近日中に公開予定であり、日本語頻度辞書の編集も進行中である。

審査部会における評価結果及び所見

A(研究領域の設定目的に照らして、期待どおりの成果があった)

(1)総合所見

 本領域の第一の目標である「現代日本語書き言葉均衡コーパス」の作成についても、第二の目標であるコーパス日本語学の可能性の探索についても十分な成果が得られた。特に短期間で大変有用なコーパスを構築したことの意義は大きい。今後、多くの研究者がこれを活用して優れた研究成果をあげることを期待する。また今回構築されたデータベースを一層国際水準に近づけるべく研究の継続を期待する。

(2)評価に当たっての着目点ごとの所見

(a)研究領域の設定目的の達成度

 本領域の設定目的として応募時に選択された対象は次の三つであった。(1)「研究の発展段階の観点からみて成長期にあり、研究の一層の発展が期待される研究領域である」(2)「学術の整合性ある発展の観点からみて重要であるが立ち遅れており、その進展に特別の配慮を必要とする研究領域である」(3)「領域の発展が他の研究領域の研究の発展に大きな波及効果をもたらす等、学術研究における先導的又は基盤的意義を有する」。本領域はこれらの設定目的を十分に達成したと評価できる。
 本領域の第一の目標である「現代日本語書き言葉均衡コーパス」の作成について、目標値を上回る一億五百万語を蓄積したコーパスが完成しており、全面的に達成されたものと評価する。第二の目標であるコーパス日本語学の可能性の探索は、言語学のみならず、日本語学、日本語教育、辞典編集、自然言語処理など幅広い分野における活用の可能性を探ることであったが、この点については、5つの計画研究班と4つの公募研究班が、非常に高い業績生産性を示した。また、従来から協力関係を構築してきた人文系言語研究者と理工系自然言語処理研究者との研究協力も一層の発展を果たし、新たな研究対象・研究手法の開発が期待できる。本特定領域研究を通じて、若手研究者を多数育成し、多くの研究機関等に配属する機会が得られたことにより、今後の当該分野の発展に大きな可能性を開いた。日本におけるコーパスの構築とそれに基づく言語研究は、欧米や韓国、台湾などに比べて立ち遅れていたが、本特定領域研究を通して、その状況が大きく改善されたと認められる。データベースの質をさらに高め、一層国際水準に近づけるべく研究の継続を期待する。

(b)研究成果

 「現代日本語書き言葉均衡コーパス」の作成についても、コーパス日本語学の可能性の探索についても、十分な成果がでている。「書き言葉均衡コーパス」は約六千五百万語の書籍コーパスを含み、その代表性において優れたものであると評価できる。高い精度のコアデータ、言語解析ツールの開発など、多大な成果をあげていて、当該分野における発展に貢献したと高く評価できる。今後は、今回構築されたデータベースを一層国際水準に近づけるべく研究の継続を期待する。
 本領域の先導的または基礎的意義としては、コーパスを利用した応用研究の成果として、国語教育用の語彙表と漢字表が公開され、また日本語頻度辞書の編集が進んでいる点等が特筆されるべきである。コーパス公開は、多くの利用者を得、コーパスによる日本語研究を活性化したものと評価される。形態素解析のために構築された電子化辞書UniDicが公開され、形態素解析用の辞書の新標準として定着しつつある。またiPhoneやiPad等のOSの一部にも利用されるなど、応用的意義が著しい。

(c)研究組織

 計画研究・公募研究ともに高い生産性を示し、全体として十分な成果が得られた。

(d)研究費の使用

 特に問題点を指摘する意見はなかった。

(e)当該学問分野、関連学問分野への貢献度

 上記のとおり、先導的・基礎的研究として大きな成果をあげており、関連学問分野に対しても、社会に対しても重要な貢献をするものである。

(f)若手研究者育成への貢献度

 若手研究者を多数育成し、多くの研究機関等に配属するなど、大きな貢献があったと認められる。

(参考)

平成23年度科学研究費補助金「特定領域研究」に係る研究成果等の報告書(※KAKEN科学研究費補助金データベースへリンク)

お問合せ先

研究振興局学術研究助成課

-- 登録:平成24年02月 --