当サイトではJavaScriptを使用しております。ご利用のブラウザ環境によっては、機能が一部限定される場合があります。
ブラウザの設定でJavaScriptを有効にしていただくことにより、より快適にご利用いただけます。

全国的な学力調査のCBT化検討ワーキンググループ（第7回）議事要旨

1．日時

令和3年1月26日（火曜日）10時～12時

2．場所

Web会議（文部科学省　東館15階　15F特別会議室）
※YouTube配信にて公開

3．議題

「今後さらに検討を行う主な論点」について有識者からのヒアリング
その他

4．出席者

委員

大津主査、石田委員、礒部委員、宇佐美委員、川口委員、澤田委員、柴山委員、寺尾委員、耳塚座長

5．議事要旨

議事1：「今後さらに検討を行う主な論点」について有識者からのヒアリング

資料1に基づいて、堀田教授、資料2に基づいて乾チームリーダーよりご説明があった。関係委員の意見は以下のとおり。

【委員】
　資料1のスライド38には、「全国学調のCBT化の実現への意見」として、「悉皆は諦めない」「同日実施にはこだわらない」「学習状況調査に軽重をつける」といったご意見があるが、CBT化に向けて、既存の全国学力・学習状況調査の枠組みだけでなく、本調査に関する社会の一般的な認識も変えていく必要があるだろう。
　1点目の「悉皆は諦めない」という点について、情報活用能力を前提とする、つまり、この調査を受けることによって単なる調査の受検だけではなく、CBTの調査を受けることが学習の場としての役割等も含めて捉えていらっしゃるのではないか、と推察しているが、どのようにお考えか。

【堀田教授】
　CBTでの実施をした場合、学習に対する結果のフィードバックが早くなり、それによって児童生徒に個別の指導が早いタイミングでさらに行いやすくなったり、それぞれの苦手な領域に合わせた問題を提案したりするようなことができるようになるだろう。これは個別最適な学びの観点からも重要なことかと思う。カリキュラム・マネジメントの観点から、学級の児童生徒の苦手領域を教師自身がリフレクションできて、学級あるいは学校として今後の改善点を戦略的に考えていけるようになると考えたときに、抽出調査になることで、一人ひとりの児童生徒、全ての教室、全ての学校に貴重な資料がもたらされる機会が失われるのはよくないだろう。むしろそれを前提に考えたら、IRTを導入して複数回実施にする、つまり同日実施にそんなにこだわらなくてもいいのではないかと考えている。全国学力・学習状況調査が複数回実施になることで、同じ問題を同時に受けることが学力調査である、という世の中の考え方を変えていただく良い機会になるのではないか。日本ではCBTで学力を測定するということ自体があまり経験されていないので、どうしても理解が得られにくい現実があることは承知している。そういった考え方を変えていただくためにも段階的なスケジュールを公表し、少しずつそういう方向にいざなっていくということが必要ではないか。

【委員】
・今回のご発表は、調査を使ってどのように波及効果を与えていくかという点に主眼が置かれていたように感じている。個人的には、指導と実態把握とは、なかなか両立が困難であると考えている。相手に別の影響を与えてしまうと、実態とは違うものが分かってしまうが、その辺のバランスをどのようにお考えか。
・全国的な端末の配備状況や、各学校のネットワークの整備状況を考えたときに、CBT化に向けて、どの程度の年数を想定したらいいのか。相場観を教えていただきたい。

【堀田教授】
・全国で学力調査を実施するのは、学校現場から見れば全国的な学力調査の結果を指導資料にしたいと思っていると考え、それを前提に発表した。全国的な学力調査の結果は、個々の設問、個人単位の解答状況だけでなく、学級、学校、自治体、都道府県、全国といったそれぞれの状況を併せて考えることで、それぞれの児童生徒や学級の実態が明らかになり、学級や学校の指導を振り返るために有効な指導資料になる。実態把握は指導資料を得るための前提と考えたい。
　実態把握と指導資料とを両立させると、調査方法が難しくなるという点は理解できるが、個人的には、やはり指導に還元したいと考えている。個別最適な学びなどの中教審の動向等も踏まえても、指導資料という目的は必要だと思っている。
・CBTでの調査実施可能時期について、これは技術予測だけではなく、各教育委員会による整備状況の予測なども必要になるので大変難しい。1700以上の自治体があることを踏まえると、1年2年ですべての自治体で完全に整備することは難しいだろう。しかし、4年や5年たっても、1週間から1か月の期間中に複数回で調査を実施することさえ、まだネットワークがうまくいかなくてできないとすると、それは大きな問題だろう。そういう意味で、だんだん段階的に移行することで、各教育委員会がちゃんと追従できたかどうかを自分たちで実証していただきながら進めていく、技術的な準備を進めていくという観点からも段階的な移行・実証が必要ではないか。

【委員】
　38枚目のスライドのIRTについて、複数日での実施の場合、先生は恐らくIRTを使って問題の等質や特定の比較可能性を担保するのがよいというお考えだと思う。複数日実施でIRTを導入する場合、おそらく大量に問題を作成することは現実的に難しいだろう。問題が多少変わっていたとしても、調査を受けた児童生徒が問題の内容を記憶しており、違う実施日に調査を受ける別の学校の児童生徒に何らかの形で話したり、伝わったりするというリスク、ちょっと大きな言い方をすると問題は非公表であるというIRTの前提が崩れてしまうリスクが多少なりともあると考えている。その点について、どうお考えか。

【堀田教授】
　ご指摘の点については、私は一定程度やむを得ないと、つまり、ゼロにはできないと考えている。ただし、多くの問題を作ることが難しいという点が、どの程度の難しさなのか私には分からない。平成19年度から実施されてきた全国学力・学習状況調査の調査問題や予備問題のプールなどを考えると、結構大量な問題があり、そこから出題すると想定すると、こんな問題が出たよと聞いたところでIRTで同じ問題に当たる確率は低いのではないか、問題内容が児童生徒から多少伝わることがあってもそれは仕方がないことで、無視できる範囲に収まるのではないかと考えている。

【委員】
　情報活用能力はCBTにおいて重要だと認識しているが、CBT慣れと情報活用能力とは少々違うものではないかと感じている。そもそも実態としてずれているものなのかもしれないが、少し詳しく教えていただけないか。

【堀田教授】
　情報活用能力とは、例えばタイピングができるなどの必要となるICTの操作ができるスキルと、画面上に出てきた問題から情報を取り出せる、それを整理できる、何らかの形で表現できるなどの認知的なスキルの複合技能だと考えている。学習指導要領の総則において、各教科等の学習の基盤となる資質・能力として位置づけているということは、そういった情報活用能力が発揮されて国語や算数・数学などの学習をする、という構図で捉えていいということである。そう考えると、情報活用能力がちゃんと身についているから問題が解けたのか、情報活用能力が十分ではないが問題は解けたのかということについて、初期の段階ではある程度区別することも必要ではないか。情報活用能力についても、別途、情報活用能力調査で調べるのか、学力調査の一部として調べるのかを含めて検討することも考えられるのではないだろうか。たとえば、タイピング能力を測定した上で、記述式の解答と比べたときに、タイピングはできているのに記述式の解答は埋まっていない児童生徒と、タイピングがおぼつかないから記述が埋まっていない児童生徒とを区別できるのではないか。
　その上で、CBT慣れとは、情報活用能力を生かして教科の問題に解答するという意味になるが、そもそもCBTでの調査だったからうまくできなかった、ということにならないぐらいの慣れが必要ではないかと考えている。先日、情報活用能力調査の予備調査である学校に視察にいった際、調査であるにもかかわらず、児童はすぐに隣の児童と相談を始めていた。今まで情報活用能力を発揮するような場面では友達と協働で問題を解決することが多かったので、ICT機器を囲みながらああでもないこうでもない、と児童は相談してしまう。しかし調査においては、そういった相談などはしないでいるべきだが、普段のICT機器の使い方から友達と一緒に考える習慣がついてしまっている。調査やテストのときには、CBTでも自分の力だけで解答する、ということを経験しておく必要があると考えている。

【委員】
・今回、英語の事例をご発表いただいたが、例えば日本の国語や算数・数学の問題に応用する場合に、別の課題が出てきそうな気がするが、いくつかご教示いただけないか。
・今回のご発表は、自動採点技術を使って学習者をどうサポートするかという点に主眼があり、調査で実態をどう把握するかという観点からは少し離れていたように感じているが、どうか。

【乾リーダー】
・記述を評価し、フィードバックを行うといった場合には、その記述でどのような能力について評価したいのか、サポートしたいのかによって必要な技術もその使い方も変わるだろう。例えば英語の場合、単語の選択ができているのか、文法的に正しいかどうか、といったレベルでの評価もあれば、内容やロジックの評価もある。したがって、技術的に可能かは一概には言えない。ただし、国語の問題の中にも、発表の前半で触れたように、評価やフィードバックの技術支援が可能なものはいろいろあると考えている。
　算数・数学については、まだ試行ができておらず、技術的な共通点や相違点について検討できていない。
　理科、社会の記述式については、国語の例と同様に、解答に必要な情報があるかないか等で判断し、評価する問題はそれなりにあると考えている。解答形式が英語でも、日本語でも、理屈は同じだと考えていいだろう。
・今回の発表について、学習者のサポートがメインにあると考えていただきたい。自動採点技術をどういうところに取り入れていくのかを考えたときに、例えばいきなり入試の採点に取り入れていくというよりは、まず、日常的なインタラクティブな学習の環境の中に技術を入れていくことを考えるのが、筋がいいと思っている。
　ただ、大規模試験の調査の採点の支援をすると、特に記述式の部分では、人間が採点するのは非常にコストも時間もかかる。そこに技術を入れて、採点にかかる時間を圧縮することは考えられるのではないか。

【委員】
・スライド17の採点の支援、特に算数・数学の記述式の採点について、途中から数式を使ったり、日本語と数式が混在していたり、児童生徒は色々な方法で解答をする。過去の全国学力・学習状況調査を使って、各学校の先生に採点・分析をしていただいたところ、やはり先生方でも採点がぶれる、判断が割れるところが複数あった。その中で特徴的だったのは、本来の問題の趣旨とそんなに大してずれていないが、先生によっては、イコールの後に答えを書いていないから正解にできないといったような、無視できる、誤ってはいないが、本質的に関係ないところを書いている部分で採点の判断が割れていることだった。こういった、本質的に関係ない部分の記述について、これを無視できるかどうかといった点は、記述式の採点に大きな影響を与えるのではないかと考えている。AIを使って自動採点をしていく場合、先述したような、誤りを含んでいるが、それを無視する、といったことは今の技術でどれくらい可能なのか。
・スライド23のフィードバックについて、児童生徒の学習改善だけではなくて、教師教育または教員研修の意味からも極めて有効だと思っている。CBT化を加速することによって、先生方の研修においても授業を最新化する、授業改善を行う資料としても提供が可能ではないか。

【乾リーダー】
・算数・数学については、まだ十分な技術的な検討ができていないが、例えば国語の場合であっても、余計なことを書いていて、それが本質と関係なければ無視されるし、大きく間違ったことであれば、減点なり間違いになる。そもそもAIは、なぜこれが正解なのかという理屈は分かっておらず、文章を理解して、納得した上で、正誤を判断することはできない。AIができることは、これは正解、これは間違い、といったような採点の訓練データをもとに、その真似をして採点することである。いかにうまく真似ができるか、というところが技術のポイントひとつである。記述式の解答にある余計な部分が本質的な間違いかどうかについては、訓練データの中に同様の間違いがあれば、AIはそれを参考に判断できる可能性がある。ただし、すべての間違いのタイプを予め訓練データとして用意するのは難しいので、あくまでよくある間違いを判別できるにすぎない。
・道具は使い方次第なので、うまく使えば採点の支援にもなるし、フィードバックについてもある程度設計しておけば、解答のパターンに応じて適切なフィードバックが可能になってくるだろう。

【委員】
　スタディ・ログや定型的な誤り、誤概念といった部分の蓄積も、調査問題の設計だけでなく、指導改善にも非常に大きな影響を与えると考えている。今までの全国学力・学習状況調査の結果では、その部分がなかなか表へ出てこなかったところも一定程度あると思う。CBT化することでできることが増えるということを改めて実感した。

【委員】
・例えば国語の場合、提示された長文の内容に沿って読解した内容や要約文を書くような記述式問題なのか、リード文をふまえて自分の意見を書く問題なのか、といった問題と解答の性質によって、学習データの数や採点精度がかなり変わってくるのではないか。
・スライド17にあるフローの例について、人が採点していない答案が一定数あるということだが、今現在、国内外で一部の答案だけでも自動採点のみで運用されている試験や調査などの実践例はあるのか。

【乾リーダー】
・解答の自由度について、スライド13ページにある事例では、長文読解的な文章の問題を想定しており、その中で数十字から100字ぐらいで答えるといった、比較的短めの記述式の問題で実験した。
　そのような問題の解答でも、自由度に違いがあり、自由度の高いものについては人間でももちろん採点が揺れる。人間が揺れるところは機械も揺れる。そういった問題は、自由度の低い問題と訓練データが同じ量では精度が上がらないので、訓練データを増やす必要があるだろう。また、幾ら訓練データを追加しても自動採点は難しいという事例もあると思う。特にそれぞれの意見を述べさせる課題、さらに長文になってくると、今の技術での対応は非常に難しい。
　一方で、スライド4にあるようなエッセイの自動採点は内容で判断するものではない。言葉の流暢さやdiscourse markerが使えているか、幅広い語彙が使えているかとかいうような、表層的な特徴で評価していると言われている。機械ができるのはそこまでである。長文で自由度が高い記述式の場合には、AIでは内容の判断は何ともできず、実際に人間もその評価は難しいという報告もある。
　これに対し、もう少し短い自由度のより低い記述式の問題については、何とか内容で評価できる可能性が今回新たに出てきたところ。英語の論述問題を評価するという話をしたが、スライド4で対象としているほどの長文ではないものの、スライド8で紹介した短答式よりはもう少し内容の自由度が高いものをきちんと内容で評価したいと考えており、これまでよりチャレンジングなものである。ここから数年かけて技術開発していきたいと思っている。
・大規模試験での先行例について、例えば70～100字、英語でいうと200ワード程度のいわゆるshort answer scoringについてはまだ研究が少なく、技術的にもこれからである。スライド4にあるような表層的なスコアリングは商用化されて世の中で使われているが、内容レベルで採点するということを技術的にやるというのはまさにこれからであり、我々はそのフロンティアにいると考えている。実際に実用化された例も、私が知る限りはない。

【委員】
　自然言語処理という分野では、データをどのように集めてくるか、あるいは集めて分析してフィードバックするかという部分が重要な肝になると思っている。産学官の協働に関連して、記述式の解答データを効率的にたくさん集めてくる方法について、具体的な取り組みはあるのか。

【乾リーダー】
　今、取り組んでいるうちのひとつは、民間の教育事業者と連携してデータを集めるということである。例えば模擬試験の答案のデータ等を電子化し、そこに採点の情報等もつけて、それを研究開発用に使っている。紙ベースの答案だと電子化するコストがかかるが、日常の教育現場の中で生産されているデータをうまく集める、使えるようにしていくことが基本だと考えている。
　CBTに使えるデバイスが学校現場の中に入ってくると、そこから日頃の例えば小テストのデータなどを集めて、問題集を作り、問題集を解いた人たちのデータがまた集まってくるというような設計が考えられる。学校現場が電子化されてくれば、そうしたデータをためて、それを次の技術、あるいはよりインタラクティブな環境の構築に使っていくといった、そういう循環が生まれてくると思っている。我々としても学校現場にデバイスが入ってくるというのは非常に期待している。

【委員】
　作問する際にこうした自動採点の技術を利用する方法は考えられるのか。

【乾リーダー】
　今回ご説明したロジックや技術をそのまま使えるわけではないが、言語処理技術は幅が広く、例えば英語の例文を作る際に技術を入れていく、問題の種をたくさんの言語データの中から探す、といったように、それらの技術をうまく組み合わせて使うと効果的な作問の支援になるのではないか。言語処理技術で作問の支援を行うことについて研究されている国内研究者も実際におり、可能性は色々あるだろう。

【委員】
・乾リーダーの研究で使われている予測モデルというのは、例えば先ほど御説明があった英文の表層的な部分に関する評価などでは、特定のワード等の特徴量の有無をベースにした、回帰モデルやニューラルネットみたいなものがベースになっているという理解だが、どうか。
・自動採点技術を応用していく場合、事前にどのような学習データが必要になってくるのかという点について、問題の形式や科目によって、予測とか採点モデルの構築に必要な学習データの量が変わってくるのではないか。例えば英作文の採点であれば、正しい文章の学習データが外部からも得られるため、必ずしも同じ問題やそれに基づく採点データがなくても、一定の精度を持つ予測モデルは多分構築できるのではないかと思っている。
　一方で、内容や素材が毎回変わるような、例えば国語の文章題に基づく記述式問題については、基本的には事前のモニター受験者などのデータを使って採点データを事前に得てから学習させて予測モデルを構築するというステップを踏むのではないかと理解しているが、どうだろうか。

【乾リーダー】
　非常に本質的な部分であり、基本的にはご意見いただいたとおり。例えば英語の問題についても文法的に合っているか、単語の使い方が間違っていないか、という文法誤り訂正のような一般的な技術でモデルを1つ作ることになる。
　ただし、単に文法的に合っているかどうかだけではなく、会話の中の一部を埋める適切な発話を作文させるなどの記述式問題の場合、意味的な許容範囲がある程度決まってくる。そうすると、国語の情報包含判別タスクと同じような性質の採点タスクになり、その部分については問題ごとにモデルを訓練することが必要になってくる。
　つまり、一般的な問題、技術、データが必要な部分と、問題ごとに作らなければいけない部分について、ある種の組合せをやっていくことになると考えている。学校現場にデバイスが入って電子化されることになる今後の学習環境を考えると、同じ問題をいろいろな学校で共有して活用することが可能であり、さらに次の年になってもまた使える可能性がある。問題ごとに採点モデルを訓練する必要があるとしても、問題を再利用しにくいテストの形でなく、再利用が効く問題集のような形であれば、使い道は色々とあるのではないか。

お問合せ先

総合教育政策局参事官（調査企画担当）付学力調査室

（総合教育政策局参事官（調査企画担当）付学力調査室）