馬場今日子
2001年1月
山下淳子先生
『言語テストの基礎知識』について
[本の概要と所感]

この本は言語テストの開発・分析・意義などについて書かれている。それぞれについて具体的な手順や基準も示されているので参考になる。言語テストを開発したり利用することはとても手間のかかることだが,きちんとした手順を踏んでそれを行うことは学習内容や学習目的を明確にし,カリキュラムの向上につながるということが分かった。また,統計分析は「レシピ方式」で説明がなされ,分かりやすい。各章の終わりには用語と略号・復習・応用問題がついている。

同じ著者のUnderstanding Research in Second Language Learningと同様,これ以上はないくらい簡潔に事実が述べられているだけではなく,読んでいて面白い本である。まるで栄養があってしかも美味しい料理を食べているようだ。この理由の一つは,基本的だけれども大事なことがずばりと書いてあるからだと思われる。例えば私は第6章の「相関」についてあまり目新しいことは書かれていないだろうと思って読んだが,2つの喜ばしい情報を得た。1つはピアソン積率相関係数を計算する際に必要な前提条件3つ(「独立性」「正規分布であること」「直線的であること」)。もう一つは相関係数rを自乗してえられる「決定係数」の意味は図式化すると(p. 189)一目瞭然だということである。

ところで,訳語の問題だが,content congruenceは何で「内容斉合性」となっているのだろう?congruenceは普通「整合性」だと思うが,「斉合性」(広辞苑にも載っていなかった)になっているのは何か意味があるのだろうか。 [各章で大切だと思われたこと]

本の内容について特に反論する個所が見当たらないので,以下では各章で私が初めて知ったことのうち,大切だと思ったことをまとめたい。

1章 言語テストの種類と用途

言語テストには2種類ある。一つは集団基準準拠テスト(NRT)でもう一つは目標基準準拠テスト(CRT)である。NRTでは個々の受験者の得点は他の全受験者の得点にたいして相対的に評価される。それに対して目標となる知識や技能の基準があらかじめ決められていて,受験者がそれをどれくらい習得したかを測る。NRTの得点は正規分布が望ましいが,CRTで理想的なのは得点が正規分布することではなく,学習前のテストで0%の得点,学習後のテストで100%の得点になることである。歴史的にはCRTはNRTより新しく出現した。この2つのテストは評価の仕方・測定の種類・テストの目的・得点の分布・テストの構造・問題の予想について異なる特徴を持つ(p. 6の表1.1参照)。また,言語プログラムでなされる4つの意思決定のうち,NRTは熟達度と配置クラス決定を,CRTは達成度判定と診断を決めるのに適している。

2章 言語テストの採用・開発・手直し

「テストの開発とテストの実施は本質的に政治的活動である」(p. 27)。したがってテストはどのような形式か,その目的はなにか,のような理論的問題については様々な論争があるが,テストの開発や実施をする前に理論的立場を協議して決める必要がある。テストの実施については公平さや費用の問題など様々な問題がある中で妥協点を見出さなければならない。また,テストを新たに開発するか,それとも既存のテストを採用したり,手直しするかを決め,テストの実施には計画性をもって当たる。テスト計画のチェック・リスト(p. 50)は便利だ。

3章 テスト項目の開発と改訂

テスト項目とは,「テストあるいは評定尺度において示差的・有意味の情報を提供する最小の基本単位である」(p. 58)。テスト項目分析はNRTとCRTでは異なる。この章ではテスト項目の統計が特に参考になる。まず,NRTについてはテスト項目難易度(IF)分析・テスト項目弁別力(ID)分析・錯乱肢有効度分析を行い,CRTについては項目品質分析(CRTの項目品質分析はNRTと異なり,専門家にアンケートをすることで測る)で高品質だとされた項目を選んだ後,項目難易度分析をするために差異指数(DI。学習前と学習後の得点をきちんと分別できているかを測る)かB-指数(DIと同じことをテストを2回行うことなく計算する。これはテストに合格した人と不合格した人の得点を使う)を計算する。

4章 テスト結果の記述

言語テストにおける記述統計のはなし。省略。

5章 テストの得点の解釈

主に分布のはなし。NRTは正規分布をしているのが望ましいが,CRTでは学習前は正の方向に歪んだ分布になり,学習後は負の方向に歪んだ分布になるのが望ましい。

6章 相関

ピアソンの積率相関係数やスピアマンの順位相関係数を計算するやり方。ピアソンの場合は決定係数はrを二乗して得られるが,スピアマンの場合は概算値を計算しているに過ぎないので,rhoを二乗しても意味がない。名義尺度と間隔尺度の関連を調べるには点双列相関係数を計算する。この係数は,テストの各項目がテストの総合得点とどの程度関連があるかを調べられるので,項目弁別力指数の代わりに報告されることもある。

7章 テストの信頼性

p. 212に言語能力の構成要素を表にしてあり,参考になるが,これらの構成要素と無関係な要素(環境や実施方法による誤差)が入り込まないように気をつける。テストの信頼性(一貫性)を測る時もNRTとCRTでは異なる方法を使う。NRTでは一貫性を測るのに3つの方法がある。一つは再テスト信頼性で,これは同じテストを(受験者がテスト項目を覚えていなくてしかも受験者が基本的に変化しない程度の)ある期間おいて2度実施し,それらの相関を計算する。2つめは形式Aと形式Bという等価なテストを作り,一つの受験者集団に実施し,その相関を計算するやり方である。3つめは内部一貫性を測定する方法である。内部一貫性の測定にはいろいろやり方があるが,代表的なのは折半法による信頼性,クロンバック・アルファ,キューダー・リチャードソン公式(20と21)である。

一方CRTの一貫性を測定するにはやはり3つの方法がある。1つめは「しきい値損失一致度」(CRTを2回実施して,習得者と非習得者を一貫して分類できたかを測る)で,これを計算するには一致度係数かカッパ係数を使う。2つめは「二重誤差損失一致度」で,これは「しきい値損失一致度」と同じことを計算するが,「しきい値損失一致度」と異なり,平均値や標準偏差も考慮するのでより繊細である。3つめは領域得点信頼度である(これの説明はここに書いてあることだけではよく分かりませんでした)。

8章 テストの妥当性と目標基準の設定

この章は本書においてもっとも重要な章だと思われた。テストの信頼性は統計分析で証明できるが,テストの妥当性はテスト作成者が「正当化」し,その「論拠」を構築しなければならない。テストの妥当性を測る時にNRTにもCRTにも使える方法は「内容的妥当性分析法」と「構成概念妥当性分析法」で,NRTに対してのみ使えるのは「目標関連妥当性分析法」である。

「内容的妥当性分析法」ではテストの内容が測定すべき能力を本当に測定しているかを調べる。例えばテストがタガログ語の聴解能力を測るという目的のために適切かを測る時は,まずタガログ語の聴解能力の熟達度を定義しなければならない。定義する際にACTFL熟達度ガイドラインに基づくことにしたとして,一つ一つの項目がそのガイドラインとどれくらい合っているかを専門家のグループが5段階で評価する。

「構成概念妥当性」とは,テストが測定したい構成概念を間接的とはいえ正しく測定できていることである。これを測るには2つの方法がある。1つは異集団法による測定である。これは構成概念を明らかに持っているグループと明らかに持っていないグループが,そのテストによってきちんと分類できているかを測る。2つめは介入法による測定である。これはとくにCRTに適している。構成概念(例えばタガログ語の聴解)を学習する前と学習した後の得点に明らかに差があるかどうかを測る。

NRTにのみ適応できる「目標関連妥当性分析法」は簡単に言うとすでに確立しているテストと新テストがどれくらい関連があるかを調べる方法である。

9章 テストとカリキュラム

テストはカリキュラム計画に有機的に組み込まれている必要がある。言語カリキュラムはシステムである(p. 309の図を参照)。カリキュラムを開発するにはまず言語材料を習得する必要性を分析し,目標と目的を定める。その次がテストの開発である。重要なことは,教材の開発はテスト開発の後に行うのが望ましいということである。テスト開発を先に行ったほうがより学習目標がはっきりするからである。そしてテストを先に行うことで学習者と学習内容の不一致を防ぐことができる。教材を開発した後は教師が言語教授を行うが,カリキュラムがうまく機能するためには教師の一人一人がカリキュラムに関わるべきである。最後にプログラムの評価が行われるが,そのためにはテストの結果だけでなく必要性分析から言語教授を行う過程で得られた情報をすべて参考にする。カリキュラムは「過程」である。カリキュラムは常に評価され,改善されるべきである。