12.05.2007

試題反應理論

昨天的普通心理學參訪活動裡介紹了一個有趣的地方,心理系進行試題反應理論(item response theory, IRT)研究的實驗室。IRT是80年代後才漸漸具備雛型的測驗理論,目前台灣市面上能見到的依據IRT設計的測驗大概有GRE、托福等等。

IRT是當代測驗理論(modern test theory)的基礎,有別於以真實分數模式(true score model)為基礎的古典測驗理論(classical test theory)。

真實分數模式是一個表達一個古典測試結果的意義的模式︰

X = T + e
其中X代表受試者得到的分數(observed score),T代表受試者實際上的能力(true ability),e代表分數與能力之間的可能誤差值(random error)。以此為基礎建立的古典測試提供相同的題目給所有受試者,每個題目分配有固定的分數。台灣教育體系中大部份的考試都屬於古典測試。

古典測試的基礎很簡單,但是有一些缺點︰
因為使用固定的一組題目,一個古典測試的難度、鑑別度、信度是樣本依賴的。我們沒有辦法利用不同測試者的測試結果做出有意義且可反應試題的客觀難度、鑑別度、信度的比較。

古典測試理論無視受試者的個別差異。古典測驗對於每個題目assign固定的分數,經由這樣的操作得出的不同受試者之間的分數比能否準確地反應其能力比,是值得懷疑的。

古典測驗理論無視受試者的反應組型(item response pattern)。古典測驗理論假設在同一場測驗中得到相同分數的受試者會具有相同的能力,然而得到相同分數並不代表受試者做對和做錯的題目完全相同(即,不代表其具有一樣的反應組型),這樣的給分方式不夠informative。

古典測驗沒效率。測驗是為了測量受試者的能力值,因此,使用越接近受試者能力極限的題目來進行的測驗會越有效率,越容易在最短的時間內得到最準確的結果。反之,讓受試者面對太簡單或者太難的題目都只是在浪費時間。使用同一組題目進行測驗的古典測驗無法針對受試者的能力來選擇個別試題,因此效率不佳。*1


這些缺點在當代測驗理論中都可望被解決。以托福為例子,托福考試事先備有題庫,並且依據受試者的答題情況決定下一題的難度。也就是說,雖然大題庫是相同的,但是每位受試者的試題不一定相同。在這樣情況下,我們可以提供每位受試者最逼近其能力極限的試題,提高測驗效率,並且以廣大受試者的答對率和一些其它的資訊,例如受試者的最後分數為基礎,來計算單一試題的客觀難度、鑑別度和信度,並且依此調整單一試題的配分,做出能夠逼近受試者真實能力的結果分數。因為試題獨立,所以不論是根據難度還是出題方向來描繪反應組型都不困難,在英文測驗中,for instance,我們甚至可以將字彙試題分類,統計某一受試者擅長的字彙領域(例如「商業」、「醫學」)。

我參觀的實驗室處理的主要是某些受試者在托福這樣的測驗中因為試題外洩而不當得利的問題。像托福這種從大題庫裡抽題的測驗,最容易的作弊方式就是用各種方法尋找最近參加過測驗的人憑記憶寫下來的考古題,雖然托福每隔一段時間就會更換題庫,依然無法杜絕這種作弊。實驗室裡學長姐的工作就是想辦法避免讓這樣的人得到高分,他們用電腦程式跑數學模型來測試各種應對方案。相關的方法有很多,比方說使用平行題庫(我想大概就是增加待用試題數量的意思,讓作答狀況相同的兩個受試者依然有可能做到不一樣的下一題)、規定同一單一試題重複使用次數的上限等等。其中我聽到最酷的方法是根據受試者的作答時間的pattern來判斷該生是否唸過考古題。這個法子當然不會像「你做每一題的時間都低於5秒,I got you!!」這樣簡單,我想它的判斷應該也同時依靠其它的作答特徵,例如做不同難度或長度的試題的時間差(如果不管題目難不難這個人都用同樣的時間解決,他就很有可能唸過考古題)、答對試題的pattern(如果這個人把一系列難題三秒解決,卻栽在兩題簡單題上,他就很有可能唸過考古題)等等。(我剛剛又想到了,我們甚至可以設計一些專門用來測試受試者有沒有作弊的試題,讓程式在發現有作弊嫌疑的受試者時丟給他,這些測試試題可以是該受試者之前「輕鬆答對」的題目的counterpart,即對於同一個概念以不一樣的出題方式進行測驗的題目,如此一來,如果答對前面題目的受試者卻栽在它的counterpart上,他就很有可能是因為唸過考古題所以答對的。)IRT真的是滿有趣的東西,讓我再度後悔沒有好好念數學。






*1︰缺點事實上不只這些,余民寧的文章裡有比較完整的介紹



Referecnes
試題反應理論的介紹/余民寧
IRT in wiki
true score theory

1 comments:

朱家安 said...

前幾天帶著這篇文章去了一趟研究室請學長姐批評指教,下面是學長的建議︰

您好,我是心理計量研究室的研究生,也是您之前參訪研究室時,研究IRT的其中一位,
叫我543就可以了。您在部落格寫的文章相當不錯,我想補充幾點給您,所謂的電腦化適性測驗 (Computerized Adaptive Testing, 簡稱 CAT)選擇適合考生能力的試題給予施測,只是IRT的其中一個應用,IRT也可以使用在一般紙筆測驗,也就是所有考生測驗試題皆固定的施測方式。所以說,『古典測驗沒效率』這點可能有誤,正確來說,在IRT的基礎下,CAT始能執行,相較之下CAT比固定測驗有效率的多。在台灣也有以IRT為理論基礎的大型固定測驗,像是大學學測的『級分』,就是IRT給予考生能力定位後,轉換成一般大眾可以理解的分數。
另外,關於考生利用洩題獲益的議題,學弟真的非常有慧根,您所描述可以算是深入淺出,放在部落格來介紹這個領域實在是再適合不過了,甚至您最後提出的構想,有學者也提出類似的研究,偵測作弊用的試題,稱為『特洛伊試題』(Trojan Item),該試題為故意引誘作弊考生迅速且正確答題,但是您的想法更好,因為您設下了兩道的判斷準則,您所謂的countpart試題,在何時出現,出現後如何與之前的答題型態配合作判斷,這些都可以再慢慢設計與探討的。
最後,這個領域有個瓶頸,學弟可以深思,就是在應用上,考生來考試是有權益得到公平的對待,即便有部分考生有作弊嫌疑,我們也不能把考生當成敵人一樣,去作任何不友善的處置,除非有方法能完美且有根據的偵測出,該考生確實有獲得洩題資訊,否則在實務上任何非制式的動作皆不可行,目前唯一在實務上有所進行的,只有針對題庫的更新、題目出現的頻率等等面向上著手,而作答時間在測驗中所參與的運作,都在研究階段,距離實際應用還相當遙遠。畢竟,這是連錯殺一人皆不可的一項工作。
對了,學弟不用擔心數學程度的問題,大學四年若只學會了心理學,保證會很空虛的,這個領域說真的也只要會微積分,統計與機率概念熟一點,就可以無往不利了。