學測數學 小明跑步的兩個爭議
2015-02-03 02:18:01 聯合報 劉仁沛(台大教授、美國統計學會會士)、季瑋珠(台大教授)
大家普遍認為今年大學學測數學試題較往年難,且繁瑣計算過多,現就與統計相關的第五題提出個人意見。這個題目至少有兩個問題,第一是相關係數的估計,以及由樣本推論母體的問題,第二是每一個體值獨立性的問題。
先談第一個問題。先假設小明(參加路跑十公里組比賽)一個人每一公里的完成時間、平均心率、步數等十筆資料是互相獨立(其實這個假設是有問題的),則每公里之步數和每公里平均心率的相關係數,及每公里完成時間和每公里步數的相關係數之正負可由散布圖之趨勢來判斷,而不必實際透過複雜的計算,來求得相關係數。
更進一步來看,因為這只是一個樣本資料,故必有抽樣誤差,小明再跑一次十公里,不會得到完全相同的數據,計算的相關係數可能在正常的抽樣誤差內,所以樣本相關係數為正不代表變數間是真正具有正相關。因此第五題(4)及(5)選項之敘述「相關係數為正(負)相關」不是完全正確,應改為「相關係數為正(負)」。
第二個問題,第五題中的相關係數應指「簡單直線相關係數」,計算此係數的假設之一,就是這十筆(完成時間、平均心率、步數)資料間相互獨立。但是第五題的十筆資料均為小明一個人的資料,所以不是相互獨立的,而且後面的數值會受到前面數值的影響,故用簡單直線相關係數公式計算第五題相關係數是否恰當,值得商榷。
高中以前的統計,常常沒有區分樣本和母體,更沒有抽樣誤差及推論的概念,是不完全的統計教學。更重要的是,統計計算的公式是死的,統計方法正確應用卻遠比公式重要。
我個人在大學教授統計學並不要求學生死背公式,而是強調正確的使用,我允許學生考試可帶「大抄」,抄錄無法背的公式,甚至提供統計軟體不同的統計方法報表,但學生須選用正確統計方法的報表作答。所以,統計教學不論在高中及大學都是一個「藝術」,必須強調抽樣誤差,統計方法的假設,並排除混淆因子或稱干擾因子的影響及正確的使用,以免重蹈哈佛—史密松BICEP2資料不正確統計分析,導致太初重力波錯誤結論之覆轍。
沒有留言:
張貼留言