隨著電腦的大量使用,統計軟體也為之普及化。多功能而且複雜的套裝軟體有SAS、SPSS、SigmaStat等,而在EXCEL內建指令中也有統計之應用軟體。由於電腦與套裝軟體的方便,只要輸入數據,電腦自動運算而且列出計算結果。這種方便性,反而造成研究人員的誤解,認為電腦是萬能。可以替研究人員進行統計分析,此研究者只要依據計算結果進行解釋即可。這種誤解在1973即有學者提出警告。由下篇論文可得到四組數據:
Anscombe,F.J.1973.Graphs
in statistical analysis Am. Stat.27(1):17-21。
此四組數據如表一,分別以試驗一,試驗二,試驗三與誨驗四加以表示。如果對此四組數據不進行任何分析,純粹以EXCEL軟體中「資料分析」指令內「迴歸」運算加以執行統計分析,其結果如表二,表三,表四與表五。
由於現代電腦之運算位址大為增加,表二~表四之統計結果有細微之不同,但是小數點加以四捨五入,可以發現完全相同的迴歸分析結果。
Y = 18.0 + 0.5X,R2
= 0.666,標準差s = 7.42。以ANOVA進行分析,F(1,
9) = 18.0, p = 0.0022。
直線迴歸公式為y
= b0+ b1X,b0為截距,標準誤差為6.75,t值為2.67。
b1為斜率,標準誤差為0.118,t值為4.24。
四組數據的線性迴歸結果幾乎相同,但是由Yi對Xi之分佈圖與線性迴歸殘差圖可以得到驚人的差異。
由圖1可知,Y1與X1為線性分佈,圖5的殘差圖顯示殘差值沿著y
= 0之兩側均勻分佈,因此線性迴歸可以用以說明Y1與X1的關係。
圖2顯示,Y2對X2為一多項式由線,線性迴歸的結果,b0與b1值雖然由t檢定代表顯著(不等於零),但是由圖6殘差圖的分佈,代表線性迴歸公式無法代表Y2與X2之關係,必須採用更高階的多項式。
圖3長Y3與X3的量測值有一離群值(onfliers),此離群值嚴重影響了R2與s值。圖7之殘差圖也明顯的顯示此離群值。在X3
= 78,Y3 =76.44此量測點需要再進行測試。
圖4代表不洽當的數據分佈,在所有的11個數據群,有10個數據群是X4
= 48,Yi為不同數值的量測結結果,另一個獨特的數據為(114,75),與其他10點數據相距很大。稱為影響點(influence
point)。由圖8殘差分佈圖更是明顯。有可能此數據點(114,75)與其他數據(48,Xi)為來自兩組不同母群的量測點。因此需要更多量測數據加以瞭解Yi與Xi之關係。
由Anscombe先生其論文的四組數據,可以說明如果無統計學的基礎,純粹以電腦軟體運算,此四組數據都得到相同的結論,Y
= 18.0 + 0.5X之線性式。但是以殘差圖分析即可顯示線性迴歸的不適當。有關outlier,influence
point的判別更需要深入的統計學理。而且Anscombe先生之數據是可繪出於Yi對Xi之平面圖。在多變方分析(Yi對X1,X2,…Xk),則無法使用平面圖進行判讀。
由於統計軟體的普遍性與方便性,統計往往被誤用(Misuse)或濫用(Abuse)。有心從事研究的學術人員,只有一條路,腳踏實地好好研修統計學。
表一 四組數據 |
Exper. 1 |
|
Exper. 2 |
|
Exper. 3 |
|
Exper. 4 |
X1 |
Y1 |
|
X2 |
Y2 |
|
X3 |
Y3 |
|
X4 |
Y4 |
30 |
34.08 |
|
42 |
43.56 |
|
54 |
42.66 |
|
48 |
46.26 |
48 |
41.7 |
|
48 |
48.84 |
|
24 |
32.34 |
|
114 |
75 |
78 |
45.48 |
|
60 |
54.84 |
|
72 |
48.9 |
|
48 |
39.48 |
36 |
43.44 |
|
30 |
28.44 |
|
66 |
46.86 |
|
48 |
33.36 |
24 |
25.56 |
|
66 |
55.56 |
|
60 |
44.76 |
|
48 |
53.04 |
54 |
52.86 |
|
24 |
18.6 |
|
78 |
76.44 |
|
48 |
31.5 |
60 |
48.24 |
|
36 |
36.78 |
|
42 |
38.52 |
|
48 |
34.56 |
42 |
28.92 |
|
54 |
52.62 |
|
48 |
40.62 |
|
48 |
50.82 |
66 |
49.88 |
|
72 |
54.78 |
|
30 |
34.38 |
|
48 |
47.46 |
84 |
59.76 |
|
84 |
48.6 |
|
36 |
36.48 |
|
48 |
41.34 |
72 |
65.04 |
|
78 |
52.44 |
|
84 |
53.04 |
|
48 |
42.24 |
表二 試驗一之線性迴歸結果
R12
= 0.666177,s1
= 7.421222 |
|
自由度 |
SS |
MS |
F |
顯著值(P) |
|
迴歸 |
1 |
989.1602 |
989.1602 |
17.96039 |
0.002181 |
|
殘差 |
9 |
495.6709 |
55.07454 |
|
|
|
總和 |
10 |
1484.831 |
|
|
|
|
|
|
|
|
|
|
|
|
係數 |
標準誤 |
t
統計 |
P-值 |
下限 95% |
上限 95% |
截距 |
18.00782 |
6.749938 |
2.667849 |
0.025713 |
2.738397 |
33.27724 |
X
變數 1 |
0.499788 |
0.117931 |
4.23797 |
0.002181 |
0.23301 |
0.766566 |
表三 試驗二之線性迴歸結果
R22
= 0.666242,s2
= 7.423282 |
|
自由度 |
SS |
MS |
F |
顯著值(P) |
|
迴歸 |
1 |
990 |
990 |
17.96565 |
0.002179 |
|
殘差 |
9 |
495.9465 |
55.10516 |
|
|
|
總和 |
10 |
1485.946 |
|
|
|
|
|
|
|
|
|
|
|
|
係數 |
標準誤 |
t
統計 |
P-值 |
下限 95% |
上限 95% |
截距 |
18.00545 |
6.751814 |
2.666758 |
0.025759 |
2.731789 |
33.27912 |
X
變數 1 |
0.5 |
0.117964 |
4.23859 |
0.002179 |
0.233147 |
0.766853 |
|
表四 試驗三之線性迴歸結果
R32
= 0.666324,s3
= 7.417868 |
|
自由度 |
SS |
MS |
F |
顯著值(P) |
|
|
迴歸 |
1 |
988.9203 |
988.9203 |
17.97228 |
0.002176 |
|
|
殘差 |
9 |
495.2229 |
55.02477 |
|
|
|
|
總和 |
10 |
1484.143 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
係數 |
標準誤 |
t
統計 |
P-值 |
下限 95% |
上限 95% |
|
截距 |
18.01473 |
6.746887 |
2.67008 |
0.025619 |
2.752208 |
33.27725 |
|
X
變數 1 |
0.499727 |
0.117878 |
4.239372 |
0.002176 |
0.233069 |
0.766385 |
|
表五 試驗四之線性迴歸結果
R42
= 0.666707,s4
= 7.414173 |
|
自由度 |
SS |
MS |
F |
顯著值(P) |
|
迴歸 |
1 |
989.64 |
989.64 |
18.00329 |
0.002165 |
|
殘差 |
9 |
494.7296 |
54.96996 |
|
|
|
總和 |
10 |
1484.37 |
|
|
|
|
|
|
|
|
|
|
|
|
係數 |
標準誤 |
t
統計 |
P-值 |
下限 95% |
上限 95% |
截距 |
18.01036 |
6.743526 |
2.670763 |
0.02559 |
2.755447 |
33.26528 |
X
變數 1 |
0.499909 |
0.117819 |
4.243028 |
0.002165 |
0.233384 |
0.766434 |
|
圖1. Y1對X1之分佈圖 |
|
|
圖2. Y2對X2之分佈圖 |
|
|
圖3. Y3對X3之分佈圖 |
|
|
圖4. Y4對X4之分佈圖 |
|
|
圖5. Y1對X1線性迴歸之殘差圖 |
|
|
圖6. Y2對X2
線性迴歸之殘差圖 |
|
|
圖7. Y3對X3
線性迴歸之殘差圖 |
|
|
圖8. Y4對X4
線性迴歸之殘差圖 |
|