這篇文章是來自M.
Badertscher與E.
Pretsch兩位作者的評論論文
”Bad results from good data”,發表於Trends
in Analytical Chemistry , 25(11):1131-1138, 2006。文章中以實例說明分析化學研究者在數據整理最常見的錯誤。
一、線性迴歸之誤用
二、相關係數之濫用
三、數據轉換用以線性化之問題
四、不良數據能得到好結果?生物晶片的問題
一、線性迴歸之誤用
在分析化學中為了建立校正方程式,yi為量測之反應值,xi為已知的濃度,以(yi,xi)數據群配合最小平方法建立線性迴歸方程式y=a0+a1x。有許多研究論文採用此方式,但是其不合理處如下:
1.
在無濃度(x=0),y值應該為零,因此a0不存在。
2.
使用最小平方法,其假設條件是具有相同變異量。
典型的校正曲線如圖1與2。兩組校正數據之特點是通過原點,而且隨著樣本濃度的增加,數據(yi)的變異也為之增加。對原本數據進行對數ln
(yi)轉換,新的校正曲線其預測曲線如圖3與圖4。圖1與圖3之殘差圖如圖5與6所示。由此呈現線性校正公式的不恰當。
研究人員使用原始數據進行線性方程式計算,往往未曾檢查數據之分佈特性,而認定數據之差異值是常數。以最小平方法計算參數之後,又未使用殘差圖以評估模式是否適用。這是線性迴歸的錯誤。
二、相關係數之濫用
統計軟體之執行結果往往呈現一個r值,代表相關係數。研究者通常認為r值愈大,迴歸方程式愈佳。因此r值接近1.0,幾手是研究人員夢寐以求的數據。而r值之真正意義度反而被忽略。r值與決定係數(coefficient
of determination)R2不同,r值是代表兩個任意變數其相關的強度與方向。
在生化研究中,xi為已知濃度值,不是任意變數,因此以r值判斷迴歸公式是否適切,這是不適當的標準。對迴歸方程式而言,標準偏差s,(standard
deviation of the errors)反而是更好的判別標準。
三、數據的轉換
在許多試驗中,yi對xi之數據佈往往不是直線。許多方程式如langmuir
isotherm, Michaelis-Menten equation都是非線性。過去之研究方法是加以轉換為線性型式再進行迴歸分析。這種轉換技術有兩個錯誤:1.
誤差結構被轉換,因此變異均勻分佈特性不再存在。2.
xi本身應該是無誤差之定值,轉換後反而不存在。
以下列公式加以討論
(1)
x與y為獨立與非獨立變數,α與β為參數。有兩個方法可加以線性轉換
(2)
(3)
以上述三個公式,分別執行非線性與線性迴歸,其數據分佈如圖7。結果如下:
公式 |
|
α值 |
|
α信賴區間 |
|
β |
|
β信賴區間 |
|
|
1.000 |
|
±0.024 |
|
1.000 |
|
±0.106 |
|
|
-0.056 |
|
±1.013 |
|
-0.662 |
|
±11.546 |
|
|
1.014 |
|
±0.516 |
|
1.026 |
|
±0.786 |
由上表可知,非線性方程式如果進行數據轉換後,再以線性迴歸之結果,其參數或許與原本非線性迴歸的參數相差不大。但是其變異數的差異極大。由信賴區間即可得知其預測能力之不足。
將數據轉換,主要的好處是可以以數據分佈圖判別是否可以線性化,但是不可以採用轉換後的數據進行線性迴歸分析。
四、好的結果來自壞數據
感測元件陣列(Sensor
array),或稱電子鼻或電子舌,每年的論文為3000與500篇。論文內容主要使用非選擇性(non-selective)的感測元件製成晶片,量測數據再以化學計量學加以處理。因此宣稱可同時量測多種離子。
這些研究者忽略了使用非選擇性感測元件,對於量測誤差將會強烈的放大。這種放大是來自校正公式中係數的相關性。對一組校正方程式而言,為感測器之反應值,為標準濃度,為校正係數之矩陣,代表誤差
的平均標準差為MSE,由量測誤差之變異數α2加以計算:
MSE()=α2tr()-1
Tr稱為matrix
trace function
各校正方程式之參數Kij計算如下:
Kij = a k0j + (1-a) Rand
(0, 1)
a為相關係數,範圍為0~0.95。
不同數目的感測元件,在不同的相關程度下,對6種待測濃度其計算誤差的放大倍率如下表
感測元件數目 |
相關程度,
a |
0 |
0.5 |
0.9 |
0.95 |
6 |
49 |
329 |
17141 |
76793 |
12 |
9.8 |
39 |
987 |
3958 |
24 |
3.5 |
13.7 |
343 |
1374 |
由上述數據可知,相關程度愈高,誤差的放大愈嚴重。尤其以6元件檢測6種濃度,誤差的擴大更是明顯。唯有增加各元件的數目與加強元件的單一選擇性,才能減少誤差以增加精密性。
圖1.
Phosphatidylethanol
量測之反應高度其原始數據分佈
圖2.
DNA 量測之尖峰面積其原始數據分佈
圖3.
Phosphatidylethanol
量測反應高度對數轉換之數據分佈
圖4.
DNA量測尖峰面積對數轉換之數據分佈
圖5.
Phosphatidylethanol
量測之反應高度與標準濃度以線性迴歸之殘差圖
圖6.
DNA
量測之尖峰面積與標準濃度以線性迴歸之殘差圖
圖7.
langmuir isotherm或
Michaelis-Menten equation之原數據
|