生醫研究之統計方法

這篇文章是來自M. Badertscher與E. Pretsch兩位作者的評論論文 ”Bad results from good data”，發表於Trends in Analytical Chemistry , 25(11):1131-1138, 2006。文章中以實例說明分析化學研究者在數據整理最常見的錯誤。

在分析化學中為了建立校正方程式，y_i為量測之反應值，x_i為已知的濃度，以（y_i,x_i）數據群配合最小平方法建立線性迴歸方程式y=a₀+a₁x。有許多研究論文採用此方式，但是其不合理處如下：

典型的校正曲線如圖1與2。兩組校正數據之特點是通過原點，而且隨著樣本濃度的增加，數據（y_i）的變異也為之增加。對原本數據進行對數l_n (y_i）轉換，新的校正曲線其預測曲線如圖3與圖4。圖1與圖3之殘差圖如圖5與6所示。由此呈現線性校正公式的不恰當。

研究人員使用原始數據進行線性方程式計算，往往未曾檢查數據之分佈特性，而認定數據之差異值是常數。以最小平方法計算參數之後，又未使用殘差圖以評估模式是否適用。這是線性迴歸的錯誤。

統計軟體之執行結果往往呈現一個r值，代表相關係數。研究者通常認為r值愈大，迴歸方程式愈佳。因此r值接近1.0，幾手是研究人員夢寐以求的數據。而r值之真正意義度反而被忽略。r值與決定係數（coefficient of determination）R²不同，r值是代表兩個任意變數其相關的強度與方向。

在生化研究中，x_i為已知濃度值，不是任意變數，因此以r值判斷迴歸公式是否適切，這是不適當的標準。對迴歸方程式而言，標準偏差s，（standard deviation of the errors）反而是更好的判別標準。

在許多試驗中，y_i對x_i之數據佈往往不是直線。許多方程式如langmuir isotherm, Michaelis-Menten equation都是非線性。過去之研究方法是加以轉換為線性型式再進行迴歸分析。這種轉換技術有兩個錯誤：1. 誤差結構被轉換，因此變異均勻分佈特性不再存在。2. x_i本身應該是無誤差之定值，轉換後反而不存在。

x與y為獨立與非獨立變數，α與β為參數。有兩個方法可加以線性轉換

以上述三個公式，分別執行非線性與線性迴歸，其數據分佈如圖7。結果如下：

公式	α值	α信賴區間	β	β信賴區間
	1.000	±0.024	1.000	±0.106
	-0.056	±1.013	-0.662	±11.546
	1.014	±0.516	1.026	±0.786

由上表可知，非線性方程式如果進行數據轉換後，再以線性迴歸之結果，其參數或許與原本非線性迴歸的參數相差不大。但是其變異數的差異極大。由信賴區間即可得知其預測能力之不足。

將數據轉換，主要的好處是可以以數據分佈圖判別是否可以線性化，但是不可以採用轉換後的數據進行線性迴歸分析。

四、好的結果來自壞數據

感測元件陣列（Sensor array），或稱電子鼻或電子舌，每年的論文為3000與500篇。論文內容主要使用非選擇性（non-selective）的感測元件製成晶片，量測數據再以化學計量學加以處理。因此宣稱可同時量測多種離子。

這些研究者忽略了使用非選擇性感測元件，對於量測誤差將會強烈的放大。這種放大是來自校正公式中係數的相關性。對一組校正方程式而言，為感測器之反應值，為標準濃度，為校正係數之矩陣，代表誤差

的平均標準差為MSE，由量測誤差之變異數α²加以計算：

MSE（）=α²tr（）^-1

Tr稱為matrix trace function

各校正方程式之參數K_ij計算如下：

K_ij = a k_0j + (1-a) Rand (0, 1)

a為相關係數，範圍為0~0.95。

不同數目的感測元件，在不同的相關程度下，對6種待測濃度其計算誤差的放大倍率如下表

感測元件數目	相關程度, a
	0	0.5		0.9	0.95
6	49		329	17141		76793

12	9.8	39	987	3958
24	3.5	13.7	343	1374

由上述數據可知，相關程度愈高，誤差的放大愈嚴重。尤其以6元件檢測6種濃度，誤差的擴大更是明顯。唯有增加各元件的數目與加強元件的單一選擇性，才能減少誤差以增加精密性。

圖1. Phosphatidylethanol 量測之反應高度其原始數據分佈

圖2. DNA 量測之尖峰面積其原始數據分佈

圖3. Phosphatidylethanol 量測反應高度對數轉換之數據分佈

圖4. DNA量測尖峰面積對數轉換之數據分佈

圖5. Phosphatidylethanol 量測之反應高度與標準濃度以線性迴歸之殘差圖

圖6. DNA 量測之尖峰面積與標準濃度以線性迴歸之殘差圖

圖7. langmuir isotherm或 Michaelis-Menten equation之原數據