Part 4 : Error in
correlation and Regression Analysis
相關分析與迴歸分析都是用以描述兩個變數或多個變數的關係。常用的分析技術至少有7種。
1.
相關分析(correlation
analysis)
最簡單的相關分析,以Y對X座標將數據分佈顯示於圖形。相關係數由Y對X之分佈數據加以計算。此相關係數之數值為
-1.0~1.0之間。
2.
Pearson’s product-moment correlation coefficient, r
用以評估2組連續變數,且為常態分配的關係
3.
Spearman’s rank correlation coefficient, rho(ρ)
用以評估2組連續變數的相關性,此變數為常態分佈或是可以非常態分佈
4.
Kendall’s rank correlation coefficient, tau(τ)
用以評估2組順序(ordinal)變數之相關性,或是1組順序變數與1組連續變數之相關性
5.
Point biserial correlation coefficient
評估相關性,一組為連續變數(例如年齡),另一組為分類變數。分類變數有二個層次,例如康復,非康復
6.
Point multi serial correlation coefficient
評估相關性,一組為連續變數(例如服用之藥劑量),另一為分類變數。分類變數共分成三層或更多層次,例如疾病的嚴重性為嚴重,中等,輕微
7.
Intra class與Inter
class correlation coefficient
評估被觀察對象的相關性,例如病人的健康程度
生醫研究在相關分析常見的錯誤包括:
No.25. 相關係數的錯誤解釋
對於相關係數常見的錯誤是以此係數推論變數1是由於變數2所加以影響。換言之,兩變數有因果關係。事實上相關係數只是一種描述,描述兩種變數同時變化而不是某變數受到另一變數之影響才因此變化。有時兩變數的高度相關是同時來自第三個變數同時影響。例如兒童鞋子的尺寸與其寫作能力高度相關。但是將一個兒童的鞋子加大其尺寸並無法增加其寫作能力。兩者的高度相關都是受到第三個變數:年齡所影響。
另一個常見的錯誤是忘記解釋此相關係數。相關係數在醫學上並未有臨床醫學的意義,只是一種數學的運算。相關係數的高低程度無絕對意義,由應用者自行判定。例如0至0.3為低,0.3-0.6為中,0.6-1.0為高。因此相關係數0.9,在某些研究為高,對某些研究則太低。
No.26.
以線性迴歸分析進行統計計算,但是未檢定是否為線性
以兩個變數而言,線性迴歸之前提是兩變數彼此有線性關係。此種線性關係必須經由殘差圖檢定。殘差代表觀察值Y與線性公式預測值之差。殘差值對作圖稱為殘差圖。如果殘差值不大,而且沿著Y
= 0之直線兩側均勻分佈,即代表Y與X之關係為線性。如果殘差圖不是沿者Y
= 0之兩側均勻分佈,此線性關係不存在。
No.27. 預測值超過原來數據的範圍
建立Y與X的關係公式之後,以新的X值進行預測分析,此X值不可以超過原來數據的範圍。原來數據範圍以外的Y與X關係,不見得是線性,有可能是向上或向下的曲線。 |