統計分析與報導 - 審查過程常見錯誤與如何避免

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

生醫研究之統計方法

統計分析與報導 - 審查過程常見錯誤與如何避免

中興大學生物系統工程研究室陳加忠

Title: Statistical analysis and reporting: common errors found during peer review and how to avail them.

Author: Gillian Worthy

Swiss Medical Weekly, 2015, 145: w14076

與統計相關的一篇醫學研究，其論文內容建議如下：

一、摘要(summary)

在摘要內所報導的結果要與文中內容一致。在論文本文內部未出現之結果，不能在摘要中出現。

二、簡介(Introduction)

對研究目的要求清楚表達。常見的問題是研究目的並不清楚，或是與論文中〞結果與討論〞之內容並不一致。可使用PJCOS架構作為指引：。

P：評估研究之母群(population under evaluation)

I：評估的干預措施(intervention being assessed)

C：比較對象(comparators)

O：結果(outcomes)

S：研究設計(study design)

確認此研究之原創性，而不是只有重覆原先別人之研究。

三、材料與方法

1.儘量報導進行評估之各種統計假設。如果未有預先假設分析，結果要加以清楚解釋避免收集一堆無用的數據。

2.結果：準備一份獨立的章節用以討論研究結果。如何量測，何時量測，由那些人進行量測。如果有相關性，區隔成主要與次要結果。所有結果都要列出，避免只列舉有顯著差異，或是有利之結果。

3.試驗對象包括人數，年齡，性別等，不要只有留待〞結果〞章節再說明這些樣本條件。

(一) 統計方法

詳細的統計檢定與模型需要報導。其詳細性要使讀者可以清楚說明。所有統計方法都要報導，包括結果分析與比較的對象。以生命品質數據為例，必須包括平均值及標準偏差。以Logistic regression方法必需報導勝算比(Odds ratio)與其95%信賴區間。

所有列舉的研究方法必須與〞結果〞章節相互符合。統計檢定的次數要儘量降到最低，要避免多重統計檢定(multiple statistical tests)。

(二) 選擇適當的統計分析方法

應用於不同數據與不同數目族群的統計方法如表一。要進行任何統計分析，要先歸納數據。針對統計檢定的假設條件進行檢查。

1.描述性統計

對常態分配性數據，列舉平均值與標準偏差，非常態分配數據列出中數與1/4及3/4範圍。

2.參數與非參數統計

不可只列出"Non-parametric data are presented as median and range"。如果數據非常態分佈，可加以轉換(例如對數化，logarithms)。如果無法轉換，使用非參數統計。

3.相關與迴歸

相關代表兩個數值化變數其線性相關程度，而不代表其因果關係。相關分析必須配合散佈圖(scatter plots)，因此可判別其趨勢，並且檢查是否有離群組(outliers)。有不同的相關性計算方法，Pearson法(X與Y至少有一變數為常態分佈)與Spearman法(兩變數皆非參數數據)。

表一. 選用適用的統計方法

族群數目	連續性(數值型)數據	類別型數據
1	t檢定	單一比例值檢定(由比例估計值與標準偏差)
1	符號檢定(非參數檢定)	符號檢定(非參數檢定)
2	1.雙樣本t檢定 2.Wilcoxon rank sum/Mam-Whitney U test (非參數) 3.成雙t檢定(成對數據) (非參數成雙數據) 4.Wilocoxon signed rank test 5.線性或多重線性迴歸	1.卡方檢定，Fishers exact test (n ﹤5) 2.McNemar’s test (成雙數據) 3.Mantel-Haenszel 卡方檢定 (風險比數據，odds ratios) 4.Logistic regression
3或更多	1.ANOVA 2.Kruskal – Wallis (非參數) 3.線性或多重迴歸	1.卡方檢定 2.趨勢(trend)卡方檢定(ordered categories) 3.Logistic regression

4.將連續性變數加以類別化

一定要加以避免，否則其檢定力將降低。連續性變數一定要維持其數值，尤其用以進行迴歸分析。

5.成對或團簇(clustered)數據

如果對一個對象進行兩種量測，此稱為成對數據。團簇數據包括在不同時間下之重覆量測，其特殊處理技術包括特別數據歸納量(平均mean，change from Vaseline to a specified time, the maximum value the area under the curve over the whole time period)，repeated迴歸或更複雜之迴歸模型(multilevel models, generalized estimating equations)。

6.多變數迴歸(Multivariawe regression)

在投稿論文內容，很少使用多重迴歸。但是審稿者往往建議作者採用此種統計技術。在進行研究，以血壓為例，可以採用10個樣本。但是要建立血壓與年齡性別與基本壓之相關方程式，進行試驗至少要有30個人。

連續性數據使用線性迴歸，計數或比例使用Poisson迴歸，類比性結果使用Logistic迴歸。不同時間變性之結果，採用Cox proportional hazards 迴歸，或parametric survial model。

7.存活性分析

存活曲線必須劃出，因此不同處理的存活性，以log-rank或Wilcoxcon檢定統計技術，包括Cox proportional hazards model, Weibull parametric model等。

8.診斷性檢定

對雙向結果(疾病或無病)，以2×2表格表示結果。對敏感性量測(measures of sensitivity)，其正或負預測值可計算95%信賴區間。對一連續性檢定分數可採用ROC曲線，並且計算曲線面積之95%信賴區間。

四、分析方法之報導

各種不同的分析方法，要對變數清楚的分析。含混的狀態如同"data were analysed with the chi-squared test, t-test and regression"對論文內容無所幫助。

1.樣本數目需要計算與報導

需要具有第1型錯誤機率(, 0.05)，第2型錯誤機率(，80%或90%)，最低或最小的相應差異，以及以前研究之差異性。

2.如果未能計算樣本，也要加以報導說明，例如：

"No formal sample size calculation was performed but all available patients in two centres were included in the study", 或是"This was a pilot study and a sample size calculation was not relevant"。

3.對分析假設條件的檢查方法，要詳細報導。例如常態分佈檢查，族群之間變異數是否常數，2個變數之間其相關性或迴歸分析。任何數據轉換需要說明。

4.統計分析盡可能附圖表示。例如相關性的散佈圖，時間對事件分析的存活曲線，連續性重要變數的boxplots，平均值與95%信賴，診斷檢定的ROC曲線縣meta-analyes的forest圖。

5.進行多變方分析時，對使用模式要詳細描述。包括模式之型式(multiple linear, logistic, cox proportional hazards)，分析的結果(Outcome being analyzed)，模式參數之選判方法(forward backwards, stepwise)與變數刪除之p值。

6.對多重假設檢定要加以調整。例如以Bonferroni 校正值或使用更少的p值 (以0.001取代0.05)。儘量降低多重比較假設的數目。

7.使用不常使用或是特別複雜的統計方法，在論文內要特別引用文獻。

五、結果

所有分析的結果必須都加以報導，不可以只報導統計的顯著性。如果在主要論文內不需要如許多報導，其他結果必須以圖，以表或是以附錄表示。

1. 研究對象的起始與結束時間，參加的人數與分析的數目。

2. 有效大小包括mean differences，odds rations，hazard ratios等包括95%信賴區間，其他統計量包括相關係數，曲線下方面積等，其95%信賴區間都必須報導。

3. 要區別SE與SD之不同，標準差與標準偏差。

4. 對於存活分析之報導，包括存活時間之中數與其95%信賴區間，檢定之p值。如果使用hazard ratio，也要報導95%信賴區間。

5. P值之數值為小數點2與3位數。p值非常小，小於0.001，以"p﹤0.001"代替"*"或"**"，不可直接使用"NS"，">0.05"。

6. 迴歸分析之結果要報導如何評估其適合性，"goodness of fit"。

六、表與圖

1.對描述型統計量要求以表格列舉如下數值：mean, standard deviation, median, inter-quartile rang, number, percentage。

2.以表格或附註說明表達之統計量，例如以34(2.8)代表平均值與標準差。

3.以表格報導每一研究族群之人數與其相關資料。

4.迴歸模式之結果盡量以表格報導，例如迴歸係數，SE，effect size，95%CI，SE，p等。

5.所有圖其座標要加上單位，所有符號都要標誌說明。

6.圖不要太複雜，不要將太多族群結果放在同一圖形。

七、討論

1.只有討論在"結果"此章節已報導之結果。

2.不要重複表現樣本有效大小與信賴區間。

3.以統計顯著性與臨床顯著性檢查所有研究結果。

(附記) Swiss Medical Weekly 期刊對此主題有ㄧ些精彩評論(review)，附錄如下：

1. Young J. When should you use statistics? Swiss Med Wkly. 2005;135:337–338.

2. Young J. Statistical errors in medical research – a chronic disease? Swiss Med Wkly. 2007;137:41–43.

3. Strasak AM, et al. Statistical errors in medical research – a review of common pitfalls. Swiss Med Wkly. 2007;137:44–49.