生物化學醫學雜誌統計分析和數據呈現的建議

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

生醫研究之統計方法

生物化學醫學雜誌統計分析和數據呈現的建議

中興大學生物系統工程研究室陳加忠

資料來源:

https://www.biochemia-medica.com/en/journal/22/1/10.11613/BM.2012.003

摘要

本文的目的是根據審稿人和期刊編輯的經驗所強調的實用建議，並參考提交給Biochemia Medica 期刊手稿中一些最常見的錯誤。文章最重要的部分之一是摘要。作者經常忘記摘要有時是讀者閱讀文章的第一部分，也可能是唯一的部分。因此文章摘要內容必須是全面的，並提供您工作的關鍵結果。文章中有問題的部分，也經常被作者忽視的是作為副標題的統計分析。在材料和方法，作者必須解釋在他們的數據分析中使用了哪些統計檢定，以及使用這些統計檢定的基本原理。他們還需要確保所有使用的檢定都列在統計分析部分。並且所有檢定結果確實在研究中使用。在編寫結果部分時，需要牢記幾個關鍵點，例如：結果是否以足夠的精密性和準確度呈現；描述性分析是否合適。如有必要和應用，為所有估計提供的信賴水準，用於分析的統計檢定是否正確。是否為所有檢定等提供 P 值。尤其重要的是，不要對因果關係下任何結論，除非研究是實驗或臨床試驗。使用提議的清單可能會提高提交工作的品質，並加快同行評審和發表過程。

介紹

Biochemia Medica的編輯們不斷地致力於提高期刊上發表的文章品質。這可以幫助作者通過同行評審過程改進他們的稿件來實現。提交給Biochemia Medica 的稿件的主要問題之一是數據分析和數據呈現品質。統計方法的不當使用是不應該的，因為它會導致具有偏見的結果和錯誤的結論。此外這是對時間和金錢的大量浪費。Biochemia Medica 最常見的錯誤在本期刊(1)進行了報導。

為了提高可能發表的稿件的數據分析和報告品質，越來越多的期刊發布了統計指南。並引入了專門負責統計的統計編輯 (2-4)。

本文目的為將其稿件提交給Biochemia Medica 的作者提供實用建議。明確的是，這篇文章絕不是一本綜合性的生物統計學教科書的替代品。我們鼓勵讀者將此文字僅作為提醒，並查閱教科書以更全面地涵蓋本文中提到的問題。

關鍵結果是否包含在摘要中？

文章最重要的部分之一是摘要。作者經常忘記摘要有時是讀者閱讀文章的第一部分，有時也是唯一部分。所有原創文章的摘要必須分為以下四個標題：引言、材料和方法、結果和結論。此外摘要必須是全面的，提供研究的關鍵結果。如果在摘要的材料和方法部分還沒有這樣做，作者當然需要確保讀者了解研究群組的數量和規模。所有估計值都需要提供適當的總結量測、信賴區間和 P 值（如果適用）。對於所有檢定的差異和關聯性，必須提供顯著性水準。

以下是摘要中寫得不好的結果示例：

結果：急性心肌梗塞患者的 New BioMarker™ 濃度高於健康對照組（P < 0.05）。New BioMarker™ 與血清和肽素濃度之間存在顯著相關性。
Results: The concentration of New BioMarker™ in patients with acute myocardial infarction was higher than in healthy controls (P < 0.05). There was a significant correlation of New BioMarker™ with serum copeptine concentrations.

以下是摘要寫得很好的結果例子：

結果：有 250 名急性心肌梗死患者和 232 名健康對照。患者的 New BioMarker™ 濃度高於健康對照（分別為 7.3 ± 0.6 mmol/L和5.4 ± 0.5 mmol/L；P = 0.002）。New BioMarker™ 與血清和肽素濃度相關（r = 0.67，P = 0.026）。

Results: There were 250 patients with acute myocardial infarction and 232 healthy controls. The concentration of New BioMarker™ was higher in patients than in healthy controls (7.3 ± 0.6 mmol/L vs. 5.4 ± 0.5 mmol/L, respectively; P = 0.002). New BioMarker™ was associated with serum copeptine concentration (r = 0.67, P = 0.026).

統計分析部分如何寫得好，準確，而且全面？

經常被作者忽視而有問題的部分是材料和方法部分中的副標題"統計分析。在副標題統計分析，作者需要解釋在他們的數據分析中，使用了哪些統計檢定以及使用這些檢定的理由。必須注意確保：a)材料和方法中統計分析，列出了所有使用的檢定，以及 b) 列出的所有檢定需要確實適用於研究。由這一部分，每個讀者都可以理解在比較結果部分提供的數據，究竟使用了哪個檢定。在統計分析的結束時，作者需要說明在他們的研究中應用的顯著性水準和使用的統計軟體。

在撰寫Statistical analysis部分時，作者需要確保已經解決以下列出的問題：

· 有什麼樣的數據（分類或數字）？

· 如何描述他們的數據？

· 是否檢定了他們的分佈的常態性？需要說明常態性檢定的名稱。

· 如何選擇統計檢定來檢定數據之間可能的差異和關聯？

· 哪個統計檢定用於分析他們的分類數據？

· 這些群組是否足夠大以檢測預期效應？

· 他們的分析中的顯著性水準是什麼？

· 他們使用了哪些統計軟體？必須提供軟體版本和統計軟體製造商的完整資訊。

以下是材料和方法部分統計分析副標題寫得不好的示例：

統計分析數據表示為平平均值 ± 標準偏差。通過 t 檢定檢定差異。皮爾遜相關性用於分析所有研究參數之間的關聯。使用 MedCalc 進行數據分析。
Statistical analysis
Data were presented as mean ± standard deviation. Differences were tested by t-test. Pearson correlation was used to analyze the association between all studied parameters. Data analysis was done using MedCalc.

以下是材料和方法部分，統計分析副標題寫得很好的示例：

統計分析使用Kolmogorov-Smirnov 檢定以評估所研究參數分佈的常態性。研究中的所有參數均呈常態分佈。數據表示為平平均值±標準偏差。通過雙尾 t 檢定檢定差異。皮爾遜相關性用於分析所有研究參數之間的關聯。P < 0.05 的值被認為具有統計學意義。使用 MedCalc 12.1.4.0 統計軟體（MedCalc Software，Mariakerke，比利時）進行統計分析。
The Kolmogorov-Smirnov test was used to assess the normality of distribution of investigated parameters. All parameters in our study were distributed normally. Data were expressed as mean ± standard deviation. Differences were tested by two-tailed t-test. Pearson’s correlation was used to analyze the association between all studied parameters. The values P < 0.05 were considered statistically significant. Statistical analysis was done using MedCalc 12.1.4.0 statistical software (MedCalc Software, Mariakerke, Belgium).

編寫結果部分時要記住的要點

在投稿之前應仔細檢查下一部分，以檢測數據分析和表現中是否存在任何可能的缺陷和錯誤。

在結果報告時，作者需要確保：

· 描述性分析是恰當的；

· 是否以足夠的精確度和準確度呈現了他們的結果；

· 如果必要和可用性，為所有估計值提供了信賴水準；

· 在分析中使用了正確的統計檢定；

· 圖表和表格內容豐富；

· 為工作中完成的所有檢定提供了 P 值；

· 除非研究是實驗或臨床試驗，否則不會對因果關係做出任何結論。

不幸的是，投稿稿件情況並非總是如此。作者經常無法通過使用適當的總結措施以足夠的精確度描述他們的數據。很多時候，文稿中並不清楚是否滿足檢定的假設以及是否在數據分析中使用了適當的檢定。文稿的這部分至關重要，需要非常注意和細心地編寫。為了幫助我們的讀者避免以下所有可能的錯誤，我們總結了他們在撰寫手稿的結果部分時需要牢記的一些關鍵點。

一、描述性分析是否充分？

在描述數值數據時，必須適當的表示集中趨勢和離散度量。在呈現數據之前，需要檢定分佈的常態性。一般而言，如果數據呈常態分佈且樣本數≥ 30，則可以使用參數總結度量（平均值和標準差）。但是，如果樣本數較小 (N < 30) 或數據不是常態分佈的，建議作者使用中位數和四分位距 (IQR)，第一個 (Q1) 到第三個四分位數 (Q3) 或其他一些例如範圍的度量。對於樣本大小的截止數目沒有統一的意見。但是根據 Dawson 和 Trapp 的說法，每組 30 名以下的樣本被認為是小樣本，需要使用非參數統計 (5)。

由於 SEM（平均值的標準差）不是分散的度量，因此在總結和描述數據時不允許使用它。使用 SEM 代替標準偏差是投稿給生物醫學期刊的手稿件中最常見的十個錯誤之一 (6)。

最近在此期刊的“生物統計學課程”部分(7) 和其他論文 (8) 中發表了對結論和解釋數值數據方法的更廣泛評論。

二、結果是否以足夠的精確度和準確度呈現？

黃金法則是以與量測獲得的原始數據相對應的精確度呈現數據。例如在報告某個研究期間的吸煙數量時，將捲煙數量表述為：10.21±3.16 是完全沒有必要而且是錯誤的。因為報告的精確度與量測的精確度不對應。香煙的數量是通過計數來量測的。所以觀察到的香煙數量應該是整數，沒有任何小數：例如10±3。

表 1a 中提供了觀察數據有缺陷的示例。

Table 1a. The example for erroneously presented results for observations in two groups (groups A and B).

表 1a 中數據的問題在於所有三個參數的精確度都不正確。這與量測這些數據所需要的精確度不符：

· 年齡通常用年表示。如果絕對必要，只允許一位小數。只有在研究兒童時，以月甚至日為單位提供年齡才有意義。此外，年齡報導為中位數和範圍（最小值-最大值）。因此，與其說平均年齡為 55.905 ± 2.112 歲，不如說平均年齡為 56 (51-60) 歲。

· 所有實驗室參數的平均值和離散度（標準偏差）其量測值需要以與實驗室檢定報告中，報告通常的結果一樣多的小數表示。因此用三位小數表示 WBC 數據是不合適的，因為這個參數通常只用一位小數來量測和報告。因此作者不應聲明 A 組中的 WBC 值為 13.177 (6.837-15.272) x 10 ⁹/L，而應報告 WBC 為 13.2 (6.8-15.3) x 10 ⁹/L。

· 由於兩組受試者人數較少，需要提供兩組女性的比例為觀察數，除以組內受試者總數（6/11 和 8/14 而不是54.5% 和 57.1%）。

下面列出了報告頻率的一般規則：

· 如果組中的受試者數量 < 100，則不建議使用百分比。相反，應使用比率（例如0.67 而不是 67%）。

· 百分比應以整數表示，且不帶小數。例外情況是百分比 < 10%，其中允許一位小數。而且僅在必要和適用時（例如，如果百分比為 0.3%）。

· 對於小樣本 (N < 30)，不建議使用百分比和比率。當他們的樣本數較小時，建議作者以觀察數除以組內受試者總數（例如，3/11，而不是 27%）來呈現他們的數據。

表 1b 提供了呈現數據的正確方法。

Table 1b. The example for correctly presented results for observations in two groups (groups A and B).

表 1b。正確呈現兩組（A 組和 B 組）觀察結果的示例。

在必要和應用時，作者需要確保為他們的所有估計值提供信賴水準和 P 值。在呈現診斷準確性、優勢比、相對風險、迴歸分析結果等估計值時，這一點尤其重要。在表 2a 和 2b 中，我們列出了一些最常見的示例。用於說明使用錯誤和正確的估計值。

表 2a。有缺點的結果呈現示例。

Table 2a. Examples for flawed presentation of results.

表 2b。正確呈現結果的示例。

Table 2b. Examples for correct presentation of results.

信賴區間之所以重要，是因為它們顯示了相應估計值的精確度。如果信賴區間太寬，這代表著估計的精確度很小。信賴區間可用於評估兩個估計值之間的差異。例如如果希望比較兩個參數其兩個曲線下面積 (AUC)，則需要檢查它們的信賴區間是否重疊。如果這兩個信賴區間重疊，則可以得出結論，在相對於信賴區間的相應顯著性水準上，這兩個參數的 AUC 沒有統計顯著差異。關於信賴區間的使用和解釋的更廣泛評論已經發表於生物統計學課程部分(9)。

示例：
假設我們希望比較參數 A 和 B 的 AUC。它們的 AUC 和相應的 95% 信賴區間為 0.78 (0.63-0.89) 和 0.99 (0.80-0.99)。問題是：參數 A 和 B 的 AUC 是否存在統計上的顯著差異？由於它們的 95% 信賴區間重疊（從 0.80 到 0.89），我們可以得出結論，對於顯著性水準 alpha = 0.05，這兩個參數在統計上沒有顯著差異。

AUC 的報告總是保留兩位小數，以及其 95% 信賴區間的上限和下限。

三、分析中是否使用了正確的統計檢定？

統計檢定的選擇，取決於數據的類型和量測方式。在選擇檢定之前，需要檢查幾個假設：

1.數據是否常態分佈？

2.數據是數字的還是分類的？

3.作者有多少組組？

4.研究的群體有多大？

5.量測是獨立的嗎？

研究人員根據對上述問題的回答來選擇統計檢定。常見錯誤是：1.作者在應用統計檢定之前，沒有對這些假設進行檢定；2.他們未能描述檢定的選擇方式；3.讀者根本不了解關於用於分析研究數據的檢定。

如果數據不是常態分佈和/或樣本數很小（N < 30），則應使用非參數檢定。

Tom Lang 審查了生物醫學研究文章中出現的 20 個最常見的統計錯誤，並提供了統計報告指南，以供缺乏統計分析知識的作者、編輯和審稿人遵循 (6)。下面列出了投稿至Biochemia Medica 的稿件中最常見的一些錯誤：

1.未檢定常態性。在不了解數據分佈或不考慮樣本大小的情況下使用統計檢定。

2.，儘管觀察植有相關。不使用配對統計檢定例如在重複量測。

3.即使 2x2 表中的觀察總數或預期頻率數目較少，也使用卡方檢定。

4.即使使用序數尺度量測一個變數，或數據分佈顯著偏離常態分佈，也仍然計算 Pearson 相關係數。

5.三組或更多組之間的差異使用 t 檢定進行檢定，而不是使用變方分析或 Kruskal-Walis 檢定這樣的檢定。

如果有三個或更多組，作者應使用變方分析或其非參數模擬。當使用檢定三組或更多組之間的差異，要使用ANOVA 或 Kruskal-Walis 檢定來檢定數據。作者需要確保為 ANOVA 以及事後比較提供 P 值。

以P值代表ANOVA 或 Kruskal-Walis 檢定的組間差異顯著時，作者才可以進行多重比較的事後檢定。如果 P > 0.05，不進行事後檢定。

此外，還需要說明的是用於事後比較的檢定名稱。因為不同的檢定有不同的用途以及優缺點（10）。

作者需要確保他們工作中使用的所有檢定都滿足其使用的假設，並且需要在統計分析和結果部分提供此資訊。

四、是否為研究中進行的所有檢定提供了 P 值？

P 值需要表示為精確的三位小數（即 P = 0.027）。不鼓勵使用 NS、P > 0.05、P < 0.05 和 P = 0.0000 等表達式。P 應以大寫字母提供且不應為斜體。P < 0.001 是報告的最小 P 值。除了一些研究大樣本和罕見事件的研究，為 P值提供超過 3 位小數是沒有意義的 (12)。

五、數據解讀

即使使用正確的統計檢定來分析數據，作者在解釋他們的結果時，仍然會出現錯誤。在解釋數據和結果時，作者需要考慮先驗聲明的顯著性水準。這代表著只有當 P 值低於規定的顯著性水準時，差異才可能被解釋為顯著。期刊強烈反對並不會接受諸如“邊界重要”之類的表達方式。

不鼓勵的陳述如下：

1.我們已經觀察到我們研究組之間的差異，儘管沒有統計學意義。

2.儘管沒有統計學意義，但女性的葡萄糖濃度高於男性。

3.隨著標記物 Y 濃度的增加，標記物 X 的值有更高的趨勢。然而觀察到的關聯在統計上並不顯著。

如果未觀察到統計顯著性，則不應將數據報告和討論作為顯著性。此外無論多麼明顯，除非作者已經檢定了其統計顯著性，否則不應討論其有否差異。不幸的是，當討論兩種或多種診斷準確性（AUC、敏感性和特異性）、相關係數和優勢比之間的差異時，經常會發生這種情況。

六、相關分析

對相關分析結果的解釋經常是錯誤的。在解釋相關分析的結果時，首先需要探討相關係數的顯著性水準。只有在顯著水準時才可以解釋相關係數。如果獲得的 P 值 > 0.05（或高於預定的顯著性水準），則相關係數不顯著，不應該解釋。

在解釋相關係數的值時，作者應遵循普遍接受的 Colton (1974) (5) 分類。如果 r < 0.25，即使 P 值非常低，數據之間也沒有相關性。在生物化學醫學（13）Udovicic M等人回顧了相關分析的使用和解釋。

七、因果關係的結論

當量測參數之間存在關聯時，作者通常傾向於對其觀察的因果關係做出結論。這是強烈不鼓勵的行為。關聯的存在並不能證明數據的因果關係。例如，較高的體重指數 (BMI) 與血清 C 反應蛋白 (CRP) 水準升高兩者的關聯並不能證明 CRP 會導致 BMI 增加，也不能證明 BMI 增加會導致 CRP 增加。這僅代表著 BMI 較高的人往往具有較高的 CRP 濃度。

只有當研究是實驗或臨床試驗時，作者才可以對數據的因果關係下結論。由於投稿給期刊的大多數研究都是觀察性的。即研究人員僅觀察感興趣變數的差異和關聯，而沒有研究者對研究母群進行任何干預。因此報告量測參數的任何影響或歸納是不可接受的. 此外如果研究是觀察性，並且涉及隨著時間的推移監測某些參數，則報告監測參數的增加和減少是合理的。否則像增加和減少這樣的表達是不可接受，鼓勵作者使用較高和較低的表達。

下面列出了幾個不正確陳述的例子，所有觀察性研究（不涉及隨著時間的推移監測感興趣的參數）強烈反對這些陳述。每個不正確的陳述後面都有一個修正的、正確表達的建議。

與對照組相比，血液透析患者的 ox-LDL 水準顯著升高（P = 0.001）。

Incorrect: Compared with the control group, ox-LDL levels were significantly increased in patients on hemodialysis (P = 0.001).
Correct: Compared with the control group, ox-LDL levels were significantly higher in patients on hemodialysis (P = 0.001).

我們發現與年齡和性別匹配的對照組相比，哮喘兒童血液中的 GPx 水準顯著降低（分別為 13.61 ± 5.73和15.22 ± 6.75；P = 0.036）。

Incorrect: We found a significantly decreased level of GPx in blood of asthmatic children as compared to age and sex matched controls (13.61 ± 5.73 vs. 15.22 ± 6.75, respectively; P = 0.036).
Correct: We found a significantly lower level of GPx in blood of asthmatic children as compared to age and sex matched controls (13.61 ± 5.73 vs. 15.22 ± 6.75, respectively; P = 0.036).

我們觀察到，與患者相比，健康對照組攜帶 AA 基因型顯著增加（OR 2.5，95% Ci = 1.7-3.9；P = 0.012，）。
Incorrect: We observed that carrying AA genotype is significantly increased in healthy controls compared to patients (OR 2.5, 95% Ci = 1.7-3.9; P = 0.012,).
Correct: We observed that frequency of AA genotype is significantly higher in healthy controls compared to patients (OR 2.5, 95% Ci = 1.7-3.9; P=0.012).

與健康對照相比，阻塞性睡眠呼吸暫停導致 hsCRP 濃度增加（P = 0.045）。
Incorrect: Obstructive sleep apnea induced the increase in concentrations of hsCRP compared to healthy controls (P = 0.045).
Correct: Concentrations of hsCRP were higher in children with obstructive sleep apnea, compared to healthy controls (P=0.045).

邏輯迴歸確定血清和肽素（OR 3.1；95% Ci = 1.7-12.4；P = 0.043）作為創傷性腦損傷患者 1 個月死亡率的獨立預測因子。因此，我們得出結論，和肽素會導致創傷性腦損傷後的死亡。
Incorrect: Logistic regression identified serum copeptin (OR 3.1; 95% Ci = 1.7-12.4; P = 0.043) as an independent predictor of 1-month mortality of patients suffering from traumatic brain injury. We therefore conclude that copeptin induces mortality after traumatic brain injury.
Correct: Logistic regression identified serum copeptin (OR 3.1; 95% Ci = 1.7-12.4; P = 0.043) as an independent predictor of 1-month mortality of patients suffering from traumatic brain injury. We therefore conclude that increased serum copeptin concentrations are associated with higher risk of mortality after traumatic brain injury.

清單

為所有希望將其稿件投稿給Biochemia Medica 的未來作者提供簡短清單（表 3）。強烈鼓勵作者在投稿他們的工作以在我們的期刊上發表之前檢查清單中的項目。檢查表的目的是提醒作者注意與他們的數據分析和展示相關的一些最重要的問題。廣泛的用於編輯和審查生物醫學研究論文中的統計和流行病學方法的清單已在本期刊上發表，目的在協助統計審查人員和編輯以及作者計劃研究和準備手稿 (14)。

表 3. 向 Biochemia Medica 提交作品的作者清單。

Table 3. Checklist for authors who submit their work to Biochemia Medica.

結論

鼓勵作者瀏覽本期刊的一些舊刊，已全面地報導一些特定的統計術語和相關問題。這篇文章的目的是提供一個，一般和基本的指導，並提醒作者在撰寫文章時需要記住的一些重要關鍵因素。邀請所有未來的作者在將他們的稿件提交給期刊之前閱讀本文並完成清單。這將提高提交作品的品質，並加快已發表文章的同行評審和發表過程。