在研究中描述統計分析的透明度考慮

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

生醫研究之統計方法

在研究中描述統計分析的透明度考慮

中興大學生物系統工程研究室陳加忠

資料來源:

Sang Kyu Kwak¹, Jonghae Kim²

1.Departments of Medical Statistics, Anesthesiology and Pain Medicine, Daegu Catholic

2.University School of Medicine, Daegu, Korea

Korean J Anesthesiol 2021;74(6):488-495

https://doi.org/10.4097/kja.21203

pISSN 2005–6419 • eISSN 2005–7563

摘要

對收集的數據使用統計分析結果，以得出結論的研究人員必須在他們的手稿中寫下統計分析部分。準確詳細地描述統計分析，與介紹藥物劑量和干預方法一樣重要。它還對科學研究的科學準確性和透明度至關重要。我們評估了發表在韓國麻醉學雜誌上的臨床研究文章有關統計分析部分的品質。範圍有 2020 年 2 月至 2021 年 2 月之間。使用李克特量表(Likert scale)，其中 1、2 和 3 分別代表“完全沒有描述”、“部分描述”和“完全描述”，以評估了以下 6 個項目：1）說明使用的統計分析方法，2) 使用的統計分析方法的基本原理和詳細描述，3) 從統計分析得出的參數，4) 使用的統計軟體包的類型和版本，5) 顯著性水準，以及 6) 邊向性(sideness)測試（單邊與兩邊）。前3項，用以評估所使用的統計分析方法直接相關的問題，後 3 項是間接相關的項目。在所有納入的文章中，都說明了所使用的統計分析方法（3分）。然而只有 4 篇文章 (12.9%) 充分描述了測試的邊面性（3 分）。作者傾向於不在臨床研究文章的方法論部分，描述統計分析測試的邊面性。必須在研究中描述片面性。

介紹

根據呈現的數據類型和研究假設，可以使用多種統計方法來分析臨床數據。特別是一些期刊要求作者不僅要對進行統計分析保持警覺，還要對為他們的研究提供原始數據保持警惕。因此有必要清楚具體地描述所使用的統計分析方法。它們是如何使用的，以及從統計分析方法中得出的參數。因此研究人員必須在研究提案、結果報告、論文或文章的研究方法部分，詳細描述統計分析。通過閱讀研究方法部分中描述的統計分析，讀者應該能夠了解研究中使用了哪些統計分析方法、使用它們的原因以及作為結果呈現的參數。使用的統計分析軟體、預設的顯著性水準和測試的邊面性（兩邊或單邊）也應該很容易被讀者確定。如果提供原始數據，讀者應該能夠重現研究的統計分析。因此，統計分析部分應包括以下內容：1) 所使用的統計分析方法的說明，2) 這些統計分析方法的基本原理和詳細描述，3) 統計分析方法產生的統計參數，4) 使用的統計軟體包的版本和版本，5) 顯著性水準，以及 6) 統計檢驗的邊面性（單邊對兩邊）。

本研究使用上述 6 個項目對 2020 年 2 月至 2021 年 2 月，發表在韓國麻醉學雜誌(KJA) 上的 31 篇臨床研究論文的統計分析部分進行了評估。通過這個過程，提出了提高研究透明度以建立科學證據的實用方法。

材料和方法

本研究對 2020 年 2 月至 2021 年 2 月，在 KJA 發表的臨床研究論文的統計分析部分進行了評估。樣本量計算並未評估。期刊的社論、評論文章、統計回合文章、案例報告、給編輯的信和更正，所有這些部分都不包括統計分析，因此都被排除在此篇分析之外。此外未評估實驗研究的統計分析部分。

一、與統計分析直接相關的評價項目

1.說明所使用的統計分析方法

統計分析用於計算檢驗統計量，根據所用統計分析方法對應的概率分佈估計的顯著性概率（概率值），以檢驗一項研究的假設。檢驗統計量的概率分佈有多種，包括t分佈、F分佈和卡方分佈。例如如果檢驗統計量的分佈是t分佈，則統計分析方法稱為t檢驗。但是各種統計分析方法都使用t分佈此名稱，實際上有不同單樣本t檢驗、獨立雙樣本 t 檢驗和配對 t 檢驗。因此所使用的統計分析方法的名稱應具體準確地呈現。

2.所用統計分析方法的基本原理和詳細說明

雖然統計分析方法的一般描述在相關書籍中很容易找到。但是找到與研究設計和假設一致的最佳統計分析方法是另一個問題。因此應在統計分析部分清楚地描述使用統計分析方法的基本原理。如果用 t 檢驗來評估由 2 個獨立組之間的平均差計算得出的 t 統計量的概率。研究人員可以簡單地說，t 檢驗是用來評估2組之間定量數據平均差的統計顯著性。

然而，一些複雜的統計分析方法需要幾個步驟，需要考慮各種因素。例如，在進行多元線性迴歸或多元邏輯迴歸分析時，應指定選擇方法。如果進行主成分分析，因子旋轉(factor rotation)方法要明確。此外為了全面準確地描述傾向得分匹配，必須說明調整方法、卡尺值和配對比例。因此統計分析部分應詳細描述，所使用的統計分析方法的基本原理和採取的步驟。

3.來自統計分析方法的參數

為了檢驗一項研究的假設，統計數據是通過統計分析方法來估計。統計數據用作數據分析的結果，並確定假設是否正確。例如如果使用 t 檢驗來檢驗兩個獨立組之間的平均值是否存在顯著差異，則應該呈現每組的平均值和標準差以及決定平均值差異顯著性的概率值。應提供兩組之間的平均差異和合併標準差。如果進行邏輯迴歸分析，可以呈現以下參數：每個變數與其 95% CI 的比值比，和確定比值比在統計上是否不同於 1 的概率值，即比值比是否為重要。因此，需要詳細介紹從統計分析方法得出並用作研究結果的參數。

二.與統計分析方法間接相關的評價項目

1.用的統計軟體包類型和版本

各種統計軟體包可供選擇，如IBM SPSS統計（www.ibm.com/products/spss-statistics），R（www.r-project.org），SAS（www.sas.com）時，Minitab（WWW。 minitab.com）的MedCalc（www.medcalc.org），NCSS（www.ncss.com/software）和Excel（www.microsoft.com/en-us/microsoft-365/excel）。

隨著，這些軟體包的版本更新新功能的添加或舊功能升級。因為他們有不同的生產廠家，用於統計分析的演算法或方法可能會有所不同。也就是說，通過不同的統計軟體進行通用數據的常用的統計分析，產生的結果可以是彼此不同。因此，對於軟體和用於統計分析的版本資訊應明確統計分析部分說明。

2.顯著性水準

必須包括統計假設檢驗的顯著性水準，因為是直接從中得出結論的。顯著性水準是 I 類錯誤（即使原假設正確而拒絕原假設的錯誤）可容忍的最大概率。在統計假設檢驗中，將計算出的概率值與研究人員設定的顯著性水準進行比較，以確定是否可以拒絕原假設。在本研究分析的所有 31 篇文章中，顯著性水準設置為 0.05 (5%)。如果將顯著性水準設置為相對較高的值，例如 20% 或 30%，而不是 5%，則研究結果可能不可靠。因此顯著性水準一般設置為不高於 5%。有時顯著性水準設置為 1%。這並不代表著將顯著性水準設置為 10% 是不正確的。作者應該明確說明為何顯著性水準設置為 10%。因此顯著性水準應在統計分析部分中明確呈現。

3.測試的邊面性（單邊與兩邊）

統計假設檢驗建立原假設和替代假設，用於通過一系列過程確定是否拒絕原假設。為了在制定選擇假設時表示不平等。如果檢驗是雙邊的，則應使用符號“≠”，如果檢驗是單方面的，則應使用“>”或“<”。例如，如果使用雙邊 t 檢驗來確定兩個獨立組（A 和 B）之間的平均值差異是否顯著，則原假設 ( H₀) 和備擇假設 ( H_a) 如下：

(1) H₀ : μA = μB vs. Ha : μA ≠ μB

其中μ A是A組的總體平均值，μ B是B組的總體平均值。

如果使用單邊 t 檢驗來檢驗 2 個獨立組之一的平均值是否顯著大於或小於另一個，則H₀和H_a顯示如下：

(2) H₀ : μA = μB vs. H_a : μA > μB或H₀ : μA = μB vs. H_a : μA < μB

用於確定統計顯著性的 t 統計量的範圍，取決於檢驗的邊向性。同樣，根據測試的邊面性計算不同的概率值。雙邊檢驗的概率值是單邊檢驗的 2 倍。由於統計軟體預先設定給出雙面檢驗的結果，因此對於單面檢驗，應更改檢驗的邊面性設置。因此應在統計分析部分準確描述測試的邊面性（兩邊或單邊）。

三、各評價項目的評價

採用李克特3級量表對上述6個項目進行評分。如果完全描述，每個項目得到 3（★★★ ）。如果它們被部分描述，得到2（★★ ），或者如果完全沒有描述，得到1（★ ）。兩名研究人員獨立進行了評估。2 位研究人員發生分歧時，通過討論和參考原文達成共識。

四、編寫良好的統計分析部分的示例評估

在 Makarem 等人進行的研究中。[1 ]，統計分析部分說明如下：

“這項研究是作為一項前瞻性觀察研究進行的。三個突發組被定義為激動、正常和活動減退。對研究人群和上述 3 組進行了人口統計學和描述性數據分析。頻率表示為計數（百分比），連續變數表示為標準差（SD）的平均值。使用 Kolmogorov-Smirnov 檢驗檢驗常態性後，我們使用 Student t 檢驗和卡方檢驗進行一元變異數分析。我們使用向後二元逐步邏輯迴歸進行多變異數分析，以檢查和確定出現不足的風險因素的優勢比 (OR)，CI 的置信度為 95%。此外還在有物質依賴史的患者亞組中進行了統計分析（單變數和多變數）。在所有這些探索性數據分析中，我們沒有對多重測試進行調整。使用SPSS版本。22.0 軟體（IBM 公司，美國）用於分析，該研究認為 P < 0.05（兩邊）具有顯著性。”

作者在本研究中使用的統計分析方法是 Kolmogorov-Smirnov 檢驗、Student t 檢驗、卡方檢驗和二元逐步邏輯迴歸（3 分）。關於每種統計分析方法的基本原理，採用Kolmogorov-Smirnov檢驗檢驗數據的常態性，採用Student's t檢驗和卡方檢驗進行單變數分析，並進行二元逐步logistic迴歸檢驗。確定出現不足的風險因素的優勢比。特別是二元邏輯迴歸的變數選擇方法是逐步選擇1) （3 分）。根據所使用的數據類型或統計分析方法，統計以頻率的計數（百分比）、連續變數的平均值和標準差以及邏輯迴歸分析結果的優勢比（95% CI）表示（3分） . 使用的統計分析軟體包為SPSS軟體版本。22.0（美國IBM公司）（3分），顯著性水準設為0.05（3分），採用雙側檢驗（3分）。

另一個統計分析部分的例子，取自 Kaur 等人進行的一項研究。[ 2 ]，如下：

“使用 Shapiro-Wilk 檢驗評估連續變數的常態性。常態分佈的連續變數表示為平均值 ± SD，而序數變數（NRS 分數）表示為平均值 ± SD（中位數）。平均值也用於描述有序數據和中位數。使用單向變異數分析來比較三個獨立組之間的平均值。使用 Kruskal-Wallis 檢驗，然後進行多重比較（Bonferroni 檢驗）來比較三個研究組中 NRS 疼痛評分的分佈。配對樣本 t 檢驗用於測試前後觀察之間的平均值變化。Fisher精確檢驗用於比較各組之間的比例。兩邊 P 值 < 0.05 被認為具有統計學意義。使用統計軟體為，版本23（SPSS-23，IBM公司，美國）“。

本研究中使用的統計分析方法有 Shapiro-Wilk 檢驗、單因素變異量分析、Kruskal-Wallis 檢驗、配對樣本 t 檢驗和 Fisher 精確檢驗（3 分）。關於所使用的每種統計分析方法的基本原理，使用Shapiro-Wilk檢驗來檢驗數據的常態性，使用單因素變異量分析來比較3個獨立組之間的平均值，Kruskal Wallis檢驗用於比較3個研究組之間NRS疼痛評分的分佈。配對樣本t檢驗用於檢驗觀察前和觀察後平均值的變化。Fisher精確檢驗用於比較兩者之間的比例組。並使用 Bonferroni 檢驗調整多重比較的概率值（3 分）。根據數據類型，統計數據表示為常態分佈連續變數的平均值±標準偏差和有序變數的平均值±標準偏差（中位數）（3分）。所用統計分析軟體包為Statistical Package for Social Sciences 23版（SPSS v.23，IBM Corp.，美國）（3分），顯著性水準設為0.05（3分），採用雙側檢驗（3 分）。

上述方法用於評估其餘文章的統計分析部分。

結果

2020年2月至2021年2月，KJA共發表論文111篇。其中，31篇臨床研究文章納入分析。其他10篇社論、16篇綜述文章、5篇統計回合文章、15篇病例報告、30篇給編輯的信、4篇實驗研究被排除。

評價項目從高到低依次為：說明所使用的統計分析方法、統計軟體包的類型和版本、顯著性水準、統計分析方法得出的參數、統計分析方法的基本原理和詳細描述統計檢驗的使用和偏向性（表格1）。所有 31 篇文章都說明了適當使用的統計分析方法（3 分）。在 31 篇文章中，29 篇（93.5%）介紹了所用統計軟體的類型和版本（3 分）。從統計分析方法得出的參數以及統計分析方法的基本原理和細節兩項獲得3分的文章數量（百分比）分別為24篇（77.4%）和23篇（74.2%）。Lee等人的研究。[ 3 ] 和 Hervás 等人。[ 4 ] 在“所使用的統計分析方法的理由和細節”項目中獲得了 2 分，因為雖然他們聲明他們使用了傾向得分匹配，但沒有描述調整方法、卡尺值或配對比率。這將顯著影響後續統計分析的結果。同樣，Lim 等人的論文。[ 5 ] 和 Tamboli 等人[ 6 ] 報告了執行統計分析，但沒有描述所用統計分析方法的基本原理和細節。因此他們每個人在這個項目上都得到了 2 分。最後，在 31 篇文章中，只有 4 篇（12.9%）明確描述了統計測試的邊面性（單邊與兩邊），這是排名最低的評估項目

討論

令人驚訝的是，大多數文章都沒有具體說明所使用的統計檢驗的邊面性。KJA 作者指南沒有明確要求包括統計測試的邊面性。但是除了需要單尾檢驗的研究設計，它要求概率值應該是雙尾的，。由於大多數臨床研究文章的作者進行雙尾檢驗，除非另有說明，否則讀者很可能認為檢驗是雙尾檢驗。但是在必須提供準確資訊的科學論文中，按慣例省略重要資訊並不是最佳做法。

有幾個重要原因統計分析部分應包含本文中提到的 6 個項目的資訊。首先，應該有科學證據來支持適當使用統計方法來檢驗研究假設。例如使用不滿足常態性假設的數據，執行參數檢驗是不合適的。相反地，應對非常態分佈數據進行非參數檢驗。執行 t 檢驗兩次（A 對 B 和 A 對 C）或 3 次（A 對 B、A 對 C 和 B 對 C）以比較 3 個獨立組（A、B、 C) 也不合適。應使用One-Way變異量分析來檢驗關於 3 組平均值差異的原假設。如果原假設被拒絕，則需要進行事後檢驗。其次通過描述統計分析方法是如何使用統計軟體的類型和版本、顯著性水準以及所使用的統計檢驗的邊面性，可以確保研究的透明度。

例如在執行邏輯迴歸分析時，應描述是否包括協變數（包括哪些協變數）和單變數分析的顯著性水準，用於確定在多變數分析中包括哪些自變數。在傾向評分匹配中，分析的結果取決於傾向評分校正方法、卡尺值和配對比例，因此應詳細描述這些。還應提供統計軟體的類型和版本、顯著性水準和檢驗的邊向性。第三，描述選擇所選分析方法的理由或目的需要提供了證據，證明分析適合揭示研究中量測的變數之間的因果關係，使其具有科學性。例如，當使用獨立的雙樣本 t 檢驗時，諸如“在 Kolmogorov-Smirnov 檢驗滿足常態性假設後，使用獨立的雙樣本 t 檢驗，比較”可以使用 2 種鎮痛劑” 兩個樣本之間的疼痛評分。

然而應該考慮這項研究的一個重要局限性。我們沒有檢查統計分析部分中描述的所有統計分析的結果，是否在結果部分中清晰呈現。因此尚不清楚統計分析部分未描述的統計分析結果，是否在結果部分顯示。不過我們相信這個期刊的同行評審制度已經解決了這個問題。

研究人員需要認識到在研究提案、結果報告、論文和文章中描述統計分析時應該包括哪些內容。將上述項目與統計分析直接或間接相關納入方法部分，可提高研究的透明度和科學性。特別是，對於複雜的分析或使用多重統計分析，需要更多的努力來描述我們提出的要點，以說明是如何獲得所呈現的結果。雖然由於沒有評估所有已發表的文章，因此很難概括我們的結果。但我們強調，研究人員應特別注意本研究中評分不佳的項目（統計檢驗的邊向性 :單方面與兩方面側），所用統計分析方法的基本原理和細節，以及從統計分析方法得出的參數，並應在其統計分析部分清楚地描述它們。