動物研究中樣本數量估計的一般注意事項

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

生醫研究之統計方法

為什麼學生發現統計如此困難？

中興大學生物系統工程研究室陳加忠

資料來源:

Mun Jung Ko, Chi-Yeon Lim

Department of Biostatistics, Dongguk University College of Medicine, Goyang, Korea

Korean J Anesthesiol 2021;74(1):23-29

https://doi.org/10.4097/kja.20662

本文的目的是介紹在動物研究中計算樣本數量的基本概念和方法。在臨床研究的計劃階段，樣本數量的確定，是證明研究有效性，準確性和可靠性非常重要的過程。但是並非所有研究都需要計算樣本數量。在進行研究之前，十分重要的是要確定研究對像是否建議進行試點性研究和探索性研究，以及檢驗目的假設的目的。由於大多數動物實驗都是試驗性和探索性研究，因此在保持科學和品質的同時，複習進行實驗的其他考慮因素比起樣本數量估算更為合適。樣本數量是在動物研究的各種情況下計算的。因此，可以根據情況和目標通過精確度分析，檢定力分析等方法進行估算。在某些情況下，如果不滿足常態性假設或可用於研究的樣本較少，則可以採用非參數方法。

關鍵詞：動物研究；探索性的研究; 非參數樣本大小；參數樣本大小；試驗研究; 檢定力分析；精密度分析。

介紹

在開始臨床研究之前，計算樣本數量是十分重要。這是證明其有效性，準確性和可靠性的非常重要的過程。但是並非所有研究都需要計算樣本數量。確定該研究是否是一項試驗性和探索性研究，以及檢驗目的假設的目的。由於大多數動物實驗都是試驗性和探索性研究，因此與估計樣本大小相比，考慮在保持科學和定性水準的同時，進行其他可以測試的事物可能更合適。這是因為可以根據先驅性和探索性研究的結果建立新的假設。另外，即使該研究中存在假設，也可能需要重新定義該假設。

在某些情況下，用於預定義假設檢驗的動物研究可能無法以估計的樣本數量執行實驗。例如如果實驗的對像是猴子，則由於成本或實驗環境等原因，可能僅能使用一隻猴子就進行研究。指使用較少數量的科目，Liu等[1]指出由於嚴格規範了非人類靈長類動物的使用，因此很難獲得大量的動物。要顯示臨床上有意義的差異和統計檢定能力，研究的樣本數量十分重要。但是，在估計樣本數量時，有限的預算或研究環境可能需要在成本效益和檢定之間進行權衡[2]。

在動物研究中確定樣本數量時，還應考慮倫理問題。Russell和Burch [3]在《人類實驗技術原理》（1959年）中提出，3R與研究人員和進行這些研究的其他研究所，應用於任何動物實驗的倫理考量相似。3R原則是動物實驗領域中科學與倫理的統一，包括替換，提煉和簡化。(replacing, redineration, reduction)。

本文的目的是指導研究人員，在動物研究中一種估計適當樣本數量的方法。此外本文有助於了解根據試驗階段（試點，探索性和確認性研究）和研究的比較類型，而計算出的樣本數量。

先驅和探索性實驗

先驅研究用以查明打算在主要研究或關鍵性研究中量測的變異體的量測精密度的可行性，並驗證擬議實驗的邏輯性質。因為無法獲得先前的數據試點研究的樣本數量基於研究人員的先前經驗或猜測工作。探索性研究還被進行，以建立新的假設。換句話說，這些研究的目的是確定反應的趨勢或模式。因此，它不需要進行顯著性檢驗。這些研究的樣本數量有時是根據以前的研究計算得到。從這些研究中獲得的數據（標準差，兩個樣本之間的平均差異等）用於計算先驅研究的樣本數量[4]。

驗證性研究

驗證性研究是一項對照研究，其中研究假設已預先陳述並經過精心設計。感興趣的假設直接來自研究的主要目標，始終是預先定義的，並且是在完成試驗後隨後進行檢驗的假設[5]。

在這些研究中，以適當的估計精密度，歸因於所關注處理的檢定力大小，並將這些檢定力與其臨床意義相關聯是非常重要的。在確認強制性研究中，樣本數量計算在提供證據支持宣稱方面起著重要作用。因此，估算研究的有效樣本數量尤為重要。

計算樣本數量之前的一般注意事項

計算樣本數量時必須考慮幾個因素，例如研究目的，研究階段，比較類型，主要變數及其特徵，臨床意義上的差異，實驗設計，統計檢定，對照數量，隨機比率，減少率(dropouts)，協變數等。

比較類型

重要的是要清楚地說明預期研究的目標，因為研究目標會影響研究的假設。對於研究目標，有四種比較類型：相等性，優越性，非劣等性和等效性測試。相等性測試是雙面測試，而其他測試是單面測試（等效性測試是兩個單面測試）。相等測試經常被用來表明預期的目標中的先驅和探索性研究和臨床前研究，例如動物研究。換句話說，由於通常在許多先驅/探索性研究之後進行確認性研究，因此，平等性測試通常在先驅/探索性研究（例如動物研究）中進行。

為了證明目標，通常基於主要研究目標來提出假設。如果為了便於理解使用統計符號對其進行了說明，則表示如下（表1）。H₁和H₀分別是替代假設和零假設。令μ_t和μ_c分別為測試和對照組的真實平均值，而p_t和p_c分別為測試和對照組的真實比例。另外，令δ為相等性測試中的臨床顯著性差異，非劣效性測試中的非劣效性界限，優等性測試中的優勢性界限和等效性測試的等效性界限。

與對照組相比，差異（μ_t–μ_c）> 0被認為是測試組的一種改進。比較兩個獨立樣本（組）的研究中均值或比例差異的一種典型方法，是檢驗表1中所示的以下假設。

主要變數

動物研究的結果與定量變數有所區別，定量變數的價值來自對某些事物的計數或測量，以及定性變數作為分類變數。樣本大小的計算是基於主要變數的統計推斷。本文討論了連續的和分類的變數，包括將結果之一定義為“成功”而將另一個結果定義為“失敗”的二分變數。

誤差

計算樣本大小時，必須考慮顯著性水平（α）和統計檢定力（1 - β）。顯著性水平是類型I錯誤的最大允許值。類型錯誤表示在否定假設為真時，拒絕否定假設的可能性。統計檢定力是當H₀為假時拒絕H₀的概率。如果將II型錯誤設置為β，則統計檢定力將設置為1 - β。檢定力分析是樣本數量計算的一種方法，在具有顯著性水準和統計檢定力的情況下，該方法可用於估計研究所需的樣本數量。

表2顯示了在檢驗假設時可以考慮對未知事實進行決策的四種情況。

樣本數量計算

在開始研究之前，需要計算樣本數量，以測試預期的研究目的。樣本數量太小會降低識別重大差異的實驗敏感性。而樣本數量太大會浪費時間，成本，資源或重要的研究結果[6]。在後一種情況下，可能經常需要在成本之間發生的折衷。並檢測檢定力[2]。因此，很難確定研究的樣本數量，特別是在確定性研究中。

有幾項研究引入了計算樣本數量的簡易方法。Arifin和Zahiruddin [7]引入了一種方法，通過使用ANOVA設計的簡單公式，可以計算動物研究中的樣本數量，這些樣本本質上是先驅和探索性的。動物研究中的樣本數量可以針對各種情況進行計算。統計方法也有所不同，包括精密度分析，檢定力分析等。

精密度分析

精密度分析是計算樣品尺寸的方法之一。這種方法選擇樣本大小的方式是，在固定的信賴區間（即固定的I型錯誤）下具有所需的精密度。它簡單易計算，但檢測到真正差異的可能性很小。間隔的精密度為100（1 –α）％信賴區間，取決於其寬度。由於更密間隔具有更精確的間隔，因此該方法考慮了100（1 –α）％的最大半寬度[2]。

當已知σ²時，可以選擇μ的置信區間為100（1 –α）％所需的樣本大小公式為:

N = (Z_α/2 σ² )/E²

其中E是在μ的估計值的最大誤差。

檢定力分析

通常在臨床研究中使用檢定力分析方法來估計樣品量。它選擇所需的樣本數量，以達到在固定的I型錯誤[2]時，檢測科學或臨床上有意義的差異所需的檢定力。

表3的簡單說明有幾個假設：（1）兩個樣本並行設計，（2）σ²是已知的總體變異量，（3）測試組和對照組的總體變異量等於σ²，（4）μ_t– μ_c是測試組（μ_t）與對照組（μ_c）之間的真實平均差，（5）μ_t–μ_t> 0被認為是測試組與對照組相比有所改善的指標，（6）δ是在相等測試臨床顯著差異，（7）k是對於一個恆定比例，（8）n_t是測試組的樣本大小，和nc是對照組的樣本大小，和（9）。

其他方法

除了精密度和檢定力分析之外，還有幾種方法可以用來計算樣本數量，例如概率評估和可重複性概率。這些概念超出了本文的範圍。

樣本數量計算的其他公式

二分數據的樣本數量

Fleiss [8]提供了一個方程來比較兩組中的比例。假設結果是令人關注的事件，例如疾病或死亡的發生，並提出以下假設：

H₀: p_c − p_t = 0與H₁ : p_c − p_t ≠0

p_c = r_c/N_c ,

p_t = r_t/N_t

rc ：對照組的結果數

rt ：測試組中的結果數

Nc ：對照組中的動物總數

Nt ：測試組中的動物總數

可以通過以下等式獲得獲得1 –β檢定力所需的每組樣本數（n）:

n = C*(p_c(1-p_c)+p_t(1-p_t))/d² + 2/d+2

其中，

d = | pc - pt |

C ：常數，取決於為α和β選擇的值，並且用於雙面測試

表4用於獲得上述公式的解，並顯示在給定的C值，有效水準和檢定力的前提下，假設S為4且d為3時，每邊的樣本數量。

比較兩組平均值的樣本數量

Snedrcor 與 Cochran [9]建議通過估計樣本大小的方法，比較之間的兩個小群組的平均差異。為了顯示平行樣設計中兩組之間的平均差異，考慮以下假設：

H₀: μ_c − μ_t = 0與H₁ : μ_c − μ_t ≠0

μ_c：對照組的總體平均值

μ_t：測試組的總體平均值

然後，可以從以下公式獲得實現1 - β的檢定力所需的樣本大小(n)：

n = 1 + 2C(s/d)²

其中，

s：標準偏差

d：要檢測的差異

C：一個常數，取決於為α和β選擇的值，並且用於雙面測試

表5可用於獲取上述公式的每邊樣本數量，並基於給定的C值，顯著性水平和檢定力顯示每臂樣本數量，假設s為4且d為3。

配對研究的樣本數量

在比較研究中的值時，可以使用Snedecor和Cochran [9]提出的方程式。考慮以下假設：

H₀: μ_before – μ_after= 0與H₁ : μ_before − μ_after≠0

可以使用以下公式獲得達到1 –β檢定力所需的樣本大小：

n = 1 + 2C(s/d)²

s：標準偏差

d：要檢測的差異

C：一個常數，取決於為α和β選擇的值，並且用於雙面測試

表6可用於獲取上述公式的每臂樣本數量，並基於給定的C值，顯著性水準和檢定力顯示每邊樣本數量，假設s為4且d為3。

非參數

在許多情況下，使用參數方法來估計樣本數量。但是如果無法使用較大的樣本數量（例如動物研究），也可以採用非參數的方式來估計樣本數量。通過非估計樣本大小。當樣本大小是太小，或是常態的假設參數方法為不能保證。在一些動物研究中，在估計樣本大小時可能無法滿足常態性的假設。實際上，可能不滿足作為基本母群的總和的基數。在這種情況下，可以考慮使用非參數方法來測試位置的差異。

圖1顯示了使用參數方法和非參數方法通過1,000次模板計算得出的統計檢定力的比較，這是將樣本數量從1增加到30乘以1。對於（a）和（b），配對t檢驗和獨立的兩個樣本t檢驗是可應用於參數的方法。對於（c）和（d），分別使用Wilcoxon的有符號秩檢驗和Wilcoxon的秩和檢驗（Mann-Whitney的U檢驗），這是非參數方法。（c）和（d）的非參數方法分別對應於（a）和（b）的參數方法。所有替代假設s是均等性的雙向檢驗，顯著性水準為0.05，檢定力是通過PASS 2020 [10]計算的。

圖1顯示了參數方法和非參數方法的統計檢定力與樣本數量增加的一致性。當使用非參數方法估計樣本數量時，存在一些實際問題，其中關於替代假設的檢定力尚未得到充分研究。然而這些非參數化方法HES可以在探索性研究有所幫助。

圖1.樣本數量估計中參數方法與非參數方法的比較。（A）參數化方法：方差相等的配對t檢驗，（B）參數化方法：方差相等的學生t檢驗，（C）非參數化方法：Wilcoxon的有符號秩檢驗，以及（D）非參數化方法：威爾科克森的秩和檢驗；δ₀（= 0）是零差異，δ₁（= 1）是實際差異，μ₂（= 0）是第2組的真實平均值，σ（= 1）是總體標準偏差，N1（= N2）是從每個總體中抽樣的項目數，N是樣本總數。

計算樣本數量的軟體

樣本大小可以使用各種公式輕鬆計算。但是，可能很難直接使用公式進行計算，而可能使用電腦演算法進行計算。在某些情況下，可以使用電腦模擬來確定適當的樣本數量。研究人員可以用於臨床研究的一些知名軟體包括：

(1) Power Analysis and Sample Size (PASS) software, sample size tools for over 965 statistical tests and confidence interval scenarios.

(2) nQuery 7.0 Advisor program (Ireland), sample size, and power calculations. (3) G*Power

3 (Faul, Erdfelder, Lang, & Buchner), a flexible statistical power analysis program for the social, behavioral, and biomedical sciences.

(4) SAS® version 9.4 (SAS institute Inc., USA) using POWER and GLMPOWER procedures.

(5) R version 3.6.5 (R Foundation for Statistical Computing, Austria) using “pwr” package, which is free and open source.

(6) Sample Power (SPSS Inc., USA) is a tool for estimating the sample size on the various statistical studies.

在Dattalo [11]撰寫的論文中，可以找到用於比較軟體以進行樣本數量確定的更多詳細資訊。

除上述功能外，Internet上還有許多商業和免費軟體。對於用戶來說，檢查樣本大小的準確性和有效性對於根據研究目標是否適當計算，以及所提供的公式計算法是否正確也很重要。

結論

在估計樣本數量時，在開始研究之前定義了一些假設和條件。大多數動物研究都處於探索和探索階段。因此可能難以預先確定研究的樣本數量。此外對於任何動物研究，都應認真審查動物研究中的倫理問題和根據3R原則計算的樣本數量。然而在計劃階段，樣本數量的計算在說明研究的預期目標方面有著非常重要的作用。有時在估計樣本數量時可能會出現權衡的問題。在進行動物研究時，對數據收集之前的實驗設計和統計數據的仔細了解是成功進行實驗的關鍵。