是否造成危險？RR OR 全詳解

年紀大了，準備考試，讀一遍忘一遍。只好寫下來。

8 min readOct 1, 2021

（統計工作＝ 描述 -> 相關性 -> 因果 -> 預測未來）

一、統計最關心的事情：有沒有因果關係？

如果說描述統計是為了討論樣本長什麼樣子，那麼分析統計最重要的任務就是為了從樣本去推測母群體長什麼樣子。在流行病學裡，最重要的描述頻率的指標就是盛行率，發生率，累積發生率，死亡率，和存活率[1]。其中了解盛行率是為了分配資源，方法是透過橫斷式研究。了解發生率是為了探討疾病因子，方法是透過世代研究。除了頻率的測量之外，我們還想要知道因果關係，所以分析性研究[2]進場了。在分析性研究，我們不只要測量頻率，還要用到相關性的測量。相關性的測量可以使用的有：絕對效應（absolute effect），相對危險性（relative risk），和相關係數（correlation coefficient）三種。這邊討論前兩種。

[1]頻率測量補在最下面

[2]各種流行病學的研究方法補在最下面

二、這整個討論的前提：我們只用二元變項

為了解釋和應用上的方便，在生醫領域常常把變項定義成二元變項。例如：腎絲球過濾率 (eGFR) < 60% 的人定義為腎功能異常，而不是定義成健康/輕度/中度/重度/末期。這種定義方式可以讓研究得到一個比較直接的結論，像是「糖尿病患者 eGFR 異常的相對風險為3.7倍」，讓研究者可以直接針對相關因子做討論。而在流行病學領域，最經典的變項就是暴露ㄉ有無和疾病的有無。所以以下主要討論二元變項。

三、絕對效應和相對危險，哪個好？

如果要討論相關性，無論是絕對效應還是相對危險性，單獨一個其實都沒有辦法完整表達。絕對效應的算法是一個率減另一個率（率差），例如暴露組的危險性減去無暴露組的危險性，所以他可以解釋成暴露組的危險性中能歸咎於暴露的部分。隨便亂舉例，暴露組-無暴露組 = 0.005–0.001 = 0.004，用白話就可以說成是，1000個人裡面，有多出4個個案是由這個暴露貢獻的。

至於相對危險性，則是暴露組的危險性除以非暴露組的危險性（率比），所以可以解釋成暴露比沒暴露多了幾倍的危險。用上面的例子，暴露組 / 無暴露組 = 0.005 / 0.001 = 5倍。白話會說成，暴露的危險是非暴露的五倍。

率差得到1000人裡面多4個人，率比得到危險變五倍，五倍欸～～可以從這個例子看出，相對危險性比較容易算出看起來聳動或有意義的數據。因此研究上比較常用，而在讀別人的研究的時候則要多多注意。

四、把危險直接相除就可以得到RR，那為什麼要用怪怪的OR？

這邊需要深入一點的談相對危險性（relative risk）。先講一下，相對危險性其實包含兩種運算方法，一種是「率比」（rate ratio），一種是「勝算比」（odds ratio）。前一段提到說相對危險性是暴露的危險去除以非暴露的危險，這個除出來的東西，其實就是率比的一種。我們要往回講一點，率比意思就是一個率除以另一個率。這邊的率是廣義的ㄛ，可以是速率（例如發生率），也可以是分率（例如累積發生率或盛行率）。如果在實驗性研究或世代研究中，可能會用發生率或累積發生率的率比來計算相關性，其中累積發生率的率比就是有名的Risk Ratio（RR）[3]。而在橫斷式研究中，頻率測量是以盛行率為主，所以使用的就是盛行率比。

[3]一般統計學談到Relative Risk（RR）好像都直接指涉Risk Ratio（累積發生率的率比），但其實他悶是不一樣低> <。

率比很好理解，但是呢這裡我們會遇到一個問題，就是發生率或盛行率並不是一個很容易取得的數據。前面有辦法得到，是來自(1)由研究者來操作暴露（實驗性研究）(2)是根據暴露狀態來收案（世代研究和依暴露狀態收案的橫斷研究）。但如果今天我們是依照疾病狀態收案的時候，因為病患跟沒病的人是分開收集的，我們沒辦法直接估算發生率、累積發生率、或盛行率，所以也就沒有辦法計算率比。

所以解決的方式就是要請出第二種東東「勝算比」（odds ratio）。勝算的意思是贏的機率除以輸的機率，也就是 p / (1-p)。勝算比就是暴露勝算除以非暴露勝算。這麼計算是因為，當病例在標的群體中佔十分之一以下時，勝算比（odds ratio）就會非常接近累積發生率比（risk ratio），所以我們要用OR去推估RR。換句話說，這個推估的正確性是建立在「稀有疾病假設」（rare diseae assumption）之上。這個假設容易成立嗎？現實情況中，除非是在高危險群裡，否則就算是所謂的常見疾病，病例在標的群體中也很少佔超過十分之一。所以OR通常是可以用來推估RR的_。所以今天當我們是做case-control研究，或是依疾病狀態收案的橫斷式研究，我們的相關性就會用勝算比來討論。要注意的是，勝算比就不能解釋成多出幾倍的風險了，我們可以說，如果勝算比很高，表示這個暴露是一個好的預測因子。

五、回到最初的問題，我們算出來的相關性，真的可以代表因果關係嗎> <

但是即使我們算出有相關性了，也不能表示暴露跟疾病有因果關係（嗚嗚嗚）。所以要動用檢定來證實這個相關到底具不聚有統計學上的顯著性。不管是RR或OR，都可以利用卡方檢定（Chi-square test）或費雪精確性檢定（Fisher’s exact test）來進行考驗。

總結一下：

勝算比（OR）是哪裡都可以用的！不管世代研究還是case-control都沒問題。不過當你能得到實際的累積發生率，還是算出RR比較精確。
勝算比（OR）適用在稀少罕見的疾病，因為實務上你要搞一個暴露組/非暴露組的研究，去抓一個例如1/100,000發生率的疾病，那麼你就要追蹤一百萬個人才能預期撈出十個病人欸。因此稀少的疾病會用case-control來做研究。
OR跟RR可以告訴我們三件事情：(1)暴露和疾病之間有關聯（如果數字比1大很多或是比1小很多）(2)關聯的方向（OR>1表示暴露會導致疾病，OR<1表示這個暴露對疾病有保護性）(3)關聯的強度（要靠檢定來確認）

關於關聯的強度，最後舉個例子

— — 有病–沒病–總人數

暴露 — -2–4–6

沒暴露–1–3–4

總人數–3–7–10

— — 有病–沒病–總人數

暴露 — -200–400–600

沒暴露–100–300–400

總人數–300–700–1000

這兩個情況都一樣會算出 OR=1.5 和 RR=1.33 唷！但是如果用卡方檢定會算出完全不一樣的統計顯著性_

補充一：流行病學的研究方法

描述形研究例如病例系列（case series）和調查（survey），是觀察一些特定病患的特徵，其中沒有包括相關性的討論。如果要討論相關性，就要做分析性研究，包括實驗性研究和觀察性研究。實驗性是指「由研究者來分配暴露」，因為控制的關係，是證據力最強的研究，但不能做有害的暴露給予，所以只能拿來研究治療效果。在流行病學上要討論危害暴露的因果關係，通常是透過觀察性研究。觀察性研究包括了橫斷式研究和縱貫式研究，其中橫斷式的意思是同一個時間點上的暴露和疾病之間的研究，或是更精確地說是「暴露和疾病之間的時序性無法堆定」的研究。如果要求時序可以判定，那麼就要做世代研究或case-control研究，其中世代研究是依據暴露狀況收案，case-control是跟據疾病狀態收案。

補充二：流行病學中用來描述頻率的指標

盛行率（Prevalence）：研究族群(study population)在某一時間點上(point prevalence)或一段時間中(period prevalence)具有某一種特質的分率(proportion)
發生率（Incidence）：研究族群發生某一outcome的速度(單位時間內的new case數)。在穩定的研究族群中prevalence = incidence x disease duration。例如感冒和糖尿病的盛行率可能都很高，但感冒是發生率高，糖尿病是duration長。例：病患一年當中於血液透析時發生shock的次數。
累積發生率（Risk）：研究族群於觀察時間內曾發生outcome的分率。例：ESRD病患於一年當中曾在血液透析時發生shock的百分比。
死亡率（Mortality）：研究族群於觀察時間內死亡者的分率。例：臺灣居民每十萬人一年當中死於ESRD的人數。
存活率（Survival）