Skip to main content

Command Palette

Search for a command to run...

Assessing Data That Fits a Hypothesis Too Well

Updated

Objective

當我們面臨的問題是如何評估當數據「過於完美」地符合某個假設時,這是否反而代表著數據存在問題(例如資料操控、記錄錯誤或其他非隨機因素的干擾)。具體來說,我們希望檢查觀察到的數據變異性是否顯著低於(或高於)理論上根據該假設所預期的變異性。若數據變異性過小(例如計算出的 \(\chi^2\) 值遠小於自由度 $df$),則可能提示資料受到不自然控制;相反地,變異性過大也可能代表異常情形。

Derivation

1. 高斯(正態)單個樣本的機率密度函數

假設 \(X \sim N(\mu,\sigma^2)\),則其機率密度函數為

\[ f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr) \]

2. 單個樣本的似然函數

固定 $x$ 後,將 \(f(x;\mu,\sigma^2)\) 視為 \(\sigma^2\) 的函數,則

\[ L(\sigma^2 \mid x) \propto \frac{1}{\sqrt{\sigma^2}} \exp\Bigl(-\frac{(x-\mu)^2}{2\sigma^2}\Bigr) \]

3. 多個樣本的聯合似然函數

對於獨立樣本 \(x_1, x_2, \dots, x_n\),聯合似然為

\[ L(\mu,\sigma^2 \mid x_1,\dots,x_n) \propto \left(\frac{1}{\sigma^2}\right)^{n/2} \exp\Bigl(-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2\Bigr) \]

\[ \chi^2 = \sum_{i=1}^{n} (x_i-\mu)^2, \]

並記 $df$ 為自由度(例如 \(n-1\) 或根據估計參數數目調整),則

\[ L(\sigma^2) \propto \left(\frac{1}{\sigma^2}\right)^{df/2} \exp\Bigl(-\frac{\chi^2}{2\sigma^2}\Bigr) \]

4. 最大似然估計與最大似然值

透過對對數似然函數 \( \ell(\sigma^2) = -\frac{df}{2}\ln(\sigma^2) - \frac{\chi^2}{2\sigma^2} + C \) 求導並令其為零,可得最大似然估計為

\[ s^2 = \frac{\chi^2}{df} \]

當 \(\sigma^2 = s^2\) 時,似然函數達到最大值,其最大似然值為

\[ L_{\text{max}} = L\Bigl(\sigma^2=s^2\Bigr) \propto \left(\frac{df}{\chi^2}\right)^{df/2} \exp\Bigl(-\frac{df}{2}\Bigr) \]

5. 對數似然比(支持度)的推導

令候選值下的似然為 \(L_{\text{obs}} = L(\sigma^2=v_0)\)。選取 \(v_0=1\) 表示在標準化情況下,理論變異數為 1(即預期 \(\chi^2/df=1\)),則

\[ L_{\text{obs}} \propto \exp\Bigl(-\frac{\chi^2}{2}\Bigr) \]

取對數後,

\[ \log L_{\text{obs}} = -\frac{\chi^2}{2} + C_1, \]

\[ \log L_{\text{max}} = \frac{df}{2}\log\Bigl(\frac{df}{\chi^2}\Bigr) - \frac{df}{2} + C_2, \]

其中 \(C_1\) 與 \(C_2\) 為常數,會互相抵消。因而對數似然比(支持度)定義為

\[ S = \log\Bigl(\frac{L_{\text{max}}}{L_{\text{obs}}}\Bigr) = \frac{df}{2}\log\Bigl(\frac{df}{\chi^2}\Bigr) - \frac{df}{2} + \frac{\chi^2}{2} \]

整理得

\[ S = \frac{df}{2}\left[-\log\Bigl(\frac{\chi^2}{df}\Bigr) + \frac{\chi^2}{df} - 1\right] \]

令 \(r = \frac{\chi^2}{df}\) 則

\[ S = \frac{df}{2}\left[-\log r + r - 1\right] \]

Interpretation

  • 當 \(r = 1\)(即 \(\chi^2 = df\))時,\(S=0\),表示數據與理論預期完全吻合。
  • 當 $r < 1$(數據變異性過小,即過於「完美」)時,\(-\log r\) 的項變大,使得 $S$ 變大;
  • 當 $r > 1$(數據變異性過大)時,\(r-1\) 項使得 $S$ 同樣變大。

因此,無論是數據變異性( \(\chi^2\))過小或過大,$S$ 值都會偏大,這提示資料可能存在異常。

References

  1. Cahusac, P. M. B. (2021). Evidence Based Statistics: An Introduction to the Evidential Approach – from Likelihood Principle to Statistical Practice. John Wiley & Sons, Inc.
  2. Edwards, A. W. F. (1992). Likelihood. Baltimore: John Hopkins University Press.