心在南方

發表者:黃文璋 主題: 認識機率-5信賴區間 Email:huangwj@nuk.edu.tw 日期:2009/8/12 下午 04:30:42

    我們常對某一未知的量做估計。未知的量可以是某事件發生的機率,某分佈的參數(如期望值
及變異數等),或某物件之壽命等。這些未知的量,可通稱為參數。有時會以一區間來估計參數,
並給出此區間會涵蓋該參數之機率。這就是所謂區間估計,所得的區間,稱為信賴區間。而區間涵
蓋參數之機率,則稱為此區間之信心水準(confidence level)。與機率一樣,信心水準是一介於0
,1間的值,常事先給定,且以百分比表示,90%,95%,99%,都是常取的值。

    數據(data)是統計學家做決策之主要依據。若缺乏數據,他們往往將一籌莫展。來看一簡單且
常見的情況。假設欲估計一銅板出現正面之機率p。很自然地,便投擲若干次,譬如說n次,並觀測
n次的結果。這個過程便稱為取樣。在本情況中,各次投擲的結果並不重要。總共得的正面數,以a
表之。知道a,就已掌握全部資訊(a稱為充分統計量(sufficient statistic))。給定信心水準,並
利用n及a,可得一信賴區間,但作法並不唯一。此處由於其中涉及二項分佈,計算複雜些,如果n
夠大(n太小則不行),我們常可藉助常態分佈來近似。這要用到機率論裡另一重要的法則---中央極
限定理(Central limit theorem)。必須一提,只有以常態分佈來近似時,才需用到中央極限定理
,並非求信賴區間皆要用到此定理。

    對估計銅板出現正面之機率p,取樣前,信賴區間為一隨機區間,若信心水準設定為95%,則有
(或精準的說“約有”,如果該信賴區間只是近似的)0.95的機率,信賴區間會包含p。取樣後,得
到一固定區間。則p會屬於該區間的機率,將不是1便是0,而不再是p了。為何如此?很多人對此常
感困惑。

    我們先以下例來說明。假設某百貨公司周年慶,顧客購物達一定金額,便能自1至10號中抽1彩
球。若抽中5號,今天在該公司的花費,可獲30%抵用券。在抽球之前,你知道有0.1的機率能獲抵
用券,機會不算小。一旦抽出,一看是3號,獲抵用券的機率當然便是0了。

    這類例子很多。打擊手揮棒前,可以說打出安打之機率為0.341,打完不是安打就非安打,
0.341已派不上用場了。再給一例。假設某銀行發行的樂透彩,每期自1至42號中,開出6碼為頭獎
號碼。你簽了一注6碼,開獎前,你知道很容易“至少中1碼”,因機率約為0.629。等開獎後,你
的彩券會至少中1碼之機率,將是1(若至少中1碼),或是0(若1碼皆未中)。

    再看如課綱中所說,也可以亂數表模擬出現正面(課綱中少了“正面”二字,意思便不通)機率
為p的銅板n次,以求得信賴區間。你看,p根本是事先設定,模擬所得之一固定區間,p有沒有落在
其間,一看便知,如何能說該區間涵蓋p之機率為0.95?就算你不是模擬,而是實際拿一銅板投擲
,則p只是未知,卻為某一定值(說不定發行銅板的單位知道),投擲後所得之固定信賴區間,已無
隨機性了,它只會涵蓋p,或不會涵蓋p。可以這樣想,對同一銅板,每人所得之95%信賴區間有異
,如何能個個皆宣稱,其區間涵蓋p之機率為0.95?

    那95%有何用?0.95是一機率值,而機率值從來就不是只看一次的實驗結果。大約可以這麼說
,如果反覆實驗,而得到很多信賴區間,則其中會包含p的信賴區間數,約佔全部區間數的95%。所
以,0.95的意義,乃如同上一節我們對機率的解釋。但要留意的是,對同一個p,如果全班40人,
所得到的40個95%信賴區間,其中包含p的個數未超過85%,也不要太驚訝,這是可能發生的(機率約
為0.01388)。98課綱說“大多數學生所得的信賴區間都會涵蓋p”,實在缺乏隨機的概念。有關信
賴區間更多的討論,可參考黃文璋(2006)一文。


回應此篇文章    回本區首頁