在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PyTorch教程-2.6. 概率統計

jf_pJlTbmA9 ? 來源:PyTorch ? 作者:PyTorch ? 2023-06-05 15:38 ? 次閱讀

不管怎樣,機器學習都是關于不確定性的。在監督學習中,我們希望在給定已知事物(特征)的情況下預測未知事物(目標)。根據我們的目標,我們可能會嘗試預測目標的最可能值。或者我們可以預測與目標的預期距離最小的值。有時我們不僅希望預測特定值,而且希望量化我們的不確定性。例如,給定一些描述患者的特征,我們可能想知道有多大可能他們將在明年心臟病發作。在無監督學習中,我們經常關心不確定性。要確定一組測量值是否異常,了解一個人在感興趣的總體中觀察值的可能性有多大是有幫助的。此外,在強化學習中,我們希望開發能夠在各種環境中智能行動的智能體。這需要推理環境可能會如何變化,以及人們可能期望在響應每個可用操作時遇到什么獎勵。

概率是與不確定性推理有關的數學領域。給定某個過程的概率模型,我們可以推斷各種事件的可能性。使用概率來描述可重復事件(如拋硬幣)的頻率是相當沒有爭議的。事實上,頻率論學者堅持只適用于此類可重復事件的概率解釋。相比之下,貝葉斯學者更廣泛地使用概率語言來形式化我們在不確定性下的推理。貝葉斯概率具有兩個獨特的特征:(i) 將置信度分配給不可重復的事件,例如,概率是 多少月亮是奶酪做的?(ii) 主觀性——雖然貝葉斯概率為人們應該如何根據新證據更新他們的信念提供了明確的規則,但它允許不同的個體以不同的先驗信念開始。 統計數據幫助我們向后推理,從收集和組織數據開始,然后退回到我們可能對生成數據的過程得出的推論。每當我們分析數據集,尋找我們希望可以表征更廣泛人群的模式時,我們都在運用統計思維。大多數課程、專業、論文、職業、部門、公司和機構都致力于研究概率和統計。雖然本節僅涉及表面,但我們將為您提供開始構建模型所需的基礎。

%matplotlib inline
import random
import torch
from torch.distributions.multinomial import Multinomial
from d2l import torch as d2l

%matplotlib inline
import random
from mxnet import np, npx
from mxnet.numpy.random import multinomial
from d2l import mxnet as d2l

npx.set_np()

%matplotlib inline
import random
import jax
import numpy as np
from jax import numpy as jnp
from d2l import jax as d2l

No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

%matplotlib inline
import random
import tensorflow as tf
from tensorflow_probability import distributions as tfd
from d2l import tensorflow as d2l

2.6.1. 一個簡單的例子:拋硬幣

想象一下,我們計劃拋硬幣并想要量化我們看到正面(與反面)的可能性有多大。如果硬幣是公平的,那么兩種結果(正面和反面)的可能性都相同。此外,如果我們打算拋硬幣n次,那么我們期望看到的正面部分應該與預期的反面部分完全匹配。一種直觀的方式是通過對稱性來看待這一點:對于每一個可能的結果nh 頭和nt=(n?nh)尾巴,有一個同樣可能的結果nt頭和nh尾巴。請注意,這只有在我們平均期望看到的情況下才有可能1/2拋出頭和1/2出現尾巴。當然,如果你多次進行這個實驗n=1000000拋擲每一個,你可能永遠看不到試驗在哪里nh=nt確切地。

形式上,數量1/2被稱為概率,在這里它捕捉到任何給定的拋擲都會出現正面的確定性。概率在之間分配分數0和1到感興趣的結果,稱為事件。這里感興趣的事件是 heads我們表示相應的概率 P(heads). 的概率1表示絕對確定性(想象一個雙面都是正面的騙局硬幣)和概率0表示不可能(例如,如果兩邊都是反面)。頻率nh/n和nt/n不是概率而是統計。概率是 數據生成過程的理論量。在這里,概率1/2是硬幣本身的屬性。相比之下,統計數據是作為觀察數據的函數計算的經驗量。我們對概率和統計量的興趣密不可分。我們經常設計稱為估計器的特殊統計數據,在給定數據集的情況下,它會產生 模型參數(如概率)的估計值。此外,當這些估計量滿足稱為一致性的良好屬性時,我們的估計將收斂到相應的概率。反過來,這些推斷的概率說明了我們將來可能遇到的來自同一人群的數據的可能統計特性。

假設我們偶然發現了一枚真實的硬幣,但我們并不知道它的真實價值P(heads). 要用統計方法調查這個數量,我們需要(i)收集一些數據;(ii) 設計一個估算器。這里的數據采集很容易;我們可以多次拋硬幣并記錄所有結果。形式上,從一些底層隨機過程中繪制實現稱為采樣。正如您可能已經猜到的那樣,一種自然的估計量是觀察到的正面朝上數與拋擲總次數之間的分數。

現在,假設硬幣實際上是公平的,即 P(heads)=0.5. 為了模擬公平硬幣的拋擲,我們可以調用任何隨機數生成器。以概率抽取事件樣本的一些簡單方法0.5. 例如 Python random.random在區間內產生數字[0,1]其中躺在任何子區間的概率[a,b]?[0,1]等于b?a. 因此我們可以通過0測試返回的1浮點數0.5是否大于0.5

num_tosses = 100
heads = sum([random.random() > 0.5 for _ in range(100)])
tails = num_tosses - heads
print("heads, tails: ", [heads, tails])

heads, tails: [48, 52]

num_tosses = 100
heads = sum([random.random() > 0.5 for _ in range(100)])
tails = num_tosses - heads
print("heads, tails: ", [heads, tails])

heads, tails: [47, 53]

num_tosses = 100
heads = sum([random.random() > 0.5 for _ in range(100)])
tails = num_tosses - heads
print("heads, tails: ", [heads, tails])

heads, tails: [44, 56]

num_tosses = 100
heads = sum([random.random() > 0.5 for _ in range(100)])
tails = num_tosses - heads
print("heads, tails: ", [heads, tails])

heads, tails: [49, 51]

更一般地,我們可以通過調用多項式函數,將第一個參數設置為抽獎次數,將第二個參數設置為與每個可能結果相關的概率列表。為了模擬公平硬幣的十次拋擲,我們分配概率向量,將索引 0 解釋為正面,將索引 1 解釋為反面。該函數返回一個長度等于可能結果數(此處為 2)的向量,其中第一個分量告訴我們正面出現的次數,第二個分量告訴我們反面出現的次數。[0.5, 0.5]

fair_probs = torch.tensor([0.5, 0.5])
Multinomial(100, fair_probs).sample()

tensor([44., 56.])

fair_probs = [0.5, 0.5]
multinomial(100, fair_probs)

array([46, 54], dtype=int64)

fair_probs = [0.5, 0.5]
# jax.random does not have multinomial distribution implemented
np.random.multinomial(100, fair_probs)

array([46, 54])

fair_probs = tf.ones(2) / 2
tfd.Multinomial(100, fair_probs).sample()


每次運行此采樣過程時,您都會收到一個新的隨機值,該值可能與之前的結果不同。除以投擲次數即可得出數據中每種結果出現的頻率。請注意,這些頻率,就像它們要估計的概率一樣,總和為1.

Multinomial(100, fair_probs).sample() / 100

tensor([0.5300, 0.4700])

multinomial(100, fair_probs) / 100

array([0.53, 0.47])

np.random.multinomial(100, fair_probs) / 100

array([0.5, 0.5])

tfd.Multinomial(100, fair_probs).sample() / 100


在這里,即使我們的模擬硬幣是公平的(我們 自己設置概率),正面和反面的計數可能并不相同。那是因為我們只抽取了有限數量的樣本。如果我們自己不進行模擬,而只看到結果,我們怎么知道硬幣是否有輕微的不公平,或者是否可能偏離[0.5, 0.5]1/2只是小樣本的產物?讓我們看看模擬10000投擲時會發生什么。

counts = Multinomial(10000, fair_probs).sample()
counts / 10000

tensor([0.4970, 0.5030])

counts = multinomial(10000, fair_probs).astype(np.float32)
counts / 10000

array([0.4952, 0.5048])

counts = np.random.multinomial(10000, fair_probs).astype(np.float32)
counts / 10000

array([0.5009, 0.4991], dtype=float32)

counts = tfd.Multinomial(10000, fair_probs).sample()
counts / 10000


一般來說,對于重復事件(如拋硬幣)的平均值,隨著重復次數的增加,我們的估計肯定會收斂到真實的潛在概率。這種現象的數學證明稱為大數定律和中心極限定理告訴我們,在許多情況下,隨著樣本量的增加n 增長,這些錯誤應該以(1/n). 讓我們通過研究隨著拋擲次數從1增加到10000.

counts = Multinomial(1, fair_probs).sample((10000,))
cum_counts = counts.cumsum(dim=0)
estimates = cum_counts / cum_counts.sum(dim=1, keepdims=True)
estimates = estimates.numpy()

d2l.set_figsize((4.5, 3.5))
d2l.plt.plot(estimates[:, 0], label=("P(coin=heads)"))
d2l.plt.plot(estimates[:, 1], label=("P(coin=tails)"))
d2l.plt.axhline(y=0.5, color='black', linestyle='dashed')
d2l.plt.gca().set_xlabel('Samples')
d2l.plt.gca().set_ylabel('Estimated probability')
d2l.plt.legend();

poYBAGR5UIOAbs_vAAKPA3Q1P2c019.svg

counts = multinomial(1, fair_probs, size=10000)
cum_counts = counts.astype(np.float32).cumsum(axis=0)
estimates = cum_counts / cum_counts.sum(axis=1, keepdims=True)

d2l.set_figsize((4.5, 3.5))
d2l.plt.plot(estimates[:, 0], label=("P(coin=heads)"))
d2l.plt.plot(estimates[:, 1], label=("P(coin=tails)"))
d2l.plt.axhline(y=0.5, color='black', linestyle='dashed')
d2l.plt.gca().set_xlabel('Samples')
d2l.plt.gca().set_ylabel('Estimated probability')
d2l.plt.legend();

pYYBAGR5UIaAFy6EAAKKn4g7Fek810.svg

counts = np.random.multinomial(1, fair_probs, size=10000).astype(np.float32)
cum_counts = counts.cumsum(axis=0)
estimates = cum_counts / cum_counts.sum(axis=1, keepdims=True)

d2l.set_figsize((4.5, 3.5))
d2l.plt.plot(estimates[:, 0], label=("P(coin=heads)"))
d2l.plt.plot(estimates[:, 1], label=("P(coin=tails)"))
d2l.plt.axhline(y=0.5, color='black', linestyle='dashed')
d2l.plt.gca().set_xlabel('Samples')
d2l.plt.gca().set_ylabel('Estimated probability')
d2l.plt.legend();

poYBAGR5UImAYH0TAAKRX1xytN4227.svg

counts = tfd.Multinomial(1, fair_probs).sample(10000)
cum_counts = tf.cumsum(counts, axis=0)
estimates = cum_counts / tf.reduce_sum(cum_counts, axis=1, keepdims=True)
estimates = estimates.numpy()

d2l.set_figsize((4.5, 3.5))
d2l.plt.plot(estimates[:, 0], label=("P(coin=heads)"))
d2l.plt.plot(estimates[:, 1], label=("P(coin=tails)"))
d2l.plt.axhline(y=0.5, color='black', linestyle='dashed')
d2l.plt.gca().set_xlabel('Samples')
d2l.plt.gca().set_ylabel('Estimated probability')
d2l.plt.legend();

pYYBAGR5UIuADUurAAKHf032V-4693.svg

每條實線對應于硬幣的兩個值之一,并給出了我們估計的概率,即在每組實驗后硬幣出現該值的概率。黑色虛線給出了真實的潛在概率。隨著我們通過進行更多實驗獲得更多數據,曲線會向真實概率收斂。您可能已經開始看到一些困擾統計學家的更高級問題的形狀:這種收斂發生的速度有多快?如果我們已經測試了同一家工廠生產的許多硬幣,我們如何整合這些信息

2.6.2. 更正式的待遇

我們已經走得很遠了:提出概率模型、生成合成數據、運行統計估計器、憑經驗評估收斂性以及報告錯誤指標(檢查偏差)。然而,為了走得更遠,我們需要更加精確。

在處理隨機性時,我們表示一組可能的結果 S并將其稱為樣本空間或結果空間。在這里,每個元素都是一個不同的可能結果。在滾動單個硬幣的情況下, S={heads,tails}. 對于單個模具,S={1,2,3,4,5,6}. 擲兩枚硬幣時,可能的結果是 {(heads,heads),(heads,tails),(tails,heads),(tails,tails)}. 事件是樣本空間的子集。例如,事件“第一次拋硬幣正面朝上”對應于集合 {(heads,heads),(heads,tails)}. 每當結果z隨機實驗滿足 z∈A, 然后是事件A已經發生了。對于單次擲骰子,我們可以定義事件“看到一個 5”(A={5}) 和“看到一個奇數” (B={1,3,5}). 在這種情況下,如果骰子出現 5,我們會說兩者A和B發生。另一方面,如果z=3, 然后A沒有發生但是 B做過。

概率函數將事件映射到實際值 P:A?S→[0,1]. 事件的概率A在給定的樣本空間 S, 表示P(A),滿足以下屬性:

任何事件的概率A是一個非負實數,即P(A)≥0;

整個樣本空間的概率為1, IE, P(S)=1;

對于任何可數的事件序列 A1,A2,…是互斥的(Ai∩Aj=?對全部i≠j),其中任何一個發生的概率等于它們各自概率的總和,即 P(?i=1∞Ai)=∑i=1∞P(Ai).

這些概率論公理由Kolmogorov ( 1933 )提出 ,可用于快速推導出許多重要結果。例如,緊隨其后的是任何事件的概率A 或其補充 A′occurring 為 1(因為 A∪A′=S). 我們也可以證明P(?)=0因為 1=P(S∪S′)=P(S∪?)=P(S)+P(?)=1+P(?). 因此,任何事件的概率A 及其補充A′同時發生的是 P(A∩A′)=0. 通俗地說,這告訴我們不可能事件發生的概率為零。

2.6.3. 隨機變量

當我們談論諸如擲骰子出現賠率或第一次拋硬幣出現正面等事件時,我們正在調用隨機變量的概念。形式上,隨機變量是從基礎樣本空間到一組(可能很多)值的映射。您可能想知道隨機變量與樣本空間有何不同,因為兩者都是結果的集合。重要的是,隨機變量可能比原始樣本空間粗糙得多。我們可以定義一個二進制隨機變量,如“大于 0.5”,即使基礎樣本空間是無限的,例如,線段之間0和1. 此外,多個隨機變量可以共享相同的底層樣本空間。例如,“我家的警報是否響起”和“我的房子是否被盜”都是共享基礎樣本空間的二元隨機變量。因此,知道一個隨機變量取的值可以告訴我們一些關于另一個隨機變量的可能值的信息。知道警報響了,我們可能會懷疑房子可能被盜了。

隨機變量取的每個值都對應于基礎樣本空間的一個子集。因此出現隨機變量 X取值v, 表示為X=v, 是一個事件 并且P(X=v)表示它的概率。有時這種符號會變得笨拙,當上下文清晰時我們可能會濫用符號。例如,我們可能會使用P(X)泛指 分布_X,即告訴我們概率的函數X取任何給定值。其他時候我們寫這樣的表達式P(X,Y)=P(X)P(Y),作為表達對隨機變量的所有值都成立的陳述的簡寫 X和Y可以采取,即,對于所有i,j它認為P(X=iandY=j)=P(X=i)P(Y=j). 其他時候,我們通過寫作濫用符號P(v)當隨機變量從上下文中明確時。由于概率論中的事件是樣本空間的一組結果,我們可以指定隨機變量取值的范圍。例如,P(1≤X≤3)表示事件的概率{1≤X≤3}.

請注意,離散隨機變量(如擲硬幣或擲骰子)與連續隨機變量之間存在細微差別 那些,比如從人群中隨機抽取的一個人的體重和身高。在這種情況下,我們很少真正關心某人的確切身高。此外,如果我們進行足夠精確的測量,我們會發現地球上沒有兩個人的身高完全相同。事實上,通過足夠精細的測量,您醒來和入睡時的身高永遠不會相同。詢問某人身高 1.801392782910287192 米的確切概率毫無意義。相反,我們通常更關心能夠說出某人的身高是否落在給定的區間內,比如 1.79 到 1.81 米之間。在這些情況下,我們使用概率密度. 恰好 1.80 米的高度沒有概率,但密度非零。為了得到分配給一個區間的概率,我們必須 對該區間的密度進行積分。

2.6.4. 多個隨機變量

你可能已經注意到,我們甚至不能通過最后一節而不做涉及多個隨機變量之間相互作用的陳述(回想一下P(X,Y)=P(X)P(Y)). 大多數機器學習都與這種關系有關。在這里,樣本空間將是感興趣的人群,例如與企業進行交易的客戶、互聯網上的照片或生物學家已知的蛋白質。每個隨機變量將代表不同屬性的(未知)值。每當我們從總體中抽取一個個體時,我們都會觀察到每個隨機變量的實現。因為隨機變量取的值對應于可能重疊、部分重疊或完全不相交的樣本空間子集,所以了解一個隨機變量取的值可以使我們更新我們對另一個隨機變量的可能取值的信念. 如果一個病人走進醫院,我們觀察到他們呼吸困難并且失去了嗅覺,

當處理多個隨機變量時,我們可以構建對應于變量可以共同取值的每種組合的事件。為每個組合分配概率的概率函數(例如A=a和B=b) 稱為聯合概率函數,它簡單地返回分配給樣本空間相應子集的交集的概率。分配給隨機變量的事件的聯合概率A和B取值a和b,分別表示為P(A=a,B=b), 其中逗號表示“和”。請注意,對于任何值a和b, 它認為P(A=a,B=b)≤P(A=a)和 P(A=a,B=b)≤P(B=b), 因此A=a和B=b 即將發生,A=a必須發生并且 B=b也必須發生。有趣的是,聯合概率告訴我們所有我們可以從概率意義上了解這些隨機變量,并且可以用來推導出許多其他有用的量,包括恢復個體分布P(A)和P(B). 恢復 P(A=a)我們簡單總結一下P(A=a,B=v)在所有值 v隨機變量B可以采取: P(A=a)=∑vP(A=a,B=v).

比例P(A=a,B=b)P(A=a)≤1事實證明非常重要。它被稱為條件概率,并通過“∣“ 象征, P(B=b∣A=a)=P(A=a,B=b)/P(A=a). 它告訴我們與事件相關的新概率B=b,一旦我們以事實為條件A=a發生。我們可以將此條件概率視為僅將注意力限制在與相關聯的樣本空間子集上A=a然后重新歸一化,使所有概率總和為 1。條件概率實際上是概率,因此遵守所有公理,只要我們以同一事件為條件所有條件,從而將注意力限制在同一樣本空間。例如,對于不相交的事件B 和B′, 我們有 P(B∪B′∣A=a)=P(B∣A=a)+P(B′∣A=a).

使用條件概率的定義,我們可以推導出著名的貝葉斯定理。通過構造,我們有 P(A,B)=P(B∣A)P(A)和P(A,B)=P(A∣B)P(B). 結合兩個方程式產生 P(B∣A)P(A)=P(A∣B)P(B)因此

(2.6.1)P(A∣B)=P(B∣A)P(A)P(B).

這個簡單的等式具有深遠的意義,因為它允許我們顛倒條件反射的順序。如果我們知道如何估計 P(B∣A),P(A), 和P(B), 那么我們可以估計 P(A∣B). 我們經常發現直接估計一項而不是另一項更容易,貝葉斯定理可以在這里提供幫助。例如,如果我們知道特定疾病的癥狀流行率,以及疾病和癥狀的總體流行率,我們就可以根據癥狀確定某人患該病的可能性。在某些情況下,我們可能無法直接訪問P(B),例如癥狀的普遍性。在這種情況下,貝葉斯定理的簡化版本就派上用場了:

(2.6.2)P(A∣B)∝P(B∣A)P(A).

因為我們知道P(A∣B)必須歸一化為1, IE,∑aP(A=a∣B)=1,我們可以用它來計算

(2.6.3)P(A∣B)=P(B∣A)P(A)∑aP(B∣A=a)P(A=a).

在貝葉斯統計中,我們認為觀察者擁有一些(主觀的)先驗信念,即先驗編碼的可用假設的合理性 P(H),以及一個似然函數,表示一個人有多大可能觀察到針對類別中每個假設收??集的證據的任何值 P(E∣H). 然后貝葉斯定理被解釋為告訴我們如何更新初始先驗 P(H)鑒于現有證據E產生后驗信念 P(H∣E)=P(E∣H)P(H)P(E). 非正式地,這可以表述為“后驗等于先驗概率除以證據”。現在,因為證據P(E)對于所有假設都是相同的,我們可以通過簡單地對假設進行歸一化來擺脫困境。

注意∑aP(A=a∣B)=1也允許我們 邊緣化隨機變量。也就是說,我們可以從聯合分布中刪除變量,例如P(A,B). 畢竟我們有

(2.6.4)∑aP(B∣A=a)P(A=a)=∑aP(B,A=a)=P(B).

獨立性是另一個非常重要的概念,它構成了統計學中許多重要思想的支柱。簡而言之,如果以值為條件,則兩個變量是獨立的A不會導致與相關聯的概率分布發生任何變化 B反之亦然。更正式地說,獨立性表示為 A⊥B, 要求P(A∣B)=P(A)因此,P(A,B)=P(A∣B)P(B)=P(A)P(B). 獨立性通常是一個適當的假設。例如,如果隨機變量A表示拋一枚公平硬幣和隨機變量的結果B表示拋擲另一個的結果,然后知道是否A出現正面應該不會影響概率B出現了。

當獨立性在我們從某些基礎分布中連續抽取的數據中保持不變時(允許我們做出強有力的統計結論)或者當它在我們數據中的各種變量中保持不變時特別有用,允許我們使用編碼這種獨立性結構的更簡單的模型. 另一方面,估計隨機變量之間的依賴關系通常是學習的真正目的。我們特別關心在給定癥狀的情況下估計疾病的概率,因為我們認為疾病和癥狀不是獨立的。

請注意,因為條件概率是適當的概率,獨立性和依賴性的概念也適用于它們。兩個隨機變量A和B 在給定第三個變量的情況下是條件獨立的C當且僅當 P(A,B∣C)=P(A∣C)P(B∣C). 有趣的是,兩個變量通常可以是獨立的,但在以第三個變量為條件時變得依賴。這通常發生在兩個隨機變量 A和B對應于某些第三個變量的原因 C. 例如,骨折和肺癌在普通人群中可能是獨立的,但如果我們以住院為條件,那么我們可能會發現骨折與肺癌呈負相關。那是因為骨折解釋了為什么有人在醫院,從而降低了他們患肺癌的可能性。

相反,兩個相關的隨機變量可以在第三個條件下變得獨立。當兩個原本不相關的事件有一個共同的原因時,通常會發生這種情況。鞋碼和閱讀水平在小學生中高度相關,但如果我們以年齡為條件,這種相關性就會消失。

2.6.5. 一個例子

讓我們來測試一下我們的技能。假設醫生對患者進行 HIV 檢測。該測試相當準確,如果患者健康但報告他患病,則測試失敗的概率僅為 1%。此外,如果患者確實感染了 HIV,它永遠不會檢測不到 HIV。我們用D1∈{0,1}以表明診斷(0如果負和1如果是正數)和 H∈{0,1}來表示 HIV 狀態。

條件概率 H=1 H=0
P(D1=1∣H) 1個 0.01
P(D1=0∣H) 0 0.99

請注意,列總和均為 1(但行總和不是),因為它們是條件概率。如果檢測結果呈陽性,我們來計算患者感染 HIV 的概率,即 P(H=1∣D1=1). 直覺上這將取決于疾病的普遍程度,因為它會影響誤報的數量。假設人口相當健康,例如, P(H=1)=0.0015. 要應用貝葉斯定理,我們需要應用邊緣化來確定

(2.6.5)P(D1=1)=P(D1=1,H=0)+P(D1=1,H=1)=P(D1=1∣H=0)P(H=0)+P(D1=1∣H=1)P(H=1)=0.011485.

這導致我們

(2.6.6)P(H=1∣D1=1)=P(D1=1∣H=1)P(H=1)P(D1=1)=0.1306.

換句話說,盡管使用了非常準確的測試,但患者實際感染 HIV 的可能性只有 13.06%。正如我們所見,概率可能是違反直覺的。患者收到這樣可怕的消息該怎么辦?患者可能會要求醫生進行另一項測試以獲得清晰度。第二個測試有不同的特點,不如第一個好。

條件概率 H=1 H=0
P(D2=1∣H) 0.98 0.03
P(D2=0∣H) 0.02 0.97

不幸的是,第二次測試也呈陽性。讓我們通過假設條件獨立來計算調用貝葉斯定理的必要概率:

(2.6.7)P(D1=1,D2=1∣H=0)=P(D1=1∣H=0)P(D2=1∣H=0)=0.0003,P(D1=1,D2=1∣H=1)=P(D1=1∣H=1)P(D2=1∣H=1)=0.98.

現在我們可以應用邊緣化來獲得兩個測試都返回陽性的概率:

(2.6.8)P(D1=1,D2=1)=P(D1=1,D2=1,H=0)+P(D1=1,D2=1,H=1)=P(D1=1,D2=1∣H=0)P(H=0)+P(D1=1,D2=1∣H=1)P(H=1)=0.00176955.

最后,在兩項測試均為陽性的情況下,患者感染 HIV 的概率為

(2.6.9)P(H=1∣D1=1,D2=1)=P(D1=1,D2=1∣H=1)P(H=1)P(D1=1,D2=1)=0.8307.

也就是說,第二次測試讓我們更加確信并非一切都很好。盡管第二次測試的準確性遠低于第一次,但它仍然顯著改善了我們的估計。假設這兩個測試是條件獨立的,這對于我們生成更準確的估計的能力至關重要。以我們兩次運行相同測試的極端情況為例。在這種情況下,我們期望兩次的結果相同,因此再次運行相同的測試不會獲得額外的洞察力。精明的讀者可能已經注意到,診斷的行為就像一個隱藏在眾目睽睽之下的分類器,隨著我們獲得更多特征(測試結果),我們判斷患者是否健康的能力也會增強。

2.6.6. 期望

通常,做出決策不僅需要查看分配給單個事件的概率,還需要將它們組合成有用的集合,從而為我們提供指導。例如,當隨機變量采用連續標量值時,我們通常關心知道平均期望值是多少。這個數量正式稱為 期望。如果我們正在進行投資,第一個感興趣的數量可能是我們可以預期的回報,對所有可能的結果進行平均(并按適當的概率加權)。例如,假設一項投資有 50% 的可能性完全失敗,有 40% 的可能性它可能提供 2× 返回,并且有 10% 的概率它可能提供 10× 返回 10×. 為了計算預期回報,我們將所有回報相加,將每個回報乘以它們發生的概率。這產生了期望 0.5?0+0.4?2+0.1?10=1.8. 因此預期回報為 1.8×.

一般來說,隨機變量的 期望(或平均值)X定義為

(2.6.10)E[X]=Ex~P[x]=∑xxP(X=x).

同樣,對于我們獲得的密度E[X]=∫xdp(x). 有時我們對某些函數的期望值感興趣 x. 我們可以將這些期望計算為

(2.6.11)Ex~P[f(x)]=∑xf(x)P(x)andEx~P[f(x)]=∫f(x)p(x)dx

分別用于離散概率和密度。回到上面的投資例子,f可能是 與回報相關的效用(幸福)。行為經濟學家早就注意到,人們將更大的負效用與虧損聯系起來,而不是從相對于他們的基線賺取一美元所獲得的效用。此外,金錢的價值往往是次線性的。擁有 10 萬美元與零美元可以在支付房租、吃得好、享受優質醫療保健與遭受無家可歸的痛苦之間產生差異。另一方面,擁有 200k 相對于 100k 的收益就不那么顯著了。這樣的推理激發了“金錢的效用是對數”的陳詞濫調。

如果與總損失相關的效用為 -1,與 1、2 和 10 的回報相關的效用分別為 1、2 和 4,則投資的預期幸福感為 0.5?(?1)+0.4?2+0.1?4=0.7(預計效用損失 30%)。如果這確實是你的效用函數,你最好還是把錢存在銀行里。

對于財務決策,我們可能還想衡量一項投資的風險有多大。在這里,我們不僅關心預期值,還關心實際值相對于該值的變化幅度。請注意,我們不能只期望實際值和預期值之間的差異。這是因為對差異的期望是期望的差異,因此 E[X?E[X]]=E[X]?E[E[X]]=0. 然而,我們可以看看這種差異的任何非負函數的期望。隨機變量的方差 是通過查看方差的期望值來計算的:

(2.6.12)Var[X]=E[(X?E[X])2]=E[X2]?E[X]2.

這里的平等通過擴大 (X?E[X])2=X2?2XE[X]+E[X]2并對每個學期都抱有期望。方差的平方根是另一個有用的量,稱為標準差。雖然方差和標準差傳達相同的信息(其中一個可以從另一個計算),但標準差具有很好的特性,即它以與隨機變量表示的原始數量相同的單位表示。

最后,隨機變量函數的方差被類似地定義為

(2.6.13)Varx~P[f(x)]=Ex~P[f2(x)]?Ex~P[f(x)]2.

回到我們的投資示例,我們現在可以計算投資的方差。它由 0.5?0+0.4?22+0.1?102?1.82=8.36. 就所有意圖和目的而言,這是一項風險投資。請注意,根據數學慣例,均值和方差通常被稱為 μ和σ2. 每當我們使用它來參數化高斯分布時,這尤其常見。

就像我們為標量 隨機變量引入期望和方差一樣,我們也可以為向量值隨機變量這樣做。期望很容易,因為我們可以按元素應用它們。例如, μ=defEx~P[x] 有坐標μi=Ex~P[xi]. 協方差更復雜。我們通過對隨機變量與其均值之差的外積進行期望來解決該問題。

(2.6.14)Σ=defCovx~P[x]=Ex~P[(x?μ)(x?μ)?].

這個矩陣Σ稱為協方差矩陣。查看其效果的一種簡單方法是考慮一些向量 v大小與x. 它遵循

(2.6.15)v?Σv=Ex~P[v?(x?μ)(x?μ)?v]=Varx~P[v?x].

像這樣,Σ允許我們計算任何線性函數的方差x通過一個簡單的矩陣乘法。非對角線元素告訴我們坐標是如何相關的:值為 0 表示不相關,其中較大的正值表示它們的相關性更強。

2.6.7. 討論

在機器學習中,有很多事情是不確定的!我們可以不確定給定輸入的標簽值。我們可以不確定參數的估計值。我們甚至可以不確定到達部署的數據是否來自與訓練數據相同的分布。

通過任意不確定性,我們表示問題固有的不確定性,并且由于觀察到的變量無法解釋的真正隨機性。通過認知不確定性,我們表示模型參數的不確定性,我們希望通過收集更多數據來減少這種不確定性。關于硬幣正面朝上的概率,我們可能存在認知上的不確定性,但即使我們知道了這個概率,我們也會對未來任何拋擲的結果產生不確定性。無論我們觀察某人拋硬幣多長時間,我們都不會超過或低于 50% 確定下一次拋硬幣會正面朝上。這些術語歸功于機械建模方面的文獻,(參見例如Der Kiureghian 和 Ditlevsen(2009)對不確定性量化 這一方面的審查)。值得注意的是,這些術語構成了輕微的語言濫用。認知一詞指的是與知識有關的任何事物 ,因此在哲學意義上,所有不確定性都是認知的。

我們看到,從一些未知概率分布中抽樣數據可以為我們提供可用于估計數據生成分布參數的信息。也就是說,這可能的速度可能非常慢。在我們的拋硬幣示例(以及許多其他示例)中,我們只能設計以以下速率收斂的估計器1/n, 在哪里n是樣本量(例如,投擲次數)。這意味著通過從 10 次觀察到 1000 次觀察(通常是一項非常容易完成的任務),我們看到不確定性減少了 10 倍,而接下來的 1000 次觀察的幫助相對較小,僅減少了 1.41 倍。這是機器學習的一個持久特征:雖然通常很容易獲得收益,但它需要大量數據,并且通常需要大量計算才能獲得更多收益。有關大規模語言模型這一事實的實證回顧,請參閱 Revels等人。(2016 年)。

我們還改進了統計建模的語言和工具。在此過程中,我們學習了條件概率和統計學中最重要的方程之一——貝葉斯定理。它是通過似然項對數據傳遞的信息進行解耦的有效工具P(B∣A)這解決了觀察的好壞B匹配參數選擇A和先驗概率P(A)它決定了一個特定選擇的合理性A排在第一位。特別是,我們看到了如何根據測試的有效性和疾病本身的流行程度(即我們的先驗)應用此規則來分配診斷概率。

最后,我們介紹了第一組關于特定概率分布影響的重要問題,即期望和方差。雖然概率分布不僅僅有線性和二次期望,但這兩個已經提供了大量關于分布可能行為的知識。例如,切比雪夫不等式 指出P(|X?μ|≥kσ)≤1/k2, 在哪里 μ是期待,σ2是分布的方差,并且k>1是我們選擇的置信度參數。它告訴我們,從一個分布中抽取的樣本至少有 50% 的概率落在[?2σ,2σ] 區間以期望為中心。

2.6.8. 練習

舉一個例子,觀察更多的數據可以將結果的不確定性降低到任意低的水平。

舉一個例子,觀察更多的數據只會將不確定性減少到一定程度,然后就不會再減少了。解釋為什么會出現這種情況,以及您預計這一點會出現在哪里。

我們憑經驗證明了收斂于拋硬幣的均值。計算我們在繪制后看到頭部的概率估計的方差n樣品。

方差如何與觀測值數量成比例?

使用 Chebyshev 不等式限制與期望的偏差。

它與中心極限定理有何關系?

假設我們畫n樣本xi來自具有零均值和單位方差的概率分布。計算平均值 zm=defm?1∑i=1mxi. 我們能否將切比雪夫不等式應用于每個zm獨立?為什么不?

給定兩個概率事件P(A)和 P(B), 計算上界和下界 P(A∪B)和 P(A∩B). 提示:使用維恩圖來描繪情況。

假設我們有一系列隨機變量,比如A, B, 和C, 在哪里B只取決于A, 和C只取決于B, 你能簡化聯合概率嗎P(A,B,C)?提示:這是一個馬爾可夫鏈。

在第 2.6.5 節中,假設兩個測試的結果不是獨立的。特別假設任一測試本身的假陽性率為 10%,假陰性率為 1%。也就是說,假設 P(D=1∣H=0)=0.1然后 P(D=0∣H=1)=0.01. 此外,假設對于 H=1(感染)測試結果是條件獨立的,即 P(D1,D2∣H=1)=P(D1∣H=1)P(D2∣H=1)但對于健康患者來說,結果是通過以下方式耦合的 P(D1=D2=1∣H=0)=0.02.

計算聯合概率表D1和 D2, 給定H=0根據你目前掌握的信息。

推導患者為陽性的概率(H=1) 在一次測試返回正面之后。您可以假設相同的基線概率P(H=1)=0.0015像之前一樣。

推導患者為陽性的概率(H=1) 在兩次測試返回正面之后。

假設你是一家投資銀行的資產經理,你可以選擇股票si投資。您的投資組合需要加起來1有重量αi對于每只股票。這些股票的平均回報率 μ=Es~P[s]和協方差 Σ=Covs~P[s].

計算給定投資組合的預期回報 α.

如果你想最大化投資組合的回報,你應該如何選擇你的投資?

計算投資組合的方差。

制定一個最大化回報的優化問題,同時將方差限制在上限。這是獲得諾貝爾獎的Markovitz 作品集 (Mangram,2013 年)。要解決它,您將需要一個二次規劃求解器,這超出了本書的范圍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13249
收藏 人收藏

    評論

    相關推薦

    統計學的概率分布

    統計學術語總結
    發表于 09-27 16:24

    PyTorch如何入門

    PyTorch 入門實戰(一)——Tensor
    發表于 06-01 09:58

    概率論及數理統計課教學規范

    概率論及數理統計》課教學規范 一、 課程教學的基本要求 課程名稱:概率論及數理統計英文名稱:Probaility Theory and Mathematical Sta
    發表于 11-25 15:08 ?0次下載

    統計置信度應用于誤差概率估計

    本文主要介紹的是統計置信度應用于誤差概率估計。
    發表于 04-22 11:39 ?23次下載

    概率論與數理統計視頻教程下載

    概率論與數理統計視頻教程一共有四個免費視頻教程,請自已選擇喜歡的視頻教程。 本概
    發表于 07-05 18:40 ?494次下載
    <b class='flag-5'>概率</b>論與數理<b class='flag-5'>統計</b>視頻教程下載

    概率論與數理統計學習資料

     《概率論與數理統計》優秀學習資料,概率論與數理統計學習資料隨機試驗、樣本空間與隨機事件(1)隨機試驗:具有以下三個特點的試驗稱為隨機試驗,記為E.1) 試驗可
    發表于 02-13 11:40 ?0次下載

    matlab概率統計實驗

    matlab概率統計實驗9.1 實驗(I):Galton釘板試驗9.1.1 實驗與觀察: Galton釘板模型和二項分布        1. 動
    發表于 10-17 00:38 ?4291次閱讀
    matlab<b class='flag-5'>概率</b><b class='flag-5'>統計</b>實驗

    工程數學概率統計教程課后習題答案

    本內容向大家提供了《工程數學概率統計教程》的課后習題答案, 完整的詳細的解題思路及題目的答案等,適合廣大學生及相關人員學習借鑒
    發表于 03-15 15:14 ?56次下載

    概率論與數理統計習題答案

    電子發燒友為大家提供了 概率論 與數理統計習題答案,幫助您解決在學習中遇到無法單獨解決的問題,希望對您的學習有所幫助,為您的學習提供便捷之路!
    發表于 07-14 16:56 ?84次下載

    概率論與數理統計PDF電子書免費下載

    主要內容包括:概率論的基本概念、隨機變量及其概率分布、數字特征、大數定律與中心極限定理、統計量及其概率分布、參數估計和假設檢驗、回歸分析、方差分析、馬爾科夫鏈等內容。
    發表于 11-25 08:00 ?0次下載
    <b class='flag-5'>概率</b>論與數理<b class='flag-5'>統計</b>PDF電子書免費下載

    概率論與數理統計的復習題和答案免費下載

    本文檔的主要內容詳細介紹的是概率論與數理統計的復習題和答案免費下載。
    發表于 06-28 08:00 ?16次下載
    <b class='flag-5'>概率</b>論與數理<b class='flag-5'>統計</b>的復習題和答案免費下載

    DSP教程之統計概率和噪聲的詳細資料說明

    統計概率在數字信號處理中被用來描述信號和產生它們的過程。例如,DSP的主要用途是減少所采集數據中的干擾、噪聲和其他不需要的分量。這些可能是被測信號的固有部分,由數據采集系統的缺陷引起,或作為某些
    發表于 10-22 16:05 ?4次下載
    DSP教程之<b class='flag-5'>統計</b><b class='flag-5'>概率</b>和噪聲的詳細資料說明

    基于概率統計等的云計算隱私保護綜合評價模型

    基于概率統計等的云計算隱私保護綜合評價模型
    發表于 06-24 17:02 ?13次下載

    概率統計與隨機過程期末試卷及答案下載

    概率統計與隨機過程期末試卷及答案下載
    發表于 09-06 16:12 ?0次下載

    PyTorch教程2.6概率統計

    電子發燒友網站提供《PyTorch教程2.6概率統計.pdf》資料免費下載
    發表于 06-05 11:29 ?1次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>2.6</b>之<b class='flag-5'>概率</b><b class='flag-5'>統計</b>
    主站蜘蛛池模板: 亚洲444444在线观看| 天天干天天在线| 亚洲三级在线| 久久午夜网| cijilu刺激 国产免费的| 美女教师一级毛片| 日韩在线三级| 天堂网在线视频| 中日韩在线视频| 激激婷婷综合五| 亚洲一区二区视频| 超大乳抖乳露双乳视频| 久久国产伦三级理电影| 欧美激情亚洲色图| 日韩欧美一区二区三区不卡视频 | 欧美三级在线免费观看| 双性受粗大撑开白浊| 亚洲性影院| 亚洲国产网| 热久热| 夜色成人网| 国内一区二区三区精品视频| 亚洲天堂资源网| 欧美啪啪小视频| 国产国产人免费人成成免视频| 色多多www| 视频在线色| 三区在线观看| 久草婷婷| 五月停停| 男人午夜禁片在线观看| 欧美一级免费| aa1在线天堂| 最近免费| 午夜免费视频观看在线播放| 午夜三级福利| 99热99操99射| 18欧美乱大交| 亚a在线| 色视频一区二区三区| 欧美不卡视频|