2024/03/18 • statistics

概率论与统计学基础

数据科学必备的概率论与统计学核心概念

#统计学 #概率论 #数学

概率基础

样本空间 (Ω): 所有可能结果的集合

事件 (E): 样本空间的子集

概率公理：

P(A|B) = P(A ∩ B) / P(B),  其中 P(B) > 0
贝叶斯定理：
P(A|B) = P(B|A) × P(A) / P(B)

离散分布：

分布	概率质量函数	期望	方差
伯努利	P(X=k) = p^k(1-p)^(1-k)	p	p(1-p)
二项	P(X=k) = C(n,k)p^k(1-p)^(n-k)	np	np(1-p)
泊松	P(X=k) = λ^k e^(-λ) / k!	λ	λ

连续分布：

分布	概率密度函数	期望	方差
均匀	f(x) = 1/(b-a)	(a+b)/2	(b-a)²/12
正态	f(x) = (1/√(2πσ²))e^(-(x-μ)²/(2σ²))	μ	σ²
指数	f(x) = λe^(-λx)	1/λ	1/λ²

均值：μ = Σxᵢ / n
中位数：排序后中间的值
众数：出现频率最高的值

方差：σ² = Σ(xᵢ - μ)² / n
标准差：σ = √σ²
极差：R = x_max - x_min
四分位距：IQR = Q3 - Q1

偏度 (Skewness): 衡量分布对称性

峰度 (Kurtosis): 衡量分布陡峭程度

无论总体分布如何，当样本量足够大时，样本均值的抽样分布近似正态分布。

X̄ ~ N(μ, σ²/n)
标准化：Z = (X̄ - μ) / (σ/√n) ~ N(0,1)

总体均值的置信区间（σ 已知）：

CI = X̄ ± z_(α/2) × (σ/√n)
常用置信水平：
90% → z = 1.645
95% → z = 1.96
99% → z = 2.576

基本步骤：

常见检验：