概率论与统计学基础
概率基础
基本概念
样本空间 (Ω): 所有可能结果的集合
事件 (E): 样本空间的子集
概率公理:
- P(E) ≥ 0,对任意事件 E
- P(Ω) = 1
- 互斥事件:P(A ∪ B) = P(A) + P(B)
条件概率
P(A|B) = P(A ∩ B) / P(B), 其中 P(B) > 0
贝叶斯定理: P(A|B) = P(B|A) × P(A) / P(B)
常见分布
离散分布:
| 分布 | 概率质量函数 | 期望 | 方差 |
|---|---|---|---|
| 伯努利 | P(X=k) = p^k(1-p)^(1-k) | p | p(1-p) |
| 二项 | P(X=k) = C(n,k)p^k(1-p)^(n-k) | np | np(1-p) |
| 泊松 | P(X=k) = λ^k e^(-λ) / k! | λ | λ |
连续分布:
| 分布 | 概率密度函数 | 期望 | 方差 |
|---|---|---|---|
| 均匀 | f(x) = 1/(b-a) | (a+b)/2 | (b-a)²/12 |
| 正态 | f(x) = (1/√(2πσ²))e^(-(x-μ)²/(2σ²)) | μ | σ² |
| 指数 | f(x) = λe^(-λx) | 1/λ | 1/λ² |
描述统计
集中趋势
均值:μ = Σxᵢ / n
中位数:排序后中间的值
众数:出现频率最高的值
离散程度
方差:σ² = Σ(xᵢ - μ)² / n
标准差:σ = √σ²
极差:R = x_max - x_min
四分位距:IQR = Q3 - Q1
分布形状
偏度 (Skewness): 衡量分布对称性
- 偏度 > 0:右偏(正偏)
- 偏度 < 0:左偏(负偏)
- 偏度 = 0:对称
峰度 (Kurtosis): 衡量分布陡峭程度
- 峰度 > 3:尖峰(厚尾)
- 峰度 < 3:平峰(薄尾)
- 峰度 = 3:正态分布
推断统计
中心极限定理
无论总体分布如何,当样本量足够大时,样本均值的抽样分布近似正态分布。
X̄ ~ N(μ, σ²/n)
标准化:Z = (X̄ - μ) / (σ/√n) ~ N(0,1)
置信区间
总体均值的置信区间(σ 已知):
CI = X̄ ± z_(α/2) × (σ/√n)
常用置信水平: 90% → z = 1.645 95% → z = 1.96 99% → z = 2.576
假设检验
基本步骤:
- 建立假设:H₀ (原假设), H₁ (备择假设)
- 选择显著性水平 α (通常 0.05)
- 计算检验统计量
- 计算 p 值
- 做出决策:p < α 则拒绝 H₀
常见检验:
| 检验 | 用途 | 统计量 |
|---|---|---|
| Z 检验 | 大样本均值检验 | Z = (X̄ - μ₀) / (σ/√n) |
| t 检验 | 小样本均值检验 | t = (X̄ - μ₀) / (s/√n) |
| 卡方检验 | 拟合优度/独立性 | χ² = Σ(O-E)²/E |
| F 检验 | 方差比较 | F = s₁²/s₂² |
相关与回归
相关系数:
r = Σ(xᵢ-x̄)(yᵢ-ȳ) / √[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]
-1 ≤ r ≤ 1 |r| 越大,相关性越强
简单线性回归:
y = β₀ + β₁x + ε
β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)² β₀ = ȳ - β₁x̄