AD

赞助支持|如果您觉得本站有帮助,欢迎赞助支持网站运营

立即支持 →
statistics

概率论与统计学基础

数据科学必备的概率论与统计学核心概念

#统计学 #概率论 #数学

概率论与统计学基础

概率基础

基本概念

样本空间 (Ω): 所有可能结果的集合

事件 (E): 样本空间的子集

概率公理:

  1. P(E) ≥ 0,对任意事件 E
  2. P(Ω) = 1
  3. 互斥事件:P(A ∪ B) = P(A) + P(B)

条件概率

P(A|B) = P(A ∩ B) / P(B),  其中 P(B) > 0

贝叶斯定理: P(A|B) = P(B|A) × P(A) / P(B)

常见分布

离散分布:

分布概率质量函数期望方差
伯努利P(X=k) = p^k(1-p)^(1-k)pp(1-p)
二项P(X=k) = C(n,k)p^k(1-p)^(n-k)npnp(1-p)
泊松P(X=k) = λ^k e^(-λ) / k!λλ

连续分布:

分布概率密度函数期望方差
均匀f(x) = 1/(b-a)(a+b)/2(b-a)²/12
正态f(x) = (1/√(2πσ²))e^(-(x-μ)²/(2σ²))μσ²
指数f(x) = λe^(-λx)1/λ1/λ²

描述统计

集中趋势

均值:μ = Σxᵢ / n
中位数:排序后中间的值
众数:出现频率最高的值

离散程度

方差:σ² = Σ(xᵢ - μ)² / n
标准差:σ = √σ²
极差:R = x_max - x_min
四分位距:IQR = Q3 - Q1

分布形状

偏度 (Skewness): 衡量分布对称性

  • 偏度 > 0:右偏(正偏)
  • 偏度 < 0:左偏(负偏)
  • 偏度 = 0:对称

峰度 (Kurtosis): 衡量分布陡峭程度

  • 峰度 > 3:尖峰(厚尾)
  • 峰度 < 3:平峰(薄尾)
  • 峰度 = 3:正态分布

推断统计

中心极限定理

无论总体分布如何,当样本量足够大时,样本均值的抽样分布近似正态分布。

X̄ ~ N(μ, σ²/n)

标准化:Z = (X̄ - μ) / (σ/√n) ~ N(0,1)

置信区间

总体均值的置信区间(σ 已知):

CI = X̄ ± z_(α/2) × (σ/√n)

常用置信水平: 90% → z = 1.645 95% → z = 1.96 99% → z = 2.576

假设检验

基本步骤:

  1. 建立假设:H₀ (原假设), H₁ (备择假设)
  2. 选择显著性水平 α (通常 0.05)
  3. 计算检验统计量
  4. 计算 p 值
  5. 做出决策:p < α 则拒绝 H₀

常见检验:

检验用途统计量
Z 检验大样本均值检验Z = (X̄ - μ₀) / (σ/√n)
t 检验小样本均值检验t = (X̄ - μ₀) / (s/√n)
卡方检验拟合优度/独立性χ² = Σ(O-E)²/E
F 检验方差比较F = s₁²/s₂²

相关与回归

相关系数:

r = Σ(xᵢ-x̄)(yᵢ-ȳ) / √[Σ(xᵢ-x̄)² × Σ(yᵢ-ȳ)²]

-1 ≤ r ≤ 1 |r| 越大,相关性越强

简单线性回归:

y = β₀ + β₁x + ε

β₁ = Σ(xᵢ-x̄)(yᵢ-ȳ) / Σ(xᵢ-x̄)² β₀ = ȳ - β₁x̄