机器学习
按课程方式系统讲解机器学习:从学习问题、线性模型、优化、泛化到评估、贝叶斯、SVM、神经网络,和概率统计主线联动展开。
当前状态
这页目前主要是专栏导读与内容主线,正式文章还在整理中。后续文章发布后,会自动出现在本页目录中。
专栏导读
这门课不是“调库课”,而是建模课
这个专栏不会把机器学习写成算法名词表,也不会只给调用代码。
它会按课程主线来讲:
- 机器学习到底在学什么;
- 监督学习为什么本质上是风险最小化;
- 损失函数、似然、正则化和泛化之间是什么关系;
- 为什么有的模型重可解释,有的模型重表达能力;
- 如何从统计语言走到算法语言,再走到评估和实际决策。
课程对象
- 想系统入门机器学习,而不是只会调库
- 学过一些模型,但概念仍然零散
- 希望把机器学习和概率统计真正打通
- 想先搭建完整骨架,再深入更复杂模型
每讲尽量统一的结构
- 本讲要解决什么问题
- 建模对象与核心概念
- 公式、损失或算法的来历
- 典型例子与方法分析
- 常见误区
- 本讲小结
课程主线
第一编:学习问题与线性模型
- 机器学习到底在学什么
- 线性回归与逻辑回归
- 损失函数、梯度下降与优化直觉
第二编:泛化与模型选择
- 训练集、验证集、测试集、过拟合与正则化
- 模型评估、阈值、准确率、精确率、召回率与 AUC
第三编:生成式与判别式基础模型
- 贝叶斯视角、生成式建模与朴素贝叶斯
- 支持向量机与最大间隔分类
第四编:树模型与集成方法
- 决策树、随机森林与梯度提升树
第五编:表示学习与无监督学习
- 聚类、降维与 PCA
- 神经网络与反向传播
和概率统计的关系
这个专栏会和概率统计专栏一起推进,因为很多核心概念本来就是统计概念:
- 线性回归可由最小二乘和高斯噪声解释;
- 逻辑回归与伯努利分布、极大似然和交叉熵直接相关;
- 模型评估离不开抽样误差、阈值选择与概率校准;
- 贝叶斯、PCA、回归分析、神经网络优化都和统计思想直接相连。
所以机器学习不是脱离概率统计单独生长出来的,而是统计建模、函数逼近与数值优化在现代计算环境中的结合。