机器学习基础概念
什么是机器学习
机器学习是人工智能的一个分支,它使计算机能够从数据中学习,而无需显式编程。
学习类型
监督学习 (Supervised Learning)
给定带标签的训练数据,学习输入到输出的映射关系。
常见算法:
| 算法 | 用途 | 特点 |
|---|---|---|
| 线性回归 | 预测连续值 | 简单、可解释 |
| 逻辑回归 | 二分类问题 | 输出概率 |
| 决策树 | 分类/回归 | 易于理解 |
| 支持向量机 | 分类 | 高维有效 |
| 神经网络 | 复杂模式识别 | 表达能力强 |
无监督学习 (Unsupervised Learning)
处理无标签数据,发现数据内在结构。
常见算法:
- 聚类: K-Means, DBSCAN, 层次聚类
- 降维: PCA, t-SNE, UMAP
- 关联规则: Apriori, FP-Growth
强化学习 (Reinforcement Learning)
通过与环境交互,学习最优策略以最大化累积奖励。
核心概念:
Agent (智能体) → Action (动作) → Environment (环境)
↓
Reward (奖励)
↓
State (新状态)
关键术语
特征 (Feature): 用于描述数据的属性或变量。
标签 (Label): 监督学习中要预测的目标值。
过拟合 (Overfitting): 模型在训练集上表现好,但在新数据上表现差。
欠拟合 (Underfitting): 模型无法捕捉数据的基本模式。
交叉验证 (Cross Validation): 评估模型性能的统计方法。
模型评估指标
分类问题
准确率 (Accuracy) = (TP + TN) / (TP + TN + FP + FN)
精确率 (Precision) = TP / (TP + FP)
召回率 (Recall) = TP / (TP + FN)
F1 分数 = 2 × (Precision × Recall) / (Precision + Recall)
回归问题
MSE (均方误差) = Σ(y - ŷ)² / n
RMSE (均方根误差) = √MSE
MAE (平均绝对误差) = Σ|y - ŷ| / n
R² (决定系数) = 1 - SS_res / SS_tot
学习建议
- 先掌握数学基础(线性代数、概率论、微积分)
- 理解算法原理,不要只调包
- 多做实践项目,积累实战经验
- 阅读经典论文,跟踪前沿进展