泛化性能评估方法对数据集D分割产生训练集S和测试集T：
- 留出法(hold-out)：将数据集D划分为两个互斥的集合：训练集S、测试集T。在S上训练出模型后，用T来评估其测试误差。
- 交叉验证法(cross validation)：
- 自助法(bootstrapping)：数据量少时用
性能度量：衡量模型泛化能力的评价标准
- 回归任务：均方误差
- 分类任务：
  - 错误率和精度
  - 查准率precision、查全率recall与F1度量
  - ROC与AUC(ROC曲线下的面积)
  - 代价敏感错误率与代价曲线
线性模型
- 线性回归：基于最小化均方误差来进行模型求解，称为最小二乘法。 回归任务
  
  (在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小)
- 对数几率回归：用线性回归模型的预测结果去逼近真实标记的对数几率 分类任务
- 线性判别分析LDA：给定训练样例集，将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。 监督降维技术
- 多分类学习：将多分类任务拆为若干个二分类任务求解
  - 拆分策略：一对一OvO、一对其余OvR、多对多MvM
- 类别不平衡问题：
  - 再缩放
  - 欠采样、过采样、阈值移动
决策树：基于树结构来进行决策的，从根节点一步步走到叶子节点(决策) 分而治之
- 所有的数据最终都会落到叶子结点，既可以做分类也可以做回归
- 划分选择：用信息增益、增益率、基尼指数来进行决策树的划分属性选择
- 剪枝处理：降低过拟合
  - “预剪枝”策略：分支更少，降低了过拟合；减少了训练和测试时间开销；易欠拟合
  - “后剪枝”策略：分支更多，欠拟合风险小，泛化性能高于预剪枝；时间开销大
- 连续值处理：连续属性离散化技术采用二分法对连续属性进行处理
  - 与离散属性不同，若当前结点划分属性为连续

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MachineLearning.md

MachineLearning.md

Files

MachineLearning.md

Latest commit

History

MachineLearning.md

File metadata and controls