机器学习笔记

概念

通过学习如何【组合输入信息】来对从未见过的数据做出有用的【预测】

术语

标签：要预测的事物
特征：输入变量
样本：特定实例（分为有标签样本和无标签样本）
模型：定义特征与标签的关系
训练：创建或学习模型（通过有标签样本学习）
推断：将训练后的模型应用于无标签样本
损失：是一个数值，表示对于单个样本而言模型预测的准确程度。
平方损失：一种常见的损失函数 (y - y’)2
均方误差 (MSE) ：每个样本的平均平方损失。要计算 MSE，请求出各个样本的所有平方损失之和，然后除以样本数量。

如何降级损失

迭代试错
梯度下降法/随机梯度下降法
优化学习速率/步长

过拟合

过拟合模型在训练过程中产生的损失很低，但在预测新数据方面的表现却非常糟糕。

奥卡姆剃刀定律

机器学习模型越简单，良好的实证结果就越有可能不仅仅基于样本的特性。

泛化

1.随机抽取独立同分布 (i.i.d) 的样本，即样本之间不会互相影响
2.分布是平稳的；即分布在数据集内不会发生变化
3.从同一分布的数据划分中抽取样本

训练集

用于训练模型的子集

测试集

用于测试训练后模型的子集
1.规模足够大，可产生具有统计意义的结果。
2.能代表整个数据集。换言之，挑选的测试集的特征应该与训练集的特征相同。
ps: 请勿对测试数据进行训练

验证集

使用验证集评估训练集的效果

更好的工作流程

使用训练集训练模型 -> 使用验证集评估模型 -> 根据在验证集上获得的效果调整模型 -> 选择获得最佳效果的模型 -> 使用测试集确认模型的效果

特征工程

将原始数据转换为特征矢量

良好的特征值

1.在数据集中出现大约 5 次以上
2.具有清晰明确的含义
3.实际数据内不掺入特殊值
4.特征的定义不应随时间发生变化

数据清理

缩放特征值
处理极端离群值

特征组合

通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征

正则化

通过降低复杂模型的复杂度来防止过拟合
也就是说，以最小化损失和复杂度为目标（这称为结构风险最小化）

逻辑回归

一种极其高效的概率计算机制
返回的是概率（按原样/转换成二元类别）

1 线性回归的损失函数是平方损失。逻辑回归的损失函数是对数损失函数
2 “调整”逻辑回归的阈值不同于调整学习速率等超参数。在选择阈值时，需要评估您将因犯错而承担多大的后果

准确率精确率召回率

TP = 真正例，TN = 真负例，FP = 假正例，FN = 假负例
Accuracy（准确率）= TP + TN / ( TP + TN + FP + FN )
Precision（精确率）= TP / ( TP + FP )
Recall（召回率/真正例率）= TP / ( TP + FN )
FPR（假正例率）= FP / （FP + TN）

ROC 曲线

用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别，从而增加假正例和真正例的个数。

ROC 曲线下面积

对所有可能的分类阈值的效果进行综合衡量。
看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。

预测偏差

预测偏差 = 预测平均值 - 数据集中相应标签的平均值

神经网络

一组节点，类似于神经元，位于层中。
一组权重，表示每个神经网络层与其下方的层之间的关系。下方的层可能是另一个神经网络层，也可能是其他类型的层。
一组偏差，每个节点一个偏差。
一个激活函数，对层中每个节点的输出进行转换。不同的层可能拥有不同的激活函数。

嵌套

将大型稀疏矢量映射到一个保留语义关系的低维空间。

偏差类型

报告偏差、自动化偏差、选择偏差、群体归因偏差、隐性偏差

识别偏差

特征值缺失、异常特征值、数据倾斜