深度探索数据科学：机器学习技术解析

更新:10-27 名人轶事我要投稿纠错投诉

很多朋友对于深度探索数据科学：机器学习技术解析和不太懂，今天就由小编来为大家分享，希望可以帮助到大家，下面一起来看看吧！

2，合页损失函数

通用型号为

Hinge loss，重要的组成部分叫做函数区间，如果分类正确则大于0，如果分类错误则小于0

2.1 感知机损失函数

2.2 SVM损失函数

2.3 讨论

方括号+表示如果括号内的值小于0，则该值等于0，如果括号内的值大于0，则保持原值。

两者的经验损失部分很相似，但相差1，这意味着SVM的经验损失比感知器的经验损失更严格（即使分类正确，仍然会造成损失）

我认为两者的损失函数（经验损失）都是铰链损失函数（以函数区间为x轴），但SVM是向右一格。 SVM 相对于感知器的真正优势在于它的L2 正则性。当然，能够引入内核函数是其更重要的属性和优势。

另外，SVM的损失函数就相当于它的优化问题。将约束优化问题转化为无约束优化问题的数学转换和证明也非常巧妙。

3，以熵或基尼指数度量的损失函数

决策树的损失函数

决策树的损失函数常用于树剪枝。

表示t叶节点上的熵或基尼指数。

通过计算剪枝前后损失函数的大小来决定是否剪枝。

4，交叉熵损失函数(Cross Entropy Loss)

4.1 K-L散度(KullbackLeibler divergence)

又称相对熵（Relative Entropy）

例如：

假设我们获取某地区人口年龄的样本数据D

代表0 至98 岁的人口，以10,000 人为单位。

此时，我们希望对这批数据进行分布拟合，以预测该地区的整体年龄分布。

0-98均匀分布的一个思考

B 认为均值为45、方差为30 的正态分布

尽管两种拟合看起来都不可靠，但这两种分布哪个更好呢？

K-L散度可以解决这个问题

所谓拟合一个分布，其实就是得到一系列离散或连续的概率值

我们还可以通过观察数据/训练数据得到它的分布

K-L散度定义如下：

显然，K-L散度指的是两个分布在同一值下对数概率之差的期望P。Q的两个分布越接近，KL散度越小。

当两个分布相等时（所有对应的概率都相等），KL散度=0

另外需注意，KL散度不对称即：

4.2 交叉熵(Cross Entropy)

可由KL散度公式计算

在

它是PQ的交叉熵。

因为我们的观测数据或训练数据的熵往往是固定的，所以KL散度和交叉熵之间的差异只是一个固定值。因此，可以用交叉熵代替KL散度来评估两个分布或某一个分部与训练数据的差异。

4.3 交叉熵损失函数

1，对于一个二分类任务样本的交叉熵损失为

在

那么总体损失就是所有样本的总和

2，对于一个多分类任务样本的交叉熵损失为

在

表示样本是否属于c类

M 是类别c 的数量

是样本为c 类的概率

那么总体损失就是所有样本的总和

可见，对于多样本交叉熵损失函数，模型需要预测样本属于每个类别的概率值。

5，最大化似然估计与对数损失(Maximum Likelihood Estimation Logistic Loss)

5.1 最大似然估计

最大似然估计的核心思想是：观测数据D之所以被观测，是因为数据D出现的概率本身就很高。这个想法很简单。

似然函数如下：

最大似然估计就是在当前数据下找到中的最大值。

例如，估计抛硬币时正面朝上的概率

前台

反向

只抛1次，正面朝上

然后最大化

即

抛10次，正6反4

为了找到最大值，让导数=0。

表示p=0.6

抛10000次，正4901反5099

当获取到时，获取到最大值

5.2 最大似然函数做目标函数-对数损失

比如逻辑回归LR的推导中，由于逻辑回归估计的是样本为正样本的概率，

这里那么对于一个样本(x,y)，它的似然函数

对于所有训练数据：

又因为最大化L相当于最大化，所以相当于最小化

因为对数具有乘法和转化为加法的性质

所以只要找到最小化-logL 的参数（逻辑回归的w ）

这不正是交叉熵损失函数吗？，也叫对数损失。所以对数损失函数和交叉熵损失函数是等价的交叉熵损失函数，从熵的角度衡量模型差异

对数函数，从统计估计的角度衡量模型拟合度

5.3 对数损失的进一步扩展

如果我们更改，则负类标签从0 更改为-1

那么有

但

这也是对数损失，但这次标签是

6，指数损失(Exponential Loss)

应用于增性模型Adaboost。

因为指数具有指数相加等于数字相乘的性质：

所以，对于加法模型

有

7,均方误差(Mean Square Error MSE)

mula=L%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D(y-f(x))%5E2" alt="L=frac{1}{N}sum_{i=1}^{N}(y-f(x))^2" />

8,平方绝对误差(Mean Absolute Error MAE)

8.1 MSE VS MAE

1，MSE全程可导，MAE在0处不可导 2，MAE更鲁棒：两者差别以为分界线 0~1之间时，MSE< 大于1时，MSE>>MAE 而当数据有异常值时，往往此时MSE>>MAE 这表示，使用MSE对异常值会更加敏感，而算法为了降低MSE，就会使模型过度偏向异常值。这种现象在MAE上就会减轻很多。所以可以说MAE相对于MSE更鲁棒一些。另一个解释是，当我们用一个定值去拟合一列数时，MSE拟合的是数据的平均数，而MAE拟合的是数据的中位数。所以MSE拟合的是平均数对于MAE 我们对x从小到大排序所以MAE拟合的是一个区间，这个区间通常可以取中位数替代。显然中位数对异常值是不敏感的，而平均值则会敏感。这提示我们对于不同的数据，需要选择不同的损失。就想在预测全国人均收入问题上，由于大部分财富集中在很小一部分人中，这些数据就相当于异常值，所以中位数更能代表人均收入水平。 3，对于梯度下降法来说，MSE梯度随着越接近最优点而越来越小，相当于一开始迈大步快速接近极值，后面迈小步精确靠近极值。而MAE的导数一直为1不变，使得它在靠近极值时容易一步跨过。

9，Huber损失函数

这个函数是全局可导的，他是MSE与MAE的结合，拥有两者的优点。通过来调节MSE和MAE的占比。

10，分位数损失函数(Quantile Loss)

要理解分位数损失函数，首先要理解MAE，MAE是拟合中位数的损失函数(即离差绝对值的期望在中位数处取得最低) 而中位数就是分位数的一种。另外，我们考虑一种回归问题。以一元回归为例，在众多数据中，我们可以拟合一条曲线，这条曲线告诉我们对于某个x可能的拟合结果y=f(x)。即使真实y不是f(x)，也应该在f(x)附近，此时，我们的预测是一个点。但是，我们如果想要获取一个y的范围呢？即对于x，我想知道y的大致范围。因为很多时候，我们不需要精确值，反而更需要一个范围值。此时，我们需要预测一个线段。那怎么做呢？其实如果我们能分别获得y的0.1分位数与0.9分位数的拟合，那么两者之间的部分就是我们需要的，它预测了y的80%的取值范围此时，就需要优化分位数损失函数：即，该损失函数对预测值大于真实值和小于真实值得惩罚是不一样的。当时，该损失等价于MAE 当时，该损失对预测值小于真实值的情况惩罚更大当时，该损失对预测值大于真实值的情况惩罚更大

11 总结

本节讲述了常见的损失函数。损失函数大致分为应用于分类的和应用于回归的。从7均方误差之后，基本上都用于回归。不同的模型会有自己比较适合的损失函数回归问题的损失函数，往往存在的部分，我们称之为残差回归损失函数往往围绕残差构建。分类问题，就二分类(多分类往往建立在二分类的基础上)而言，标签y往往存在两种形式：or对于11.2的情况，模型往往倾向于把预测值转换成概率从而使用交叉熵损失log损失，这些损失函数都存在(或)部分。这样的模型有LR，神经网络对于11.3的情况，模型往往倾向于构建分类超平面，再通过判断标签，例如感知机，SVM。又如集成学习Adaboost，其模型,而标签也是由来决定，这几个模型的损失函数往往存在的部分。可以看到分类的损失函数，常围绕来构建当然，有的模型对于标签形式是不敏感的，例如k近邻，决策树等,因为这些模型没有把y用于损失计算，其损失函数也会比较不同。不同的损失函数也有不同的特性

END，本文到此结束，如果可以帮助到大家，还望关注本站哦！