切换搜索

切换菜单

切换个人菜单

分类问题之损失函数

求闻百科，共笔求闻

建议此条目或章节与分类问题合并。（讨论）

此条目没有列出任何参考或来源。 (2018年7月5日)
求闻百科所有的内容都应该可供查证。请协助补充可靠来源以改善这篇条目。无法查证的内容可能会因为异议提出而移除。

各种代理损失函数的曲线。蓝色为0–1指示函数，绿色为平方损失函数，紫色为铰链损失函数，黄色为逻辑损失函数。注意所有代理损失函数对 $y = f (x = 0)$ 均给出1的惩罚。

在机器学习和最佳化领域中，分类问题之损失函数可以用来表达预测不准确之程度，其中分类问题主要是用来判断所侦测到的物件属于什么类别。将一个向量空间 $X$ 做为所有的输入值，而向量空间 $Y=\{-1, 1\}$ 做为所有的输出值。我们希望能够找到最佳的公式 $f: X\rightarrow\Re$ 将 $\vec{x}$ 映射到 $y$ ^[1]。然而，由于信息不完整、噪声、计算过程中的非确定性模块等因素，有可能会有相同的输入值 $\vec{x}$ 映射到不同的输出值 $y$ ^[2]。因此，这个学习过程的目的就是要最小化预期风险（更详细的介绍参见统计学习理论），预期风险之定义为：

I[f]=\textstyle \int_{X \times Y}^{} \displaystyle V(f(\vec{x},y))p(\vec{x},y)d\vec{x}dy

其中 $V(f(\vec{x},y))$ 即损失函数，而 $p(\vec{x},y)$ 为几率密度函数。而实作上概率分布 $p(\vec{x},y)$ 通常是未知的，因此我们使用由数据样本空间中取出的 $n$ 个独立且同分布（i.i.d.）的样本点

S=\{(\vec{x_1},y_1),...,(\vec{x_n},y_n)\}

作为训练集，将样本空间所得到的经验风险做为预期风险的替代，其定义为：

I_S[f]=\frac{1}{n}\sum_{i=1}^n V(f(\vec{x_i},y_i))

基于分类问题的二元性，可定义0-1函数做为匹配值之基准。因此损失函数为：

V(f(\vec{x},y))=H(-yf(\vec{x}))

其中 $H$ 为步阶函数。然而损失函数并不是凸函数或平滑函数，是一种NP-hard的问题，因此做为替代，需要使用可以追踪的机器学习算法（透过凸损失函数）。

分类问题之界线

使用贝式定理，可以基于问题的二元性最佳化映射公式 $f^*$ 为：

{\displaystyle f^*(\vec{x}) = \begin{cases} 1, & \text{if }p(1\mid\vec{x})>p(-1\mid\vec{x}) \\ -1, & \text{if }p(1\mid\vec{x})<p(-1\mid\vec{x}) \end{cases}}

当 $p(1\mid\vec{x})\neq p(-1\mid\vec{x})$

简化分类问题预期风险

{\displaystyle \begin{alignat}{4} I[f(x)] & = \int_{X\times Y}^{} V(f(\vec{x},y))p(\vec{x},y)d\vec{x}dy \\ & = \int_{X}^{}\int_{Y}^{} V(f(\vec{x},y))p(\vec{x},y)p(\vec{x})dyd\vec{x} \\ & = \int_{X}^{} [V(-f(\vec{x})p(1\mid x)+V(f(\vec{x})p(-1\mid x)]p(\vec{x})d\vec{x} \\ & = \int_{X}^{} [V(-f(\vec{x})p(1\mid x)+V(f(\vec{x})(1-p(1\mid x))]p(\vec{x})d\vec{x} \end{alignat}}

平方损失

V(f(\vec{x},y))=(1-yf(\vec{x}))^2

平方损失凸且平滑，但容易过度惩罚错误预测，导致收敛速度比逻辑损失和链接损失慢。它的优点为有助于简化交叉验证之正则化（regularization）。

最小化预期风险之映射函数为：

f^*_{Square}=2p(1\mid x)-1

链接损失

V(f(\vec{x}),y) = \max(0, 1-yf(\vec{x})) = |1 - yf(\vec{x}) |_{+}

链接损失公式等同于支持向量机（SVM）的损失公式。链接损失凸但不平滑（在 $yf(\vec{x})) = 1$ 不可微分），因此不适用于梯度下降法和随机梯度下降法，但适用次梯度下降法。最小化预期风险之映射函数为：

f^*_{Square}=2p(1\mid x)-1

广义平滑链接损失

f^*_\alpha(z) \;=\; \begin{cases} \frac{\alpha}{\alpha + 1}& \text{if }z< 0 \\ \frac{1}{\alpha + 1}z^{\alpha + 1} - z + \frac{\alpha}{\alpha + 1} & \text{if } 0<z<1 \\ 0 & \text{if } z \geq 1 \end{cases}

其中 $z = yf(\vec{x})$

逻辑损失

V(f(\vec{x}),y) = \frac{1}{\ln 2}\ln(1+e^{-yf(\vec{x})})

适用于梯度下降法，但不会对错误预测做惩罚。最小化预期风险之映射函数为：

f^*_\text{Logistic}= \ln\left(\frac{p(1\mid x)}{1-p(1\mid x)}\right).

交叉熵损失

V(f(\vec{x}),t) = -t\ln(f(\vec{x}))-(1-t)\ln(1-f(\vec{x}))

其中 $t=(1+y)/2$ so that $t \in \{0,1\}$ 属于凸函数，适用于随机梯度下降法。

指数损失

V(f(\vec{x}),y) = e^{-\beta yf(\vec{x})}

↑ Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014]
↑ Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

取自“https://www.qiuwenbaike.cn/index.php?title=分類問題之損失函數&oldid=6494727”