基本概念

机器学习方法可以粗略地分为三个基本要素：模型、学习准则、优化算法

模型

线性模型：
非线性模型：

$其中为个非线性基函数组成的向量参数包含了权重向量和偏置$

损失函数

0-1 损失函数

虽然 0-1 损失函数能够客观地评价模型的好坏，但其缺点是数学性质不是很好：不连续且导数为 0，难以优化．因此经常用连续可微的损失函数替代．

平方损失函数

交叉熵损失函数 一般用于分类问题，样本标签为离散类别，模型的输出为类别标签的条件概率分布，即

并满足

我们可以用一个 𝐶 维的 one-hot 向量 𝒚 来表示样本标签

交叉熵参标签的真实分布 𝒚 和模型预测分布 𝑓(𝒙; 𝜃) 之间的交叉熵为

Hinge 损失函数

二分类问题

𝑦 的取值为

其中

风险最小化准则

实际上无法计算其期望风险 ℛ(𝜃)，我们可以计算的是经验风险（Empirical Risk），即在训练集上的平均损失：

因此，一个切实可行的学习准则是找到一组参数使得经验风险最小，即

这就是经验风险最小化（Empirical Risk Minimization，ERM）准则．

结构风险最小化

为了解决过拟合问题，一般在经验风险最小化的基础上再引入参数的正则化（Regularization）来限制模型能力

其中是范数的正则化项，用来减少参数空间，避免过拟合；用来控制正则化的强度

优化算法

参数与超参数

参数：模型中的成为模型的参数，可以通过优化算法学习

超参数：用来定义模型结构或优化策略的

常见的超参数包括：聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等．超参数的选取一般都是组合优化问题，很难通过优化算法来自动学习．

因此，超参数优化是机器学习的一个经验性很强的技术，通常是按照人的经验设定，或者通过搜索的方法对一组超参数组合进行不断试错调整．

梯度下降法

以构造一个凸函数作为优化目标，利用凸优化中一些高效、成熟的优化方法

提前停止

除了训练集和测试集之外，有时也会使用一个验证集来进行模型选择

在每次迭代时，把新得到的模型在验证集上进行测试，并计算错误率

如果在验证集上的错误率不再下降，就停止迭代

随机梯度下降法

在每次迭代时只采集一个样本，计算这个样本损失函数的梯度并更新参数

当经过足够次数的迭代时，随机梯度下降也可以收敛到局部最优解

小批量梯度下降法

第 𝑡 次迭代时，随机选取一个包含 𝐾 个样本的子集 𝒮𝑡，计算这个子集上每个样本损失函数的梯度并进行平均，然后再进行参数更新：

在实际应用中，小批量随机梯度下降法有收敛快、计算开销小的优点，因此逐渐成为大规模的机器学习中的主要优化算法 [Bottou, 2010]．

最大似然估计（MLE）与深度学习应用

直觉理解
最大似然估计（Maximum Likelihood Estimation, MLE）的核心思想是：找到一组参数，使得数据在这个模型下出现的概率最大。

你可以把它想象成一个“最合适的解释”：

假设你是一个侦探，你看到了一些证据（数据）。
你有多个假设（不同的参数值）。
你的任务是找出最可能导致这些证据的那个假设（最大似然的参数）。

具体例子：抛硬币
假设你有一枚硬币，但你不确定它是公平的（即正反面概率是否都是 0.5）。你想估计它正面朝上的概率。

观察数据

你进行了 10 次实验，结果如下（1 表示正面，0 表示反面）：

1, 0, 1, 1, 0, 1, 1, 0, 1, 0

在这个实验里，硬币正面朝上了 6 次，反面朝上了 4 次。

建立模型

我们假设每次投掷的结果服从伯努利分布：

如果我们认为每次投掷是独立的（iid 假设），那么 10 次投掷的总概率（似然函数）就是：

求最大似然估计

我们要找一个，使得这个似然函数最大：

通常，我们会取对数方便计算（因为对数函数是单调的，不影响最大值）：

对求导，令导数为 0：

解出：

所以，最大似然估计给出的最佳参数是，意思是我们认为这枚硬币正面朝上的概率是 60%，这是基于观测数据得出的最合理解释。

MLE 在深度学习中的作用在神经网络和深度学习中，我们通常训练模型来估计的概率分布，其中：

-是输入（比如一张图片）。 -是标签（比如“猫”或“狗”）。 -是神经网络的参数（权重和偏置）。

训练的目标是找到最优的参数，使得训练数据的概率最大，这正是最大似然估计的思想。

MLE 在分类问题中的应用如果我们做一个手写数字识别（MNIST）任务，假设神经网络的输出是 10 个类别（数字 0 到 9），那么我们可以把每个类别的概率视为一个多项分布，对应的似然函数是：

取对数后，最大化似然函数等价于最小化交叉熵损失：

这正是深度学习中常用的交叉熵损失函数（Cross-Entropy Loss）！

MLE 在回归问题中的应用如果我们做房价预测，假设房价服从正态分布：

最大化似然函数等价于最小化均方误差（MSE）：

这就是深度学习中最常见的回归损失函数。

总结

最大似然估计（MLE） 的目标是找到最合适的参数，使得数据在这个模型下的概率最大。
简单例子：抛硬币，MLE 估计正面概率就是“正面次数 / 总次数”。
在深度学习中：
分类问题（比如 MNIST）：MLE 对应于交叉熵损失。
回归问题（比如房价预测）：MLE 对应于均方误差（MSE）。

机器学习（一）概述

基本概念

模型

损失函数

风险最小化准则

结构风险最小化

优化算法