机器学习(一)概述

Ryan Lu Lv4

基本概念

机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法

模型

  • 线性模型:

  • 非线性模型:

线

损失函数

0-1 损失函数

虽然 0-1 损失函数能够客观地评价模型的好坏,但其缺点是数学性质不是很好:不连续且导数为 0,难以优化.因此经常用连续可微的损失函数替代.

平方损失函数

交叉熵损失函数 一般用于分类问题,样本标签为离散类别,模型的输出为类别标签的条件概率分布,即

并满足

我们可以用一个 𝐶 维的 one-hot 向量 𝒚 来表示样本标签

交叉熵参标签的真实分布 𝒚 和模型预测分布 𝑓(𝒙; 𝜃) 之间的交叉熵为

Hinge 损失函数

二分类问题

𝑦 的取值为

其中

风险最小化准则

实际上无法计算其期望风险 ℛ(𝜃),我们可以计算的是经验风险(Empirical Risk),即在训练集上的平均损失:

因此,一个切实可行的学习准则是找到一组参数使得经验风险最小,即

这就是经验风险最小化(Empirical Risk Minimization,ERM)准则.

结构风险最小化

为了解决过拟合问题,一般在经验风险最小化的基础上再引入参数的正则化(Regularization)来限制模型能力

其中范数的正则化项,用来减少参数空间,避免过拟合;用来控制正则化的强度

优化算法

参数与超参数

参数:模型中的成为模型的参数,可以通过优化算法学习

超参数:用来定义模型结构或优化策略的

常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等.超参数的选取一般都是组合优化问题,很难通过优化算法来自动学习.

因此,超参数优化是机器学习的一个经验性很强的技术,通常是按照人的经验设定,或者通过搜索的方法对一组 超参数组合进行不断试错调整.

梯度下降法

以构造一个凸函数作为优化目标,利用凸优化中一些高效、成熟的优化方法

提前停止

除了训练集和测试集之外,有时也会使用一个验证集来进行模型选择

在每次迭代时,把新得到的模型在验证集上进行测试,并计算错误率

如果在验证集上的错误率不再下降,就停止迭代

随机梯度下降法

在每次迭代时只采集一个样本,计算这个样本损失函数的梯度并更新参数

当经过足够次数的迭代时,随机梯度下降也可以收敛到局部最优解

小批量梯度下降法

第 𝑡 次迭代时,随机选取一个包含 𝐾 个样本的子集 𝒮𝑡,计算这个子集上每个样本损失函数的梯度并进行平均,然后再进行参数更新:

在实际应用中,小批量随机梯度下降法有收敛快、计算开销小的优点,因此逐渐成为大规模的机器学习中的主要优化算法 [Bottou, 2010].

最大似然估计(MLE)与深度学习应用

  1. 直觉理解 最大似然估计(Maximum Likelihood Estimation, MLE)的核心思想是:找到一组参数,使得数据在这个模型下出现的概率最大

你可以把它想象成一个“最合适的解释”:

  • 假设你是一个侦探,你看到了一些证据(数据)。
  • 你有多个假设(不同的参数值)。
  • 你的任务是找出最可能导致这些证据的那个假设(最大似然的参数)。

  1. 具体例子:抛硬币 假设你有一枚硬币,但你不确定它是公平的(即正反面概率是否都是 0.5)。你想估计它正面朝上的概率 ( )。
  1. 观察数据 你进行了 10 次实验,结果如下(1 表示正面,0 表示反面): 1, 0, 1, 1, 0, 1, 1, 0, 1, 0 在这个实验里,硬币正面朝上了 6 次,反面朝上了 4 次。

  2. 建立模型 我们假设每次投掷的结果 ( X ) 服从伯努利分布

如果我们认为每次投掷是独立的(iid 假设),那么 10 次投掷的总概率(似然函数)就是:

  1. 求最大似然估计 我们要找一个 ( ),使得这个似然函数最大:

通常,我们会取对数方便计算(因为对数函数是单调的,不影响最大值):

对 ( $$ ) 求导,令导数为 0:

解出:

所以,最大似然估计给出的最佳参数是 ( ),意思是我们认为这枚硬币正面朝上的概率是 60%,这是基于观测数据得出的最合理解释。


  1. MLE 在深度学习中的作用 在神经网络和深度学习中,我们通常训练模型来估计 ( ) 的概率分布,其中:
  • ( ) 是输入(比如一张图片)。
  • ( ) 是标签(比如“猫”或“狗”)。
  • ( ) 是神经网络的参数(权重和偏置)。

训练的目标是找到最优的参数 ( ) ,使得训练数据的概率最大,这正是最大似然估计的思想。

  1. MLE 在分类问题中的应用 如果我们做一个手写数字识别(MNIST)任务,假设神经网络的输出是 10 个类别(数字 0 到 9),那么我们可以把每个类别的概率 ( ) 视为一个多项分布,对应的似然函数是:

取对数后,最大化似然函数等价于最小化交叉熵损失

这正是深度学习中常用的交叉熵损失函数(Cross-Entropy Loss)

  1. MLE 在回归问题中的应用 如果我们做房价预测,假设房价 ( ) 服从正态分布:

最大化似然函数等价于最小化均方误差(MSE)

这就是深度学习中最常见的回归损失函数


  1. 总结
  • 最大似然估计(MLE) 的目标是找到最合适的参数,使得数据在这个模型下的概率最大。
  • 简单例子:抛硬币,MLE 估计正面概率就是“正面次数 / 总次数”。
  • 在深度学习中
  • 分类问题(比如 MNIST):MLE 对应于交叉熵损失
  • 回归问题(比如房价预测):MLE 对应于均方误差(MSE)
  • Title: 机器学习(一)概述
  • Author: Ryan Lu
  • Created at : 2025-02-08 10:07:55
  • Updated at : 2025-11-13 03:13:49
  • Link: http://ryan-hub.site/ac9c92126db1/
  • License: This work is licensed under CC BY-NC-SA 4.0.