Logistic回归

注：参考 https://zhuanlan.zhihu.com/p/74874291

1. Logistic 分布

Logistic 分布是一种连续型的概率分布，其分布函数和密度函数分别为：

$F(x) = P(X \leq x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}$

$f(x) = F^{'}(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma (1+e^{-(x-\mu)})^{2}}$

其中 $\mu$ 表示位置参数， $\gamma > 0$ 为形状参数；
Logistic的分布域正太分布相似，但尾部更长，波峰更高；
sigmoid函数是Logistic分布函数在 $\mu=0, \gamma = 1$ 时的特殊情形。

2. LR与其他模型对比

2.1 LR与线性回归

联系：
① 逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数（非线形）映射，使得逻辑回归称为了一个优秀的分类算法；
② 本质上来说，两者都属于广义线性模型，但他们两个要解决的问题不一样，逻辑回归解决的是分类问题，输出的是离散值，线性回归解决的是回归问题，输出的连续值

区别：
① 线性回归是在实数域范围内进行预测，而分类范围则需要在 [0,1]，逻辑回归减少了预测范围；
② 线性回归在实数域上敏感度一致，而逻辑回归在 0 附近敏感，在远离 0 点位置不敏感，这个的好处就是模型更加关注分类边界，可以增加模型的鲁棒性。

2.2 LR与SVM

相同点：
① 都是分类算法，本质上都是在找最佳分类超平面；
② 都是监督学习算法；
③ 都是判别式模型，判别模型不关心数据是怎么生成的，它只关心数据之间的差别，然后用差别来简单对给定的一个数据进行分类；
④ 都可以增加不同的正则项。

不同点：
① LR 是一个统计的方法，SVM 是一个几何的方法；
② SVM 的处理方法是只考虑 Support Vectors，也就是和分类最相关的少数点去学习分类器。而逻辑回归通过非线性映射减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重；
③ 损失函数不同：LR 的损失函数是交叉熵，SVM 的损失函数是 HingeLoss，这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。对 HingeLoss 来说，其零区域对应的正是非支持向量的普通样本，从而所有的普通样本都不参与最终超平面的决定，这是支持向量机最大的优势所在，对训练样本数目的依赖大减少，而且提高了训练效率；
④ LR 是参数模型，SVM 是非参数模型，参数模型的前提是假设数据服从某一分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无法知道其分布的形式，更不知道分布的相关参数，只有在给定一些样本的条件下，能够依据非参数统计的方法进行推断。所以 LR 受数据分布影响，尤其是样本不均衡时影响很大，需要先做平衡，而 SVM 不直接依赖于分布；
⑤ LR 不依赖样本之间的距离，SVM 是基于距离的；
⑥ LR 相对来说模型更简单好理解，特别是大规模线性分类时并行计算比较方便。而 SVM 的理解和优化相对来说复杂一些，SVM 转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算。

2.3 LR与NB

相同点：
朴素贝叶斯和逻辑回归都属于分类模型，当朴素贝叶斯的条件概率 [公式] 服从高斯分布时，它计算出来的 P(Y=1|X) 形式跟逻辑回归是一样的。

不同点：
① 逻辑回归是判别式模型 p(y|x)，朴素贝叶斯是生成式模型 p(x,y)：判别式模型估计的是条件概率分布，给定观测变量 x 和目标变量 y 的条件模型，由数据直接学习决策函数 y=f(x) 或者条件概率分布 P(y|x) 作为预测的模型。判别方法关心的是对于给定的输入 x，应该预测什么样的输出 y；而生成式模型估计的是联合概率分布，基本思想是首先建立样本的联合概率概率密度模型 P(x,y)，然后再得到后验概率 P(y|x)，再利用它进行分类，生成式更关心的是对于给定输入 x 和输出 y 的生成关系；
② 朴素贝叶斯的前提是条件独立，每个特征权重独立，所以如果数据不符合这个情况，朴素贝叶斯的分类表现就没逻辑回归好了。

3 模型细节

3.1 为什么适合离散特征

我们在使用逻辑回归的时候很少会把数据直接丢给 LR 来训练，我们一般会对特征进行离散化处理，这样做的优势大致有以下几点：

① 离散后稀疏向量内积乘法运算速度更快，计算结果也方便存储，容易扩展；
离散后的特征对异常值更具鲁棒性，如 age>30 为 1 否则为 0，对于年龄为 200 的也不会对模型造成很大的干扰；
② LR 属于广义线性模型，表达能力有限，经过离散化后，每个变量有单独的权重，这相当于引入了非线性，能够提升模型的表达能力，加大拟合；
③ 离散后特征可以进行特征交叉，提升表达能力，由 M+N 个变量编程 M*N 个变量，进一步引入非线形，提升了表达能力；
④ 特征离散后模型更稳定，如用户年龄区间，不会因为用户年龄长了一岁就变化；

总的来说，特征离散化以后起到了加快计算，简化模型和增加泛化能力的作用。

3.2 为什么不使用平方误差

假设目标函数为MSE，即：
$L = \frac{(y-\hat y)^{2}}{2}$
$\frac{\partial{L}}{\partial{w}} = (\hat y - y) \sigma^{\prime}(w \cdot x)x$
Sigmoid的导数项为：
$\sigma^{\prime}(w \cdot x) = w \cdot x (1 - w \cdot x)$
根据 w 的初始化，导数值可能很小（想象一下 Sigmoid 函数在输入较大时的梯度）而导致收敛变慢，而训练途中也可能因为该值过小而提早终止训练（梯度消失）。
另一方面，交叉熵的梯度如下，当模型输出概率偏离于真实概率时，梯度较大，加快训练速度，当拟合值接近于真实概率时训练速度变缓慢，没有 MSE 的问题。
$g^{\prime}=\sum\limits_{i=1}^{N}x_{i}(y_{i}-p(x_{i}))$

3.3 适用条件

二分类logistic回归需要满足以下6个条件：

条件1：因变量为二分类变量。
条件2：至少有1 个自变量，可以是分类变量，也可以是连续变量。
条件3：因变量的观察结果相互独立。
条件4：例数较少类的因变量例数为自变量个数的10~15 倍(EPV原则)，且经验上两组的人数最好>30例，自变量的参照水平组不应少于30或50例。
条件5：自变量之间无多重共线性。
条件6：自变量不存在明显的异常值。

机器学习

#logistic #分类

Logistic回归

https://www.lihaibao.cn/2022/10/11/Logistic回归/

Author

Seal Li

Posted on

October 11, 2022

Licensed under

面试现场 Previous

朴素贝叶斯常见问题 Next