重庆北京网站建设网页游戏排行榜前十名2021-贵港市网站建设公司-Seo优化

重庆北京网站建设,网页游戏排行榜前十名2021,项目如何进行网络推广,织梦网站数据库备份文件夹逻辑回归模型思维导图一、逻辑回归模型的专业化解释 #xff08;一#xff09;模型定位#xff1a;广义线性模型下的二分类工具逻辑回归#xff08;Logistic Regression#xff09;是广义线性模型#xff08;Generalized Linear Model, GLM#xff09;的重要分支#…逻辑回归模型思维导图一、逻辑回归模型的专业化解释一模型定位广义线性模型下的二分类工具逻辑回归Logistic Regression是广义线性模型Generalized Linear Model, GLM的重要分支并非传统意义上的“回归模型”而是用于二分类任务的统计学习模型——其核心是将“特征的线性组合”映射为“二分类结果的概率”最终实现对样本类别的判断。广义线性模型的核心框架是针对不同类型的响应变量如连续值、离散值选择对应的指数族分布作为响应变量的概率分布并通过链接函数将线性预测器特征的线性组合与分布的参数关联起来。逻辑回归中响应变量分类结果服从伯努利分布指数族分布的一种链接函数选择sigmoid函数也称为logistic函数。二模型假设伯努利分布的合理性任何统计模型都依赖假设前提逻辑回归的核心假设是样本的分类结果服从伯努利分布。伯努利分布的定义伯努利分布是一种离散型概率分布描述“单次伯努利试验”的结果试验只有两种可能成功/失败、是/否若“成功”对应二分类中的“正类”的概率为( p )“失败”对应“负类”的概率为( q1-p )则随机变量( X )分类结果的概率质量函数为[f_X(x) p^x (1-p)^{1-x} \begin{cases}p \text{if } x1 \1-p \text{if } x0\end{cases}]其中( x1 )表示正类( x0 )表示负类。逻辑回归选择伯努利分布的原因二分类任务的结果天然是“0-1离散值”与伯努利分布的“两点取值”完全匹配每个样本的分类结果是独立的“单次试验”正类/负类的概率对应伯努利分布的参数( p )和( 1-p )。因此假设分类结果服从伯努利分布是逻辑回归适配二分类任务的基础。三sigmoid函数从线性组合到概率的映射线性回归的输出是“特征的线性组合”( \theta^T x \theta_0 \theta_1 x_1 \dots \theta_n x_n )但该结果是连续值无法直接作为“概率”概率需满足( 0 \leq p \leq 1 )。逻辑回归通过sigmoid函数将线性组合映射到( (0,1) )区间得到正类的概率。sigmoid函数的形式sigmoid函数的数学表达式为[g(z) \frac{1}{1 e^{-z}}]其中( z \theta^T x )是特征的线性组合。sigmoid函数的核心性质取值范围( g(z) \in (0,1) )恰好符合“概率”的取值要求单调性( g(z) )是单调递增函数——当( z )增大时( g(z) )趋近于1当( z )减小时( g(z) )趋近于0导数简便性其导数满足( g’(z) g(z) \cdot (1 - g(z)) )该性质极大简化了梯度下降的计算后续梯度推导会用到。逻辑回归的预测函数结合sigmoid函数逻辑回归对“样本为正类”的概率预测为[h_\theta(x) g(\theta^T x) \frac{1}{1 e{-\thetaT x}}]对应的“样本为负类”的概率为[P(y0|x;\theta) 1 - h_\theta(x)]四决策边界分类的“分数线”逻辑回归通过“决策边界”区分正类与负类当( h_\theta(x) 0.5 )时预测为正类( y1 )当( h_\theta(x) 0.5 )时预测为负类( y0 )。线性决策边界的推导由sigmoid函数的性质可知当( g(z) 0.5 )时( z 0 )因为( g(0) \frac{1}{1e^0} 0.5 )。因此( h_\theta(x) 0.5 )等价于( \theta^T x 0 )——这一方程对应的是线性超平面在二维特征空间中是直线三维空间中是平面即逻辑回归的决策边界是“线性的”。非线性决策边界的拓展若数据是非线性可分的可通过特征工程如引入多项式特征如( x_1^2, x_1x_2 )等将特征空间升维此时线性预测器( \theta^T x )对应的决策边界会转化为原特征空间中的非线性边界。例如引入( x_1^2 x_2^2 )作为新特征后决策边界( \theta_0 \theta_1(x_1^2 x_2^2) 0 )在原二维空间中是圆实现了非线性分类。五似然函数与损失函数让模型“贴合数据”逻辑回归通过**最大似然估计Maximum Likelihood Estimation, MLE**求解参数( \theta )找到使“现有样本出现概率最大”的参数( \theta )。似然函数的构造由于样本之间相互独立“所有样本同时出现”的概率即似然函数是每个样本出现概率的乘积。对于第( i )个样本( (x^i, y^i) )其出现的概率为( [h_\theta(xi)]{y^i} \cdot [1 - h_\theta(xi)]{1-y^i} )( y^i1 )时取( h_\theta(x^i) )( y^i0 )时取( 1 - h_\theta(x^i) )。因此整个样本集的似然函数为[L(\theta) \prod_{i1}^m \left[ h_\theta(x^i) \right]{yi} \left[ 1 - h_\theta(x^i) \right]{1-yi}]对数似然函数的简化直接最大化乘积形式的似然函数计算复杂因此对其取自然对数对数是单调递增函数最大化似然函数等价于最大化对数似然函数[l(\theta) \log L(\theta) \sum_{i1}^m \left[ y^i \log h_\theta(x^i) (1 - y^i) \log \left( 1 - h_\theta(x^i) \right) \right]]损失函数的定义机器学习中通常以“最小化损失”为优化目标因此将对数似然函数取负并除以样本数( m )得到平均损失得到逻辑回归的损失函数[J(\theta) -\frac{1}{m} l(\theta) -\frac{1}{m} \sum_{i1}^m \left[ y^i \log h_\theta(x^i) (1 - y^i) \log \left( 1 - h_\theta(x^i) \right) \right]]损失函数的直观意义当( y^i1 )时损失项为( -\log h_\theta(x^i) )若( h_\theta(x^i) )趋近于1预测正确损失趋近于0若( h_\theta(x^i) )趋近于0预测错误损失趋近于无穷大。当( y^i0 )时损失项为( -\log(1 - h_\theta(x^i)) )若( h_\theta(x^i) )趋近于0预测正确损失趋近于0若( h_\theta(x^i) )趋近于1预测错误损失趋近于无穷大。该损失函数是关于( \theta )的凸函数其海森矩阵为半正定矩阵因此梯度下降法能收敛到全局最优解不会陷入局部最优。六梯度下降求解最优参数的“迭代法”逻辑回归通过梯度下降法最小化损失函数( J(\theta) )得到最优参数( \theta )。梯度的推导对损失函数( J(\theta) )关于参数( \theta_j )求偏导即梯度的第( j )个分量[\frac{\partial J(\theta)}{\partial \theta_j} -\frac{1}{m} \sum_{i1}^m \left[ y^i \cdot \frac{1}{h_\theta(x^i)} \cdot h_\theta(x^i)(1 - h_\theta(x^i)) \cdot x_j^i (1 - y^i) \cdot \frac{-1}{1 - h_\theta(x^i)} \cdot h_\theta(x^i)(1 - h_\theta(x^i)) \cdot x_j^i \right]]利用sigmoid函数的导数性质( g’(z) g(z)(1 - g(z)) )化简后得到[\frac{\partial J(\theta)}{\partial \theta_j} \frac{1}{m} \sum_{i1}^m \left[ h_\theta(x^i) - y^i \right] x_j^i]梯度下降的更新规则梯度下降的核心是“沿梯度的反方向调整参数”更新公式为[\theta_j \theta_j - \alpha \cdot \frac{\partial J(\theta)}{\partial \theta_j} \theta_j - \alpha \cdot \frac{1}{m} \sum_{i1}^m \left[ h_\theta(x^i) - y^i \right] x_j^i]其中( \alpha )是学习率控制每次参数调整的幅度需手动设置过大可能震荡不收敛过小则训练过慢。七特征处理去掉高度相关特征的原因PPT中提到“训练中需去掉高度相关的特征”核心原因是缓解多重共线性问题提升可解释性若两个特征如“身高”和“体重”高度相关参数( \theta )的物理意义会混淆——无法明确是“身高”还是“体重”对分类结果产生了影响。加快训练速度特征数量越多梯度下降的计算量与特征数线性相关越大去掉冗余特征可减少计算成本提升训练效率。降低参数方差多重共线性会导致参数估计的方差增大置信区间变宽模型的稳定性下降去掉高度相关特征可缓解这一问题。八逻辑回归的优缺点优点可解释性极强每个特征的参数( \theta_j )直接反映该特征对“正类概率”的影响方向与程度( \theta_j0 )表示特征值越大正类概率越高( \theta_j0 )则相反。训练效率高作为线性模型训练时间与样本数、特征数呈线性关系适用于大规模数据。资源占用少仅需存储参数( \theta )无需复杂的模型结构存储。作为基准模型Baseline逻辑回归的结果是后续复杂模型如神经网络、集成学习的“参照标准”——若复杂模型的效果未显著优于逻辑回归说明特征工程或模型选择可能存在问题。支持阈值调整可根据业务需求如“疾病检测优先保证召回率”灵活调整分类阈值不一定是0.5。缺点仅适用于线性可分数据若数据是非线性分布需依赖特征工程如多项式特征转化为线性可分否则效果极差。对样本不均衡敏感若正类/负类样本比例悬殊如正类占1%、负类占99%模型会偏向多数类导致少数类的预测效果极差。无法自动筛选特征逻辑回归本身不具备特征选择能力需结合L1正则化、GBDT等方法先筛选特征。准确率上限低由于模型是线性的其表达能力有限无法捕捉复杂的数据模式在复杂任务中准确率通常低于非线性模型如随机森林、神经网络。二、逻辑回归的“大白话”讲解一把逻辑回归比作“分类裁判”逻辑回归其实是个“给样本打分、然后分类的裁判”你给它一堆“样本的特征”比如外卖订单的配送时间、食物温度它先给这些特征“加权求和”比如配送时间权重负、食物温度权重正得到一个“总分”然后它用sigmoid函数把“总分”转换成“这个样本属于正类的概率”比如“这个订单给好评的概率”最后它划一条“分数线”决策边界概率超过0.5就判正类低于0.5就判负类。二模型假设“要么成、要么不成”的事儿逻辑回归只处理“二选一”的问题——比如“是不是垃圾邮件”“会不会给好评”“有没有生病”这些事儿的结果只有两种就像“抛一次硬币要么正面、要么反面”这就是“伯努利分布”的意思一件事只有两种结果每种结果对应一个概率。三sigmoid函数“把总分转成概率的转换器”你可能会问“加权求和的总分可能是任意数怎么变成0到1之间的概率”sigmoid函数就是干这个的它像个“压缩器”——把很大的正数压缩到接近1把很小的负数压缩到接近0中间的数刚好压到0.5左右。比如总分特别高比如外卖订单“配送快温度高包装好”sigmoid就输出接近1的概率“肯定给好评”总分特别低比如“配送超时1小时食物凉了包装破了”sigmoid就输出接近0的概率“肯定给差评”。而且这个“转换器”还有个方便的特点算它的“变化率”导数时不用重新算一遍直接用它自己的输出就能算——就像裁判调整打分标准时不用重新算所有样本的分省了很多功夫。四决策边界“裁判的分数线”逻辑回归的“分数线”是怎么定的sigmoid函数有个特点当总分等于0时输出刚好是0.5。所以裁判就把“总分0”当成分数线总分0概率0.5判正类比如“给好评”总分0概率0.5判负类比如“给差评”。这个分数线在特征多的时候是“超平面”但在二维特征比如“配送时间”和“食物温度”里就是一条直线——直线一边是好评另一边是差评。如果数据是弯弯曲曲的比如“雨天时配送超时用户也会给好评”裁判就得先把特征“加工一下”比如加个“雨天×配送时间”的新特征把分数线变成曲线才能分对。五似然与损失“让裁判尽可能判对”逻辑回归的目标是“让现有样本的分类结果尽可能符合实际”——这就像裁判要“根据之前的比赛结果调整自己的打分标准让之前的判罚尽可能都对”。“似然函数”就是“现有样本都被我判对的概率”比如之前100个订单里80个好评、20个差评裁判的打分标准要让这80个好评的预测概率都高、20个差评的预测概率都低这样“所有订单都判对”的概率才大。“损失函数”就是“判错的代价”如果把一个好评订单判成差评代价就很高判对了代价就很低。裁判的目标是把“总代价”降到最低。而且这个“代价函数”是个“只有一个坑底的坑”——不管裁判从哪个打分标准开始调整最后都会调到那个“代价最低的最优标准”不会卡在半路上调不动。六梯度下降“裁判一点点调打分标准”裁判怎么调整打分标准用“梯度下降”先算当前标准下“总代价”的“变化方向”梯度比如“配送时间的权重太小了导致超时订单还被判好评得把这个权重调得更负一点”然后沿着“代价减小的方向”稍微调一点权重调的幅度由“学习率”决定重复这个过程直到“总代价”不再降低——这时候的打分标准就是最优的。七去掉相关特征“裁判别搞混了打分依据”如果两个特征比如“食物温度”和“配送时间”高度相关配送时间越长温度越低裁判就会搞不清“到底是温度低导致差评还是配送时间长导致差评”所以得去掉其中一个特征这样裁判能明确知道“哪个特征影响了结果”可解释性也不用算那么多特征调标准的速度更快训练速度。八优缺点“裁判的长处和短板”长处说人话能明确告诉你“配送时间每多1分钟好评概率降多少”不用猜。干活快哪怕有100万个订单裁判也能很快调好打分标准。不占地儿只需要记几个权重数字手机都能装下。当标杆新裁判复杂模型来了先看它比这个老裁判强多少不强就说明新裁判不行。灵活调线如果是疾病检测哪怕概率只有0.3也想判成“有病”怕漏诊裁判可以把分数线调低。短板只会走直线如果数据是弯的比如“雨天超时用户也给好评”裁判得先把路掰直了加工特征才能走。偏心多数如果100个订单里只有1个差评裁判会直接全判好评——准确率99%但那个差评漏判了等于白干。不会挑特征得先有人帮它把没用的特征去掉它自己不会选。能力有限复杂事儿比如判断一张图是不是猫它干不了因为它只能处理线性关系。三、生活案例用逻辑回归判断“外卖用户是否给好评”一案例背景某外卖平台想通过订单特征预测用户是否会给“好评”正类( y1 )或“差评”负类( y0 )以便提前干预如超时订单自动发优惠券。二特征与参数裁判的“打分项”平台选取以下特征并通过梯度下降得到参数( \theta )( x_1 )配送时间分钟( \theta_1 -0.8 )配送时间越长好评概率越低( x_2 )食物温度摄氏度( \theta_2 1.5 )温度越高好评概率越高( x_3 )包装完好度1-5分( \theta_3 0.6 )包装越好好评概率越高( x_4 )口味评分1-5分( \theta_4 2.0 )口味越好好评概率越高( \theta_0 -5 )偏置项即使所有特征都是0也有基础概率。三预测过程裁判打分分类现有3个订单裁判的预测过程如下订单A配送时间20分钟( x_120 )、温度65℃( x_265 )、包装5分( x_35 )、口味4分( x_44 )线性总分( z \theta_0 \theta_1x_1 \theta_2x_2 \theta_3x_3 \theta_4x_4 -5 (-0.8×20) (1.5×65) (0.6×5) (2.0×4) -5 -16 97.5 3 8 87.5 )好评概率( h_\theta(x) \frac{1}{1e^{-87.5}} ≈ 1 )分类结果概率0.5判“好评”实际用户确实给了好评。订单B配送时间35分钟( x_135 )、温度50℃( x_250 )、包装3分( x_33 )、口味3分( x_43 )线性总分( z -5 (-0.8×35) (1.5×50) (0.6×3) (2.0×3) -5 -28 75 1.8 6 49.8 )好评概率( h_\theta(x) ≈ 1 )分类结果判“好评”但实际用户给了差评——因为那天是雨天用户对超时更宽容但裁判没“雨天”这个特征所以判错了。订单C配送时间40分钟( x_140 )、温度40℃( x_240 )、包装2分( x_32 )、口味2分( x_42 )线性总分( z -5 (-0.8×40) (1.5×40) (0.6×2) (2.0×2) -5 -32 60 1.2 4 28.2 )好评概率( h_\theta(x) ≈ 0.9999 )分类结果判“好评”实际用户给了差评——裁判意识到“配送时间30分钟”的订单即使其他特征不错也容易差评于是加入新特征( x_51 )配送时间30( \theta_5-10 )重新计算总分( z28.2 -1018.2 )概率≈0.999但还是高再把( \theta_5 )调到-30总分28.2-30-1.8概率( \frac{1}{1e^{1.8}}≈0.14 )判“差评”符合实际。四案例中的“模型问题”与优化非线性问题订单B的错误是因为“雨天”与“配送时间”的非线性关系——裁判需要加入“雨天×配送时间”的新特征才能捕捉这种关系。样本不均衡若平台中好评订单占90%、差评占10%裁判会总判“好评”此时需通过“过采样增加差评样本”“欠采样减少好评样本”或“调整损失权重给差评的损失加权重”优化。特征共线性若“食物温度”与“配送时间”高度相关需去掉其中一个避免裁判混淆影响因素。五案例总结逻辑回归就像外卖平台的“好评预测裁判”它能快速、清晰地判断用户是否会给好评但遇到“雨天”这种非线性因素、或差评样本太少时就需要“加工特征”“调整样本”才能干好活——这也是它作为“基础裁判”的价值简单、透明能帮平台快速搭建预测能力再根据问题逐步优化。四、补充案例逻辑回归在“垃圾邮件检测”中的应用一特征与参数邮件平台选取的特征及参数( x_1 )“优惠”“中奖”出现次数( \theta_12.0 )出现越多垃圾概率越高( x_2 )发件人是否在通讯录( \theta_2-3.0 )在通讯录垃圾概率低( x_3 )邮件链接数量( \theta_31.5 )链接越多垃圾概率越高( \theta_0-1 )偏置项。二预测示例邮件A“优惠”出现3次( x_13 )、发件人不在通讯录( x_20 )、链接5个( x_35 )总分( z-1 2×3 (-3)×0 1.5×5 -1607.512.5 )垃圾概率≈1判“垃圾邮件”实际是垃圾邮件。邮件B“优惠”出现0次( x_10 )、发件人在通讯录( x_21 )、链接0个( x_30 )总分( z-10-30-4 )垃圾概率≈0.018判“正常邮件”实际是正常邮件。邮件C“优惠”出现1次( x_11 )、发件人不在通讯录( x_20 )、链接1个( x_31 )总分( z-1201.52.5 )垃圾概率≈0.924判“垃圾邮件”实际是用户朋友发的“优惠活动”属于正常邮件——裁判因“优惠”和“链接”误判需加入“发件人昵称是否含好友备注”的新特征优化。

重庆北京网站建设网页游戏排行榜前十名2021

京市保障性住房建设投资中心网站学做网站在什么地方学

餐饮网站设计公司端掉一个wordpress网站

网站设计就业培训百度高级搜索

北京天津网站设计制作多少钱证券网站怎么做

网站设计模板怎么使用网站反链

dw做网站怎么做背景图片wordpress可视化编辑失效

重庆北京网站建设网页游戏排行榜前十名2021

京市保障性住房建设投资中心网站学做网站在什么地方学

餐饮网站设计公司端掉一个wordpress网站

网站设计就业培训百度高级搜索

北京天津网站设计制作多少钱证券网站怎么做

网站设计模板怎么使用网站 反链

dw做网站 怎么做背景图片wordpress可视化编辑失效

网站设计模板怎么使用网站反链

dw做网站怎么做背景图片wordpress可视化编辑失效