当前位置: 首页 > news >正文

wordpress 同步文章而的跟地seo排名点击软件

wordpress 同步文章,而的跟地seo排名点击软件,新网站seo技术,微信小程序开发团队前文回顾#xff1a;逻辑回归 目录 #x1f4da;正则化 #x1f407;过拟合的问题 #x1f407;代价函数 #x1f407;正则化线性回归 #x1f407;正则化的逻辑回归模型 #x1f4da;模型评估方法 #x1f407;留出法#xff08;hold-out#xff09; #… 前文回顾逻辑回归 目录 正则化 过拟合的问题 代价函数 正则化线性回归 正则化的逻辑回归模型 模型评估方法 留出法hold-out 交叉验证法cross-validation 自助法bootstrap 比较总结 分类模型性能评价指标 混淆矩阵 准确度Accuracy 精确度precision和召回率RecallTPR 精确度和召回率的调和平均F_score 假阳性率FPR和真阴性率TFR ROC曲线与AUC的值 PR曲线Precision-recall Curve ROC曲线与PR曲线的关系 正则化 过拟合的问题 如何处理过拟合问题 丢弃一些不能帮我们正确预测的特征。可以是手工选择保留哪些特征或者使用一些模型选择的算法来帮忙。正则化。保留所有的特征但是减少参数的大小。 代价函数 正则化线性回归 对于线性回归的求解我们之前推导了两种学习算法一种基于梯度下降一种基于正规方程。 正则化的逻辑回归模型 以上参考学习链接【中英字幕】吴恩达机器学习系列课程以上对应7.1-7.4 模型评估方法 关于测试集与训练集 将训练集类比为模拟试卷将测试集类比为正式考试试卷。测试集要尽可能地与训练集互斥即测试样本尽量不在训练集中出现显然正式考试的题在模拟卷里做过会影响测试结果。测试集和训练集的划分要尽可能地保持数据分布的一致性避免因数据划分过程中引入额外的偏差而对最终结果产生影响显然只有模拟卷的题型和正式考试的题型差不多刷模拟卷的效果才更好。留出法hold-out 留出法是直接将数据集D划分为两个互斥的集合其中一个作为训练集S另一个作为测试集T。模型是从训练集归纳出来的性能是在测试集上进行评估。 为了保持训练集和测试集数据分布一致避免额外的误差我们可以采用分层随机抽样分层采样从而保持相同的类分布。 假设数据集D1000其中训练集S70%测试集T30%。若数据集D包含500正例500反例那么最终采样的结果是训练集有350正例350反例测试集有150正例150反例。 留出法具有较高的方差。T的评估可能在很大程度上取决于哪些数据点最终出现在训练集中哪些数据点最终出现在测试集中。且可用于训练的样本较少因为有些样本被保留用于测试。因此单独使用留出法得到的估计结果往往不够稳定可靠。为提高性能在使用留出法时一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。 依然存在的限制 留出法没有尽可能多地利用数据进行训练它也无法控制每条记录用于测试和训练的次数交叉验证法cross-validation 最简单的交叉验证2折交叉假设我们把数据分成两个大小相等的子集我们选择其中一个子集进行训练另一个进行测试。然后我们交换子集的角色使之前的训练集称为测试集反之亦然。最后总误差是通过对两次运行的误差求平均得到。 一般地k折交叉验证是将数据分成k个大小相等的分区在每次运行过程中选择一个分区进行测试而其余分区则用于训练。这个过程重复k次以便每个分区恰好用于测试一次。总误差是通过对所有k次运行的误差进行平均得到的。类似于留出法k折交叉法同样可以重复几次。 k折交叉法的一种特殊情况设置kN即数据集的大小这就是所谓的留一法leave-out-out。每个测试集只包含一条记录。留一法不受划分方式的影响每个样本都是一个分区。留一法的评估结果往往被认为是比较准确的不过当数据集比较大的时候训练m个模型的计算开销难以承受。 自助法bootstrap 在自助法中训练集被替换采样即已经选择用于训练的数据被返回原始数据集这样它被重新选中的概率和原来相等。平均而言一个大小为N的自举样本包含原始数据集中约63.2%的数据。 没有包含在自举样本中的数据作为测试集。 假设数据集D有N个样本通过抽取返回的方式从数据集D中抽取N个样本这抽取出的N个样本就是D。数据集D中有部分样本从来没有被抽到过那么没被抽到过的这些数据集就作为测试集D-D训练集为D。 自助法可以从相同的原始数据集生成许多不同的训练集这使得它在数据集小、难以有效划分训练/测试集时很有用。但自助法会改变初始数据集的分布会引入估计偏差。因此如果我们有足够的数据留出法和交叉验证法将被更广泛地使用。 比较总结 分类模型性能评价指标 混淆矩阵 准确度Accuracy 对于给定的测试集模型正确分类的样本数与总样本数之比。 更高的准确性并不一定意味着在目标任务上有更好的表现偏向多数类它的隐含假设是例子之间的类分布是相对平衡的。 考虑一个二元分类例子0类示例的数量为99901类的数量为10如果预测全部为0那准确率也有9990/1000099.9%但这显然不正确。 精确度precision和召回率RecallTPR 精确度召回率对于给定测试集分类模型将正类样本预测为正类的数量与将样本预测为正类的综述的比例。对于给定测试集模型将正类样本分为正类的数量与模型分类正确的数量的比值。TP / (TPFP) TP / (TPFN 一般来说精确度和召回率是相互矛盾的衡量标准Recall↑ → Precision↓反之亦然why? 在信息检索中我们可以认为 TP 实际相关的检索文档FP 实际不相关的检索文档TN 实际不相关的未检索文档FN 实际相关的未检索文档为了尽可能多地检索相关文档增加查全率我们尽可能多地检索文档。最极端的情况是所有的文档都会被检索到其中所有相关的文档肯定都会被检索到(Recall 1。然而精度会相当低。Recall↑ → Precision↓ 为了提高精度我们只检索置信度高的文档但这样难免会遗漏一些相关的文档降低查全率。即有Precision↑ → Recall↓ 精确度和召回率的调和平均F_score 该指标用来综合的衡量模型的召回率和精确度β是权重因子当β1即为F1_score。 有时我们可能有多个混淆矩阵重复训练几次在多个数据集上进行训练多类或多标签 我们如何评价多类分类的精度和召回率 假设我们有一组照片。每张照片显示一种动物猫、鱼或母鸡。我们的分类器需要预测每张照片中显示的是哪种动物。 宏查准率、宏查全率和宏F1  微查准率、微查全率和微F1 假阳性率FPR和真阴性率TFR ROC曲线与AUC的值 ROC曲线是衡量分类器性能的一种常见方法。ROC曲线的实际意义在于评估分类器在不同阈值下的真阳性率和假阳性率以达到最优的分类效果。ROC曲线下面积越接近1从图中看曲线越接近左上角说明分类器的性能越好。ROC曲线下面积的值即为AUC值。 设置不同的阈值可以得到不同的混淆矩阵而每个混淆矩阵又会对应一个TPR、FPR值在图中对应得到一个点改变不同的阈值得到不同的点最终画出该分类器对应的ROC曲线。 关于分类器阈值以及ROC曲线的实际含义解释推荐观看该哔哩哔哩视频 横坐标为假阳性率——FPR FP / (TNFP)纵坐标为真阳性率——TPR TP / (TPFN)PR曲线Precision-recall Curve Precision-Recall Curve可以反映分类器在不同的查全率和查准率条件下的性能表现评估分类器在不同阈值下的查全率和查准率。通常来说我们希望分类器在保证尽可能高的查准率的基础上能够达到较高的查全率。因此我们可以通过对比不同分类器在同一数据集上的Precision-Recall Curve来选择最优的分类器。曲线越接近右上角表示分类器的性能越好。 横坐标为查全率召回率RecallTPR——TP / (TPFN)纵坐标为查准率精确度Precision——TP / (TPFP)其中召回率是指所有真实正样本中被分类器成功预测为正样本的比例而精确度则是指所有被分类器成功预测为正样本的样本中真正正样本的比例。详见上文 ROC曲线与PR曲线的关系 每一个ROC曲线都有唯一的一个PR曲线与之对应并且如下图ROC曲线中在左边的那条线对应PR中在上方的那条线。 ROC曲线与PR曲线的适用场景 以下是一个直观的极度不平衡的例子 我们可以很明显地看出右边这个图效果是很差的越靠近右上角的越好而左边这个图它感觉这个模型效果还是很好的。当预值为0.5的情况可以得到右上角这样的一个混淆矩阵它正类是一个都没预测对尽管是在这么差的情况下左边的ROC曲线看上去分类器效果仍然非常好而右边这个分类器能够反映出这个模型效果不太好。所以在这种情况下我们需要选用 PR曲线也就是说如果我们更关心的是正类预测结果并且给到的数据集非常的不平衡的话那我们一定要选用PR曲线而不能选用ROC曲线。 学习视频 机器学习 | 模型评估: ROC曲线与PR曲线(一): ROC曲线与PR曲线的关系 机器学习 | 模型评估: ROC曲线与PR曲线(二): ROC曲线与PR曲线的适用场景 参考博客 深度学习评估方法 常用的分类模型性能评价指标
http://www.w-s-a.com/news/688623/

相关文章:

  • 个人网站定制北京快速建站模板
  • 河南海华工程建设监理公司网站高端论坛网站建设
  • 网站建设网络推广方案图片编辑器免费
  • 如何用dw做网站设计设计头条
  • 网站建设基础及流程北京商场购物中心排名
  • 青州市城乡建设局网站自建网站步骤
  • wordpress文章延迟加载优化设计答案四年级上册语文
  • 做网站源码要给客户嘛怎么在运行打开wordpress
  • 北海住房和城乡建设局网站wordpress标题去掉私密
  • 织梦网站安装视频做网站都有那些步骤
  • 网站空间大小选择沈阳微信网站制作
  • 网站分享对联广告网站结构的类型
  • 三维家是在网站上做还是在app上北京网站建设 专业10年
  • 模拟网站建设网站建设认准猪八戒网
  • godaddy网站建设教程微信手机网站搭建
  • 网站建设 商城淄博网站制作哪家好
  • 廊坊手机网站团队国际贸易进口代理公司
  • 运用django做网站网站建设问题及解决办法
  • 商丘企业网站服务c mvc 网站开发
  • 太仓建设工程网站广州seo排名外包
  • 成都的教育品牌网站建设做网站不给提供ftp
  • 建站行业市场人力管理系统
  • qq钓鱼网站在线生成器google关键词搜索工具
  • 化妆网站模板移动网站建设模板
  • 欢迎访问语文建设杂志网站网站蓝色配色
  • 最新网站发布重庆城乡建设部网站首页
  • 网站建设费用高鄂尔多斯seo
  • dw做网站怎么发布网站无后台可以上框架
  • 网络公司如何建网站网站的建设需要多少钱
  • 代刷网站推广快速泉州网页定制