当前位置: 首页 > news >正文

中山seo外包广告seo是什么意思

中山seo外包,广告seo是什么意思,设计最简单的企业网站,湖南省建设厅最新领导分工很久很久以前给大家写过决策树#xff0c;非常简单明了的算法。今天给大家写随机#xff08;生存#xff09;森林#xff0c;随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。…很久很久以前给大家写过决策树非常简单明了的算法。今天给大家写随机生存森林随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。 集成学习方法 Ensemble learning methods are made up of a set of classifiers—e.g. decision trees—and their predictions are aggregated to identify the most popular result. 所谓的集成学习方法就是把很多的比较简单的学习算法统起来用比如光看一个决策树好像效果比较单调还比较容易过拟合我就训练好多树把这些树的结果综合一下结果应该会好很多用这么样思路形成的算法就是集成学习算法Ensemble methods就是利用很多个基础学习器形成一个综合学习器。 Basically, a forest is an example of an ensemble, which is a special type of machine learning method that averages simple functions called base learners.The resulting averaged learner is called the ensemble 集成学习方法最有名的就是bagging 和boosting 方法 The most well-known ensemble methods are bagging, also known as bootstrap aggregation, and boosting BAGGing BAGGing, or Bootstrap AGGregating这个方法把自助抽样和结果合并整合在一起包括两个步骤一个就是自助抽样抽很多个数据集出来每个数据集来训练一个模型这样就可以有很多个模型了第二步就是将这么多模型的结果合并出来最终结果这个最终结果相对于单个模型结果就会更加稳健。 In the bagging algorithm, the first step involves creating multiple models. These models are generated using the same algorithm with random sub-samples of the dataset which are drawn from the original dataset randomly with bootstrap sampling method The second step in bagging is aggregating the generated models. 随机森林就可以看作是遵循了bagging方法的一个思路只不过在每一个抽样样本中的树模型是不一样的 Boosting: Boosting为强化学习最大的特点是可以将原来的弱模型变强逻辑在于算法会先后训练很多模型后面训练模型的时候会不断地给原来模型表现不好的样本增大权重使得后面的模型越来越将学习重点放在之前模型表现差的样本上这么一来整体模型越来越强。就像人会从之前的错误中反省经验一个意思了。 这么一描述大家就知道boosting方法的模型训练是有先后顺序的并行算法就用不了了 Boosting incrementally builds an ensemble by training each model with the same dataset but where the weights of instances are adjusted according to the error of the last prediction. Boosting方法本身也有很多常见的如AdaBoostGradient BoostingXGBoost and LightGBM下图感兴趣的同学可以看看 上面的算法之后再给大家写接下来的实操部分还是以随机森林为例子给大家具体介绍 随机森林 随机森林模型的拟合过程大概可以分为三步 1.通过有放回的自助抽样形成ntree个抽样样本集Bootstrap 2.对每个抽样样本集形成一个决策树这个树是基于mtry个预测因子的 3.将最终的模型结果就是ntree个抽样样本集得出的结果的最大票数或者均值AGGregating 随机森林的整个的流程就如下图 为了方便理解“最终的模型结果就是ntree个抽样样本集得出的结果的最大票数或者均值”我们用例子做个解释先看下图 我们有一个水果集然后我训练一个3棵树组成的随机森林来判断每一个水果到底是何种类有两棵树都告诉我是某一个水果是苹果一棵树告诉我是香蕉那么最后我们随机森林就会输出该水果是香蕉的结论。 上面的过程有几个超参需要确定 mtry: Number of variables randomly sampled as candidates at each split.ntree: Number of trees to grow. mtry一般需要调参ntree都是越大越好自己设定就行。在上面的过程中我们每棵树的节点都是不同的叫做特征随机化通过特征随机化我们保证了森林中树的多样性随机森林模型也更加稳健。 Feature randomness, also known as feature bagging or “the random subspace method”, generates a random subset of features, which ensures low correlation among decision trees 随机森林实操 比如我现在有一个数据集结局变量是class为二分类我要适用随机森林算法就可以写出如下代码 rf_default - train(Class~., datadataset, methodrf, tuneLength 15, trControlcontrol) print(rf_default) 输出的结果中有随机调参的过程共15次最终发现超参mtry3的时候模型最优具体如下 以上的随机森林模型的简单展示接着我们再看随机生存森林。 随机生存森林 和随机森林一样随机生存森林也是一个集成学习方法区别在于其结局为生存资料。 示例文章 依然我们来看一篇发表在Cancer Med.上的文章名字如下 Prognostic risk factor of major salivary gland carcinomas and survival prediction model based on random survival forests 作者用cox进行了变量筛选使用随机生存森林进行了预测模型构建并得到了相应的风险分明确了风险分的最佳截断值“maxstat” R package对于模型的表现作者使用了c指数和time-dependent ROC来评估文章中主要的结果报告如下包括 树的数量和模型误差情况以及变量重要性的结果 time-dependent ROC曲线结果展示和相应的AUC值 风险分界址点确定 高低风险组的组间生存曲线比较: 也是一篇预测模型类文章的常规套路了。挑一个算法拟合模型后评估做个风险分应用风险分划分病人证明模型可用性。我们以这篇文章为例子看随机生存森林预测模型的实操。 随机生存森林实例操作 我现在的数据中ttodead,died两个变量分别是时间和生存状态此时我想做一个随机生存森林模型就可以写出如下代码 RF_obj - rfsrc(Surv(ttodead,died)~., dataSet, ntree 1000, membership TRUE, importanceTRUE) 对代码运行后生成的对象RF_obj进行plot即可出图如下就得到了原文中的figure2 然后我们可以画出模型的不同时间点的timeRoc曲线下面代码中的risk_score为随机生存森林对象的预测值就得到了原文中的figure3figure4 ROC_rsf-timeROC(Tfinaldata.Test$Surv_day,deltafinaldata.Test$status,markerrisk_score,cause1,timesc(365,365*3,365*5),iidTRUE) plot(ROC_lasso,time365) plot(ROC_lasso,time365*3,add T,colblue) plot(ROC_lasso,time365*5,add T,colgreen) legend(.8, .3, legendc(T1 Year AUC0.895, T3 Year AUC0.917,T5 Year AUC0.926),colc(red, blue,green), lty1, cex0.7,bty n) 并且将模型预测值的截断值找出来验证模型在不同风险组的区分能力。其中找风险分截断值的代码如下 y.pred - predict(RF_obj)[[predicted]] plot(surv_cutpoint(dataSet, time ttodead, event died,variables c(y.pred)), y.pred, palette npg) 运行后得到下图原文中的figure5就说明我们这个模型的风险分截断值应该为43.21 然后根据这个风险分我们就可以将原始人群分为高风险组和低风险组再做出组间km曲线到这儿相当于Cancer Med的这篇用随机生存森林的文章就完全复现出来了。 以上是给大家介绍的随机生存森林的内容。
http://www.w-s-a.com/news/767147/

相关文章:

  • 怎样进行站点优化荣成市有做网站的吗
  • 合肥建设工会网站芜湖做网站建设公司
  • 玉林市住房和城乡建设局网站网站开发百灵鸟
  • 网站怎么做双机房切换建设部网站2015年第158号
  • 郑州服务设计公司网站色块的网站
  • 网站设计所用到的技术做网站添加mp3
  • 凡科做的微网站怎样连接公众号seo李守洪排名大师
  • 温州网站开发网站的制作东莞寮步伟易达电子厂
  • 北京网站设计制作关键词优化微信小程序开发推广网站建设优化规划书
  • 杭州临平网站建设开发公司将购房款划给总公司的法律责任
  • 广东外贸网站推广分类wordpress
  • 聚美优品网站建设方案商城和营销型网站建设
  • 比较著名的seo网站如何建设网站?
  • 如何做商业网站最火wordpress主题
  • 建设网站需要哪些软硬件条件wordpress文章页标题优化
  • 网站建设功能需求文档wordpress 1g1核1m
  • 学做窗帘要下载哪个网站用户反馈数据分析软件园
  • 宁晋网站建设多少钱产品宣传推广方式有哪些
  • delphi做网站阿里巴巴官网首页登录入口
  • 游戏网站怎么建设新建wordpress模板
  • 网络服务器是指兰州网站seo诊断
  • 怎样做投资理财网站godaddy上传网站
  • 网站建设深圳哪家好世界500强企业招聘网站
  • 如何减少网站建设中的错误温州网站公司哪家好
  • 宜章网站建设北京定制公交网站
  • 怎么让谷歌收录我的网站郑州网站建设更好
  • 在线视频网站开发方案phpaspnet网站开发实例视频
  • 正常做一个网站多少钱网站开发所遵循
  • 西部数码网站备份领英创建公司主页
  • 中山网站建设文化平台成都电商app开发