当前位置：首页 > news >正文

苏州做网站公司线上推广产品

news 2025/12/21 14:26:36

苏州做网站公司,线上推广产品,wordpress 幻灯片插件,kali linux wordpress一、什么是集成学习方法 1、定义集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型#xff0c;各自独立地学习和作出预测。这些预测最后结合成组合预测#xff0c;因此优于任何一个单分类的做出预测谚语#xff1a;三个臭皮匠顶个诸…一、什么是集成学习方法 1、定义集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型各自独立地学习和作出预测。这些预测最后结合成组合预测因此优于任何一个单分类的做出预测谚语三个臭皮匠顶个诸葛亮、众人拾柴火焰高二、什么是随机森林 1、定义在机器学习中随机森林是一个包含多个决策树的分类器并且其输出的类别是由个别树输出的类别的众数而定森林包含多个决策树的分类器 2、什么是众数例如如果你训练了5个树其中有4个树的结果是True1个数的结果是False那么最终投票结果就是True 三、随机森林原理过程 1、如何随机我们都是根据特征值和目标值进行预测的我们面临的训练集是一致的如何对同样的训练集去产生多棵树呢两个随机训练集随机特征随机训练集有N个样本M个特征 2、训练集随机 bootstrap随机有放回抽样例子[1, 2, 3, 4, 5] 新的树的训练集 [2, 2, 3, 1, 5]先抽到2把2放回去可能又抽到2把2放回去抽到3把2放回去。。。以此类推从N个样本中随机有放回的抽样N个 3、特征随机从M个特征中随机抽取m个特征 M m 4、算法归纳训练集有N个样本M个特征 1从N个样本中随机有放回的抽样N个 2从M个特征中随机抽取m个特征并且M 要远远大于 m 3M m起到了降维的作用 5、为什么要这样做因为笨的树都在乱蒙聪明的树结果总是相同最终会实现投票的众数结果是相对正确的四、API 1、class sklearn.ensemble.RandomForestClassifier(n_estimators10, criterion’gini’, max_depthNone, bootstrapTrue, random_stateNone, min_samples_split2) 随机森林分类器 n_estimators设定要选几颗树可选默认10森林里的树木数量 120,200,300,500,800,1200 criterion划分决策树的依据可选默认gini基尼系数 max_depth树的深度可选默认None 5,8,15,25,30 bootstrap可选默认True是否在构建树时使用放回抽样 max_features默认auto每个决策树的最大特征数量从M个特征中选择m个特征 If auto, then max_featuressqrt(n_features). If sqrt, then max_featuressqrt(n_features) (same as auto). If log2, then max_featureslog2(n_features). If None, then max_featuresn_features. min_samples_split节点划分最少样本数 min_samples_leaf叶子节点的最小样本数五、随机森林预测案例 1、代码在前一篇决策树的代码后面加上 # 随机森林对泰坦尼克号乘客的生存进行预测from sklearn.ensemble import RandomForestClassifier# 实例化和决策树用相同的参数 estimator RandomForestClassifier(criterionentropy,max_depth8) estimator.fit(x, y) # 模型评估 # 方法1直接比对真实值和预测值 y_predict estimator.predict(m) print(y_predict\n, y_predict) print(直接比对真实值和预测值\n, n y_predict) # 方法2计算准确率 score estimator.score(m, n) print(准确率为\n, score)2、运行结果回顾下 x是训练集的特征值y是训练集的目标值m是测试集的特征值n是测试集的目标值但是对比决策树的94%准确率随机森林反而降低了六、总结 1、在当前所有算法中具有极好的准确率 2、能够有效地运行在大数据集上处理具有高维特征的输入样本而且不需要降维 3、能够评估各个特征在分类问题上的重要性

查看全文

http://www.w-s-a.com/news/912449/