当前位置: 首页 > news >正文

网站搭建哪里找最好成都专业制作网页的公司

网站搭建哪里找最好,成都专业制作网页的公司,网页设计与网站建设习题答案,wordpress4.x版本目录 分割连续变量 标准化连续变量 分类 分割连续变量 我们经常处理高度非线性的连续特征#xff0c;而且只用一个系数很难拟合到我们的模型中。 在这种情况下#xff0c;可能很难只通过一个系数来解释这样一个特征与目标之间的关系。有时#xff0c;将值划分到离散的桶中…目录 分割连续变量 标准化连续变量 分类 分割连续变量 我们经常处理高度非线性的连续特征而且只用一个系数很难拟合到我们的模型中。 在这种情况下可能很难只通过一个系数来解释这样一个特征与目标之间的关系。有时将值划分到离散的桶中是有用的。 首先让我们使用以下代码创建一些伪造数据 import numpy as np x np.arange(0, 100) x x / 100.0 * np.pi * 4 y x * np.sin(x / 1.764) 20.1234 现在我们可以通过以下代码创建一个 DataFrame schema typ.StructType([typ.StructField(continuous_var, typ.DoubleType(), False) ]) data spark.createDataFrame([[float(e), ] for e in y], schemaschema) 接下来我们将使用 QuantileDiscretizer 模型将我们的连续变量分割成五个桶numBuckets 参数 discretizer ft.QuantileDiscretizer(numBuckets5, inputColcontinuous_var, outputColdiscretized) 让我们看看我们得到了什么 data_discretized discretizer.fit(data).transform(data) 我们的函数现在看起来如下 现在我们可以将这个变量当作分类变量并使用 OneHotEncoder 进行编码以便将来使用。 标准化连续变量 标准化连续变量不仅有助于更好地理解特征之间的关系因为解释系数变得更容易而且还有助于计算效率并防止陷入一些数值陷阱。以下是如何在 PySpark ML 中进行操作。 首先我们需要创建我们的连续变量的向量表示因为它只是一个单独的浮点数 vectorizer ft.VectorAssembler(inputCols[continuous_var], outputCol continuous_vec) 接下来我们构建我们的标准化器和管道。通过将 withMean 和 withStd 设置为 True该方法将去除均值并将方差缩放到单位长度 normalizer ft.StandardScaler(inputColvectorizer.getOutputCol(), outputColnormalized, withMeanTrue,withStdTrue ) pipeline Pipeline(stages[vectorizer, normalizer]) data_standardized pipeline.fit(data).transform(data) 这是转换后的数据的样子 如你所见数据现在围绕 0 振荡具有单位方差绿线。 分类 到目前为止我们只使用了 PySpark ML 中的 LogisticRegression 模型。在这一部分我们将使用 RandomForestClassifier 再次模拟婴儿的生存机会。 在我们可以做到这一点之前我们需要将标签特征转换为 DoubleType import pyspark.sql.functions as func births births.withColumn(INFANT_ALIVE_AT_REPORT, func.col(INFANT_ALIVE_AT_REPORT).cast(typ.DoubleType()) ) births_train, births_test births \.randomSplit([0.7, 0.3], seed666) 现在我们已经将标签转换为双精度我们准备构建我们的模型。我们以与之前类似的方式进行区别是我们将重用本章早期的编码器和 featureCreator。numTrees 参数指定应该有多少决策树在我们的随机森林中maxDepth 参数限制了树的深度 classifier cl.RandomForestClassifier(numTrees5, maxDepth5, labelColINFANT_ALIVE_AT_REPORT) pipeline Pipeline(stages[encoder,featuresCreator, classifier]) model pipeline.fit(births_train) test model.transform(births_test) 现在让我们来看看 RandomForestClassifier 模型与 LogisticRegression 模型相比表现如何 evaluator ev.BinaryClassificationEvaluator(labelColINFANT_ALIVE_AT_REPORT) print(evaluator.evaluate(test, {evaluator.metricName: areaUnderROC})) print(evaluator.evaluate(test, {evaluator.metricName: areaUnderPR})) 我们得到以下结果 嗯正如你看到的结果比逻辑回归模型好大约 3 个百分点。让我们测试一下单棵树的模型表现如何 classifier cl.DecisionTreeClassifier(maxDepth5, labelColINFANT_ALIVE_AT_REPORT) pipeline Pipeline(stages[encoder,featuresCreator, classifier]) model pipeline.fit(births_train) test model.transform(births_test) evaluator ev.BinaryClassificationEvaluator(labelColINFANT_ALIVE_AT_REPORT) print(evaluator.evaluate(test, {evaluator.metricName: areaUnderROC})) print(evaluator.evaluate(test, {evaluator.metricName: areaUnderPR})) 前面的代码给出了以下结果 一点也不差实际上在精确度-召回率关系方面它的表现比随机森林模型更好而且在 ROC 下面积方面只是稍微差一些。我们可能刚刚发现了一个赢家
http://www.w-s-a.com/news/588961/

相关文章:

  • 做网上竞彩网站合法吗免费网站建设品牌
  • 网站开发所需要的的环境客户关系管理的内涵
  • 优质做网站公司做软件的人叫什么
  • 徐州市徐州市城乡建设局网站首页网站建设刂金手指下拉十五
  • 建设游戏网站目的及其定位市场营销策略概念
  • 小学电教检查网站建设资料wordpress谷歌字体
  • 南通做网站的公司有哪些中国建筑论坛网
  • 技术支持 佛山网站建设wordpress不用ftp
  • 广州定制app开发wordpress配置搜索引擎优化
  • 兰州网站建设论坛四川建设网官网登录
  • 在线作图免费网站湖南批量出品机
  • 深圳做网站公司有哪些地方妇联加强网站平台建设
  • vps建设网站别人访问不了网页链接生成器
  • 网站建设一般要多少钱电商平台取名字大全
  • 怎么做网站封面上的图网站开发语言 微信接口
  • 免费观看网站建设优化安徽
  • 上海电商网站开发公司做婚恋网站的翻译好吗
  • 以网站建设为开题报告大数据技术就业前景
  • dw做网站字体 别人电脑显示青岛活动策划公司
  • 网站成立时间查询墨猴seo排名公司
  • 技术支持 随州网站建设苏州企业网站建设定制
  • 美食网站开发目的与意义网站开发环境选择
  • 青岛西海岸新区城市建设局网站开发板在null不可用
  • 企业信息管理系统免费seo优化个人博客
  • 做任务的设计网站泰州哪里做网站
  • 什么网站可以做设计赚钱吗南京十大软件公司排名
  • 网站开发时间进度北京有哪些著名网站
  • 深圳比较好的设计网站公司自己的网站到期域名如何续费
  • 温州做网站哪儿新云网站模版
  • 网站开发 视频存在哪检察院前期网站建设