当前位置: 首页 > news >正文

wordpress教程帕兰系统优化工具是什么软件

wordpress教程帕兰,系统优化工具是什么软件,莱芜热点,大型门户网站建设推广本次我们为大家讲解聚类分析#xff0c;k-means属于无监督学习算法#xff0c;无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次#xff0c;在无标签数据中寻找隐藏规律。 聚类模型在数据分析当中的应用#xff1a;既可以作为一个单独过程#xff0c;用于寻找数…本次我们为大家讲解聚类分析k-means属于无监督学习算法无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次在无标签数据中寻找隐藏规律。 聚类模型在数据分析当中的应用既可以作为一个单独过程用于寻找数据内在规律也可以作为分类等其他分析任务的前置探索。 算法原理 K-means聚类的目标是将n个观测数据点按照一定标准划分到k个聚类中数据点根据相似度划分。每一个聚类有一个质心质心是对聚类中所有点的位置求平均值得到的点。每个观测点属于距离它最近的质心所代表的聚类。 模型最终会选择n个观测点到所属聚类质心距离平方和(损失函数)最小的聚类方式作为模型输出。K-means聚类分析中特征变量需要是数值变量以便于计算距离。 我们使用距离来测量两个样本的相似性距离的实质是他将两个具有多维特征数据的样本的比较映射成一个数字可以通过这个数字的大小来衡量距离。 几个常见距离计算方法 欧几里得距离-直线距离不适合高维度数据对某一维度大数值差异更加敏感 曼哈顿距离-也叫出租车距离用来标明两个点在标准坐标系上的绝对轴距总和只计算水平或垂直距离对某一维度大数值差异不敏感 Hamming距离-可用来测量含有分类值的向量之间的距离 余弦距离-通过计算两个向量的夹角余弦值来评估相似度适用于结果与数据中特征的取值大小无关而与不同特征之间比值有关的案例 k-means的实质是每次都把质心移动到群内所有点的‘means’上不是建立在距离这个基础上而是建立在最小化方差和的基础上方差恰好是欧几里得距离平方如果采用其他距离但依然去最小化方差和会导致整个算法无法收敛所以k-means使用欧几里得方法。 第一步数据归一化、离群点处理后随机选择k个聚类质心k的选择下一节详细讲 第二步所有数据点关联划分到离自己最近的质心并以此为基础划分聚类 第三步将质点移动到当前划分聚类包含所有数据点的中心(means) 重复第二步、第三步n次直到所有点到其所属聚类质心的距离平方和最小  多次随机 选择聚几类则开始随机选择几个聚类质心。 基于不同随机初始质心第一步的质心的尝试 尝试1第一步→第二步→第三步 … (重复二、三步~10次)→聚类方式1 尝试2第一步→第二步→第三步 … (重复二、三步~10次)→聚类方式2 … 在所有尝试结果中选择所有点到其所属聚类质心的距离平方和(方差和)最小的聚类方式 k值选择方法 K值的选择是k-means算法很重要的一步K值选择方法有肘部法则、拍脑袋法、gap statistic法、轮廓系数等本篇主要介绍肘部法则及gap statistic两种常用方法。 1、肘部法则 我们可以尝试不同的K值并将不同K值所对应的损失函数画成折线横轴为K的取值纵轴为距离平方和定义的损失函数距离平方和随着K的变大而减小。当K5时存在一个拐点像人的肘部一样当k5时曲线极速下降当K5时曲线趋于平稳拐点即为K的最佳取值。 2、间隔统计量(gap statistic) 手肘法则是强依赖经验的方法而gap statistic方法则不强依赖经验只需要找到最大gap statistic 所对应的K即可我们继续使用上面的损失函数当分为K组时对应的损失函数为Dk则gap statistic定义为 这里的E(logDk)是logDk的期望通过蒙特卡洛模拟产生我们在样本所在的区域内按照均匀分布随机产生和原始样本数一样多的随机样本并对这些随机样本做k-means得到对应的损失函数Dk重复多次即可得出E(logDk)的近似值从而最终可以计算gap statistic。而gap statistic取得最大值所对应的K就是最佳的分组数。 如下图所示K3时Gap(K)的取值最大所以3为K的最佳取值。 k-means数据分析实战案例 案例背景O2O平台为了更好地为线下店面服务增加一个增值服务即利用自己拥有的地理位置数据为线下店面选址数据如下 每一条数据是一个兴趣点POI - Point of Interest的特征具体指的是以这个位置为中心的500米半径圆里各类商家/设施的数量数据中我们隐藏掉了每个POI的具体名称、坐标、类型。选址的商家将试图从这些位置中选择一个作为下一个店面的位置。 商家想知道这40个潜在店面位置之间是否有显著的差异。我们可以将所有POI按照相似程度划分成几个类别 步骤 数据准备数据获取、数据清洗、数据变换等步骤重点是针对分析目的进行特征选择以及特征标准化 数据建模使用k-means算法进行数据建模 后续分析聚类模型的特征描述分析基于业务问题进一步分析 1、读取数据 2、特征选取 3、标准化 4、k值选择 5、模型建立 6、聚类分析对每一聚类进行进一步分析和描述 根据描述分析生成poi聚类结果画像利用聚类对人群/商品/行为标签进行精细划分作为进一步商业决策的基础
http://www.w-s-a.com/news/282757/

相关文章:

  • 哪个网站教做饭做的好wordpress热点文章
  • 可以做推广东西的网站重庆网站建设 重庆网站制作
  • 珠海网站建设培训学校wordpress去版权 合法
  • 建设食品商购网站学校网站设计实验报告
  • 建个网站多少钱沭阳奥体小区做网站的
  • 广州视频网站建站公司php网页设计作业代码
  • 成都公司网站设计如何制作网址最简单的方法
  • 温州 做网站福建住房城乡建设部网站
  • 网站自动化采集成都网站设计费用
  • 广东专业网站定制建设淘宝网站的人员组织结构
  • 网站改版seo无锡有多少家公司
  • h5美食制作网站模板下载wordpress大学百度云
  • 零陵做网站建立网站的公司平台
  • 某企业电子商务网站建设网站开发实验结论
  • 自己做的网站突然打不开杭州哪些做网站公司好
  • 株洲专业建设网站免费cms内容管理系统
  • 网上建立网站赚钱网站建设方案书纯文字
  • 专业网站设计哪家好it外包合同模板
  • 个人网站备案都需要什么中小企业服务网
  • 佛山网站建设哪个在公司网站投简历该怎么做
  • 八戒网站做推广老域名全部失效请拿笔记好
  • iss服务器网站建设甘肃建设厅网站执业注册中心
  • 域名访问网站 过程网站 免费 托管运营
  • 下单的网站建设教程wordpress php7.1
  • 爱网站查询怎么做网站的图片跳转
  • 阿里云建站百度收录吗北京的设计公司排名
  • 网站制作方案包含哪些内容布吉网站建设方案
  • 吉林省建设安全信息网站宜宾市建设工程质量监督站网站
  • 镇江网站建设远航网络帝国cms 网站地图 自定义
  • 金融网站模板源代码net网站是国际域名吗