当前位置: 首页 > news >正文

网站加入站长统计网站建设合理的流程

网站加入站长统计,网站建设合理的流程,南山最专业的网站建设,4虎最新域名更新地址聚类是数据挖掘中的概念#xff0c;就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇#xff0c;使得同一个簇内的数据对象的相似性尽可能大#xff0c;同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起#xff0c;…聚类是数据挖掘中的概念就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇使得同一个簇内的数据对象的相似性尽可能大同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起不同类数据尽量分离。 聚类和分类的区别 Clustering (聚类)聚类的时候大多数情况下我们并不知道数据有多少类简单地说就是把相似的东西分到一组聚类的时候我们并不关心某一类是什么我们需要实现的目标只是把相似的东西聚到一起。因此一个聚类算法通常只需要知道如何计算相似度就可以开始工作了因此 clustering 通常并不需要使用训练数据进行学习这在Machine Learning中被称作unsupervised learning (无监督学习)。 Classification (分类)对于一个classifier通常需要你告诉它“这个东西被分为某某类”这样一些例子理想情况下一个 classifier 会从它得到的训练集中进行“学习”从而具备对未知数据进行分类的能力这种提供训练数据的过程通常叫做supervised learning (监督学习)。 聚类过程 1.数据准备包括特征标准化和降维 2.特征选择从最初的特征中选择最有效的特征,并将其存储于向量中 3.特征提取通过对所选择的特征进行转换形成新的突出特征 4.聚类(或分组)首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量而后执行聚类或分组 5.聚类结果评估是指对聚类结果进行评估评估主要有3种外部有效性评估、内部有效性评估和相关性测试评估。 1.4衡量聚类算法优劣的指标 1…处理大的数据集的能力 2.处理任意形状包括有间隙的嵌套的数据的能力 3.算法处理的结果与数据输入的顺序是否相关也就是说算法是否独立于数据输入顺序 4.处理数据噪声的能力是否需要预先知道聚类个数是否需要用户给出领域知识 5.算法处理有很多属性数据的能力也就是对数据维数是否敏感。 聚类简介 相似度概念 K-Means聚类 # !/usr/bin/python # -*- coding:utf-8 -*-import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import matplotlib.colors from sklearn.cluster import KMeansdef expand(a, b):d (b - a) * 0.1return a - d, b dif __name__ __main__:N 400centers 4data, y ds.make_blobs(N, n_features2, centerscenters, random_state2)data2, y2 ds.make_blobs(N, n_features2, centerscenters, cluster_std(1, 2.5, 0.5, 2), random_state2)data3 np.vstack((data[y 0][:], data[y 1][:50], data[y 2][:20], data[y 3][:5]))y3 np.array([0] * 100 [1] * 50 [2] * 20 [3] * 5)cls KMeans(n_clusters4, initk-means)y_hat cls.fit_predict(data)y2_hat cls.fit_predict(data2)y3_hat cls.fit_predict(data3)m np.array(((1, 1), (1, 3)))data_r data.dot(m)y_r_hat cls.fit_predict(data_r)matplotlib.rcParams[font.sans-serif] [uSimHei]matplotlib.rcParams[axes.unicode_minus] Falsecm matplotlib.colors.ListedColormap(list(rgbm))plt.figure(figsize(9, 10), facecolorw)plt.subplot(421)plt.title(u原始数据)plt.scatter(data[:, 0], data[:, 1], cy, s30, cmapcm, edgecolorsnone)x1_min, x2_min np.min(data, axis0)x1_max, x2_max np.max(data, axis0)x1_min, x1_max expand(x1_min, x1_max)x2_min, x2_max expand(x2_min, x2_max)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(422)plt.title(uKMeans聚类)plt.scatter(data[:, 0], data[:, 1], cy_hat, s30, cmapcm, edgecolorsnone)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(423)plt.title(u旋转后数据)plt.scatter(data_r[:, 0], data_r[:, 1], cy, s30, cmapcm, edgecolorsnone)x1_min, x2_min np.min(data_r, axis0)x1_max, x2_max np.max(data_r, axis0)x1_min, x1_max expand(x1_min, x1_max)x2_min, x2_max expand(x2_min, x2_max)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(424)plt.title(u旋转后KMeans聚类)plt.scatter(data_r[:, 0], data_r[:, 1], cy_r_hat, s30, cmapcm, edgecolorsnone)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(425)plt.title(u方差不相等数据)plt.scatter(data2[:, 0], data2[:, 1], cy2, s30, cmapcm, edgecolorsnone)x1_min, x2_min np.min(data2, axis0)x1_max, x2_max np.max(data2, axis0)x1_min, x1_max expand(x1_min, x1_max)x2_min, x2_max expand(x2_min, x2_max)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(426)plt.title(u方差不相等KMeans聚类)plt.scatter(data2[:, 0], data2[:, 1], cy2_hat, s30, cmapcm, edgecolorsnone)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(427)plt.title(u数量不相等数据)plt.scatter(data3[:, 0], data3[:, 1], s30, cy3, cmapcm, edgecolorsnone)x1_min, x2_min np.min(data3, axis0)x1_max, x2_max np.max(data3, axis0)x1_min, x1_max expand(x1_min, x1_max)x2_min, x2_max expand(x2_min, x2_max)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.subplot(428)plt.title(u数量不相等KMeans聚类)plt.scatter(data3[:, 0], data3[:, 1], cy3_hat, s30, cmapcm, edgecolorsnone)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.tight_layout(2, rect(0, 0, 1, 0.97))plt.suptitle(u数据分布对KMeans聚类的影响, fontsize18)# https://github.com/matplotlib/matplotlib/issues/829# plt.subplots_adjust(top0.92)plt.show() 聚类评价 # !/usr/bin/python # -*- coding:utf-8 -*-# 评价指标 from sklearn import metricsif __name__ __main__:y [0, 0, 0, 1, 1, 1]y_hat [0, 0, 1, 1, 2, 2]h metrics.homogeneity_score(y, y_hat)c metrics.completeness_score(y, y_hat)print(u同一性(Homogeneity), h)print(u完整性(Completeness), c)v2 2 * c * h / (c h)v metrics.v_measure_score(y, y_hat)print(uV-Measure, v2, v)y [0, 0, 0, 1, 1, 1]y_hat [0, 0, 1, 3, 3, 3]h metrics.homogeneity_score(y, y_hat)c metrics.completeness_score(y, y_hat)v metrics.v_measure_score(y, y_hat)print(u同一性(Homogeneity), h)print(u完整性(Completeness), c)print(uV-Measure, v)# 允许不同值y [0, 0, 0, 1, 1, 1]y_hat [1, 1, 1, 0, 0, 0]h metrics.homogeneity_score(y, y_hat)c metrics.completeness_score(y, y_hat)v metrics.v_measure_score(y, y_hat)print(u同一性(Homogeneity), h)print(u完整性(Completeness), c)print(uV-Measure, v)y [0, 0, 1, 1]y_hat [0, 1, 0, 1]ari metrics.adjusted_rand_score(y, y_hat)print(ari)y [0, 0, 0, 1, 1, 1]y_hat [0, 0, 1, 1, 2, 2]ari metrics.adjusted_rand_score(y, y_hat)print(ari) AP算法 AP算法 MeanShift算法 算法原理 meanshift算法其实通过名字就可以看到该算法的核心mean均值shift偏移简单的说也就是有一个点 ,它的周围有很多个点 我们计算点 移动到每个点 所需要的偏移量之和求平均就得到平均偏移量该偏移量的方向是周围点分布密集的方向该偏移量是包含大小和方向的。然后点 就往平均偏移量方向移动再以此为新的起点不断迭代直到满足一定条件结束。 MeanShift算法 层次聚类 凝聚的层次聚类AGNES算法( AGglomerative NESting )采用自底向上的策略。 最初将每个对象作为一个簇然后这些簇根据某些准则被一步一步合并两个簇间的距离可以由这两个不同簇中距离最近的数据点的相似度来确定聚类的合并过程反复进行直到所有的对象满足簇数目。 分裂的层次聚类DIANA算法(DIvisive ANALysis)采用自顶向下的策略。首先将所有对象置于一个簇中然后按照某种既定的规则逐渐细分为越来越小的簇(比如最大的欧式距离)直到达到某个终结条件(簇数目或者簇距离达到阈值)。 层次聚类 谱聚类 谱聚类 # !/usr/bin/python # -*- coding:utf-8 -*-import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import matplotlib.colors from sklearn.cluster import spectral_clustering from sklearn.metrics import euclidean_distancesdef expand(a, b):d (b - a) * 0.1return a - d, b dif __name__ __main__:matplotlib.rcParams[font.sans-serif] [uSimHei]matplotlib.rcParams[axes.unicode_minus] Falset np.arange(0, 2 * np.pi, 0.1)data1 np.vstack((np.cos(t), np.sin(t))).Tdata2 np.vstack((2 * np.cos(t), 2 * np.sin(t))).Tdata3 np.vstack((3 * np.cos(t), 3 * np.sin(t))).Tdata np.vstack((data1, data2, data3))n_clusters 3m euclidean_distances(data, squaredTrue)sigma np.median(m)plt.figure(figsize(12, 8), facecolorw)plt.suptitle(u谱聚类, fontsize20)clrs plt.cm.Spectral(np.linspace(0, 0.8, n_clusters))for i, s in enumerate(np.logspace(-2, 0, 6)):print(s)af np.exp(-m ** 2 / (s ** 2)) 1e-6y_hat spectral_clustering(af, n_clustersn_clusters, assign_labelskmeans, random_state1)plt.subplot(2, 3, i 1)for k, clr in enumerate(clrs):cur (y_hat k)plt.scatter(data[cur, 0], data[cur, 1], s40, cclr, edgecolorsk)x1_min, x2_min np.min(data, axis0)x1_max, x2_max np.max(data, axis0)x1_min, x1_max expand(x1_min, x1_max)x2_min, x2_max expand(x2_min, x2_max)plt.xlim((x1_min, x1_max))plt.ylim((x2_min, x2_max))plt.grid(True)plt.title(u$\sigma$ %.2f % s, fontsize16)plt.tight_layout()plt.subplots_adjust(top0.9)plt.show()
http://www.w-s-a.com/news/634819/

相关文章:

  • 设计作品网站怎么开网站
  • 上海网站开发制作建设网站的建设费用包括
  • 上海网站建设网站开发亚洲杯篮球直播在什么网站
  • 网站做seo第一步h5制作公司
  • 软件外包产业网络优化工程师是干嘛的
  • 怎么用服务器做局域网网站河西网站建设
  • 工业企业网站建设企业门户网站解决方案
  • 网站运营与管理论文网上商城都有哪些
  • 常德网站制作建设毕设电商网站设计
  • 西安企业模板建站福州+网站建设+医疗
  • 邹城市住房和建设局网站仙居网站建设贴吧
  • 为什么要用CGI做网站网站手机优化显示
  • 做袜子娃娃的网站做网站要学的东西
  • 类qq留言网站建设企业做网站公司
  • 如何查到网站建设三足鼎立小程序开发公司
  • 交互网站怎么做的wordpress ssl 错位
  • 公司宣传 如何做公司网站郑州做网站那
  • 衡阳市城乡建设协会官方网站免费游戏网站模板
  • 小程序怎么做优惠券网站合肥建站网站平台
  • 民制作网站价格株洲企业seo优化
  • 网站建设 岗位职责网站建设百度索引
  • 网站建设的内容下拉网站导航用ps怎么做
  • 怎样做p2p网站海口免费自助建站模板
  • 给企业建设网站的流程图wordpress 添加子菜单
  • 企业网站带新闻发布功能的建站皋兰县建设局网站
  • 国内外做gif的网站wordpress数据库教程
  • 成都建站平台自己做一个网站需要多少钱
  • 景区旅游网站平台建设公司企业网站源码
  • 免费高清网站推荐喂来苏州网络科技有限公司
  • php做的大型网站有哪些备案博客域名做视频网站会怎么样