当前位置: 首页 > news >正文

网站开发前端规范黑帽seo技术有哪些

网站开发前端规范,黑帽seo技术有哪些,东营区综合频道在线直播观看,移动商城 网站建设方法方式本次实验以AAAI 2014会议论文数据为基础#xff0c;要求实现或调用无监督聚类算法#xff0c;了解聚类方法。 任务介绍 每年国际上召开的大大小小学术会议不计其数#xff0c;发表了非常多的论文。在计算机领域的一些大型学术会议上#xff0c;一次就可以发表涉及各个方向…本次实验以AAAI 2014会议论文数据为基础要求实现或调用无监督聚类算法了解聚类方法。 任务介绍 每年国际上召开的大大小小学术会议不计其数发表了非常多的论文。在计算机领域的一些大型学术会议上一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章由UCI公开提供提供包括标题、作者、关键词、摘要在内的信息希望大家能根据这些信息合理地构造特征向量来表示这些论文并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察看每一类都是什么样的论文是否有一些主题。 基本要求 将文本转化为向量实现或调用无监督聚类算法对论文聚类例如10类可使用已有工具包例如sklearn 观察每一类中的论文调整算法使结果较为合理 无监督聚类没有标签效果较难评价因此没有硬性指标跑通即可主要让大家了解和感受聚类算法比较简单。 扩展要求 对文本向量进行降维并将聚类结果可视化成散点图。 注group和topic也不能完全算是标签因为 有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关 一篇文章可能有多个group和topic作为标签会出现有的文章同属多个类别这里暂不考虑这样的聚类 group和topic的取值很多但聚类常常希望指定聚合成出例如5/10/20类 感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果不作要求。 提示 高维向量的降维旨在去除一些高相关性的特征维度保留最有用的信息用更低维的向量表示高维数据常用的方法有PCA和t-SNE等 降维与聚类是两件不同的事情聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行结果也可能截然不同 高维向量做聚类降维可视化后若有同一类的点不在一起是正常的。在高维空间中它们可能是在一起的降维后损失了一些信息 实验结果  from sklearn.feature_extraction.text import CountVectorizer from sklearn.metrics import calinski_harabasz_score from sklearn.decomposition import PCA from sklearn.cluster import KMeans import pandas as pd import numpy as npdef load_data(pathdata/[UCI] AAAI-14 Accepted Papers - Papers.csv):df_data pd.read_csv(path)df_data df_data.dropna()return df_datadf load_data() df.describe() # 去除不好的特征 df_selected df.drop([groups, topics], axis1) cv CountVectorizer() X_features np.array([[i] for i in range(df.shape[0])])for col in df_selected.columns:tmp cv.fit_transform(df_selected[col].tolist())feature tmp.toarray()X_features np.concatenate((X_features, feature), axis1)print(特征矩阵的形状:, X_features.shape)特征矩阵的形状: (392, 9899) # 取出group和topics特征作为评价指标 df_cls df[[groups, topics]] cv CountVectorizer() X_cls [[i] for i in range(df.shape[0])] for col in df_cls.columns:tmp cv.fit_transform(df_cls[col])feature tmp.toarray()X_cls np.concatenate((X_cls, feature), axis1) SSESum of Squared Errors测量聚类结果中每个样品与所属聚类中心距离的平方和。SSE越小聚类样品越致密聚类效果越好。SSE是衡量簇内密度的指标越小越好。 CH指标Calinski-HarabaszIndex是综合考虑集群内密度和集群间分辨率的指标。计算集群间分散度与集群内密度之比。CH指标越大集群之间的距离越大集群内的距离越小集群效果越好。 for pca_num in [2, 5, 7, 10, 30]:X_pca PCA(n_componentspca_num).fit_transform(X_features)X_cs PCA(n_componentspca_num).fit_transform(X_cls)print(X_pca.shape)for k in range(5, 16):kmeans KMeans(n_clustersk)labels kmeans.fit_predict(X_pca)# 获取聚类中心centroids kmeans.cluster_centers_# 计算每个样本与所属簇中心的距离的平方distances np.sum((X_cs - centroids[labels])**2, axis1)# 计算 SSEsse np.sum(distances)# CH指标ch calinski_harabasz_score(X_cs, labels)score sse/chprint(k:, k, ch:, ch, SSE:, sse, score:, score)从结果可以看出降维度在2k为15的时候聚类效果更好。这里我用了sse和ch的比值作为成绩越小证明聚类效果越好。
http://www.w-s-a.com/news/250199/

相关文章:

  • 怎样做好网站用户体验申请网站空间
  • 网站建设优化公司招聘福州网站建设思企
  • 设计网站会员wordpress rss聚合
  • 网站建设过程中的收获html5官方网站开发流程
  • 网站建设-信科网络h5美食制作网站模板下载
  • 聊城九洲建设有限公司网站师大暨大网站建设
  • 烟台网站建设学校潍坊市建设监理协会网站
  • 大良营销网站建设资讯建设厅网站总经济师是干什么的
  • 网站优化推广软件网站制作公司dedecms
  • 在哪一个网站做社保申报百度小程序开发平台
  • 东莞网站建设_东莞网页设计网站色调代号
  • 濮阳住房和城乡建设部网站给别人做ppt的网站
  • 电子商务网站建设规划心得广告投放媒体
  • 淘宝店铺购买价格宝应百度seo
  • 同一虚拟主机 2个网站如果网站设计时
  • 网站维护的协议做网站 需要 域名 空间
  • 高安建站公司济宁哪里做网站最便宜
  • 南宁建站免费模板简单的html网页设计
  • 吉林省建设 安全 网站沐风seo
  • 自己做捕鱼网站能不能挣钱软件开发公司需要什么硬件设备
  • 大连设计网站公司3小说网站开发
  • 建设环保网站查询系统网站建设168
  • 保险网站程序源码wordpress过滤敏感
  • 简述营销型网站推广的方法网站建设报价方案模板
  • 四川林峰脉建设工程有限公司网站为什么建设营销型网站
  • 网站模板搭建已经建网站做外贸
  • 网站建设选哪个wordpress实现微信登录界面
  • 网页设计网站哪个公司好学网站开发要多少钱
  • 商务网站建设ppt做视频分享网站
  • WordPress网站根目录有哪些wordpress用户等级