当前位置: 首页 > news >正文

网站测评必须做品牌建设情况评估

网站测评必须做,品牌建设情况评估,汕头市建设局造价信息网站,重庆需要网站建设一篇介绍了PCA算法的快速理解和应用#xff0c;本章讲一下KPCA。KPCA方法与PCA方法一样#xff0c;是有着扎实的理论基础的#xff0c;相关理论在论文上以及网络上可以找到大量的材料#xff0c;所以这篇文章还是聚焦在方法的快速理解以及应用上#xff0c;此外还会对同学…一篇介绍了PCA算法的快速理解和应用本章讲一下KPCA。KPCA方法与PCA方法一样是有着扎实的理论基础的相关理论在论文上以及网络上可以找到大量的材料所以这篇文章还是聚焦在方法的快速理解以及应用上此外还会对同学们可能比较关注的参数设置方式进行说明从而达到快速上手应用的目的。一、KPCA的基本概念核主成分分析Kernel Principal Component Analysis, KPCA方法是PCA方法的改进从名字上也可以很容易看出不同之处就在于“核”。使用核函数的目的用以构造复杂的非线性分类器。核方法Kernel Methods是一种在机器学习领域广泛使用的非参数统计学习方法。它可以用于分类、回归、聚类等任务并被广泛应用于计算机视觉、自然语言处理、生物信息学等领域。比如“核”在SVM方法中也是核心概念之一。核方法的核心思想是通过映射将输入空间中的数据点转换到一个特征空间中从而使得在特征空间中的数据点能够更容易地被处理和分析。而这种映射通常是通过核函数Kernel Function来实现的。低纬到高纬转换示意图来源https://entokey.com/artificial-intelligence-in-keratoconus/需要注意的是核函数本身并不会显式地定义高维特征空间而是通过核技巧来实现数据从低维空间到高维特征空间的映射。这种方法可以大大降低计算复杂度同时可以处理非线性问题因为它可以将原始数据映射到一个非线性特征空间中从而使得在特征空间中的数据点更容易被线性分类器或回归器处理。下边我来举两个例子与之前PCA的文章一致说明一下KPCA常见的应用场合和使用方法以及与KPCA方法的一些不同之处。二、为什么要数据降维数据降维是指将高维度的数据映射到低维度的空间中同时保留数据中的重要信息。这种降维的操作可以帮助我们更好地理解和处理数据并且可以降低计算的复杂度提高机器学习算法的效率和准确率。举个例子假设我们有一个人口统计数据集其中包含了10000个人的各种信息如年龄、性别、职业、收入等。这些信息可以表示为10000行x10列的矩阵即每个人的信息用一个10维向量表示。然而在进行机器学习分析时这些维度可能是冗余的而且会带来很高的计算成本。因此我们可以考虑对这些数据进行降维操作将其映射到一个更低维度的空间中比如3维或2维。在这个新的低维空间中我们仍然可以保留数据中的重要信息比如不同职业之间的差异、年龄与收入之间的相关性等但是计算复杂度会大大降低更适合于机器学习算法的处理。来源https://blog.csdn.net/danwenxuan/article/details/76647940演示的是3维降到1维上述人口的例子是从10维往下降数据降维有很多用处以下是其中一些常见的用途1.数据可视化在高维数据中人类的视觉系统难以直观地理解数据的特征和关系。通过将数据降维到二维或三维空间我们可以更容易地对数据进行可视化和探索。2.去除冗余特征在一些应用中数据集可能存在大量冗余特征这些特征对于建模没有帮助甚至会影响模型性能。通过数据降维我们可以去除冗余特征提高建模效率和性能。3.加速算法在一些算法中如聚类和分类高维数据会导致计算复杂度的急剧增加。通过数据降维我们可以将高维数据降到低维从而加速算法的运行。4.降低存储和计算成本随着数据集的不断增大存储和计算成本也会急剧增加。通过数据降维我们可以将数据的维度降到更低从而减少存储和计算成本。三、为什么用KPCAKPCA是PCA的一种扩展形式它可以有效地应对非线性数据并且具有以下几个优点1.更好的数据可分性KPCA在将数据映射到高维空间后能够更好地区分不同类别的数据提高了数据的可分性。举例来说如果数据集是一个螺旋形状那么使用 PCA 很难将这个数据集分离成两个类别因为 PCA 只能处理线性数据结构。但是如果使用 KPCA可以将数据映射到高维空间中使得数据在新的空间中变得线性可分从而更容易进行分类。2.善于处理非线性数据与PCA只能处理线性数据不同KPCA可以处理非线性数据。KPCA使用核函数将原始数据映射到一个高维的特征空间上该空间具有更强的表达能力能够处理非线性关系。在这个高维特征空间中我们可以使用PCA来提取主成分再将它们映射回原始空间。这样就可以在原始空间中实现非线性变换从而更好地处理非线性数据。对于许多实际问题有很好的应用前景例如图像处理和模式识别。3.更加灵活的使用方式KPCA的核函数还可以通过调整参数来进一步调整模型的复杂度和鲁棒性。因此相对于PCAKPCA具有更多的灵活性和可调性可以更好地适应不同的数据场景和需求。四、KPCA中的几个重要参数1.核函数Kernel Function核函数用于将原始数据映射到一个高维空间中从而能够更好地区分数据。常见的核函数包括线性核linear、多项式核poly、高斯核gaussian等径向基核RBF是高斯核的另一种表达形式本质上是相同的。不同的核函数可以对数据进行不同类型的变换从而影响降维效果。2.核函数参数Kernel Function Parameter核函数通常包含一个或多个参数例如高斯核就有一个标准差参数。这些参数影响了核函数变换的程度可以通过交叉验证等方法来确定最佳参数值。2.1 高斯核函数中的gammaγ参数高斯核函数定义为 其中γ是高斯核函数的一个超参数。它控制了数据点在高维空间中的分布情况。当γ越大时高斯核函数会使得数据点在高维空间中的分布更加集中因此降维后的数据将更容易区分。常见的取值范围为 到 。2.2 多项式核函数中的r和d参数多项式核函数定义为 其中r是常数项d是多项式的阶数这两个参数控制了多项式核函数的形状。r是平移参数它的作用是将多项式核函数平移一定的距离使得更多的数据被映射到高维空间。d的取值范围为1到10之间的整数。如果d取值过大会导致过拟合的问题如果取值过小则可能会欠拟合数据。3.降维后的维度Number of Components该参数是需要同学们自己指定的在实际使用中通常需要结合实际应用场景进行设置。如果不知道该怎样设置可以结合各个成分的贡献度进行筛选。贡献度越高表示该主成分对数据的解释能力越强因此在选择主成分时可以根据其贡献度进行排序选择贡献度较高的主成分作为保留的特征。比如上边人口统计的例子中经kpca融合后得到的特征就会按照贡献度从大到小排序我们可以取总贡献度之和达到85%或者90%自定的前几个特征作为降维后的特征数据而这个特征数量就是降维后的维度。下边我们举例说明一下。五、案例降维、聚类与分类举一个PCA中介绍过的例子。这里介绍一下鸢尾花数据集鸢尾花在机器学习里是常客之一。数据集由具有150个实例组成其特征数据包括四个萼片长、萼片宽、花瓣长、花瓣宽。数据集中一共包括三种鸢尾花分别叫做Setosa、Versicolor、Virginica就像下图也就是说这组数据的维度是150*4数据是有标签的。有标签是指每个实例我们都知道它对应的类别此时我们进行KPCA降维可以得到每个主成分解释方差占总方差的百分比这个数值可以用以表示每个主成分中包含的信息量从计算结果上来看第1个主成分和第2个主成分的百分比之和已经超过95%前三个主成分百分比之和更是超过了99%。此时我们就可以按照贡献率来筛选降维后的维度了比如设置总贡献度能达到99%以上那么就把降维维度设置为2即可。我们可以绘制一下数据降到二维和三维时降维数据的分布情况尽管PCA算法的初衷是降维而非聚类不过由于KPCA降维后的数据常常会用做机器学习的输入数据在数据降维的同时查看降维后数据的分布情况对于模式识别/分类任务的中间状态确定还是十分有益的再直白些说这些图片放在论文里丰富一下内容也是极好的。在这种应用场景下数据降维的最主要目的其实还是解决数据特征过于庞大的问题这个例子中特征只有4个所以还不太明显。很多时候我们面对的是几十上百乃至更多的特征维度这些特征中包含着大量冗余信息使得计算任务变得非常繁重调参的难度和会大大增加。此时加入一步数据降维就是十分有必要的了。六、MATLAB的KPCA降维快速实现KPCA算法在MATLAB中还没有官方函数不过已经有前辈造出了轮子。大家可以在下边链接下载和使用MATLAB-Kernel-PCA对于不熟悉MATLAB编程或者希望更简洁的方法实现KPCA降维并同时绘制出相关图片的同学则可以考虑使用本专栏封装的函数它可以实现1.输入数据的行列方向纠正。是的MATLAB的pca函数对特征矩阵的输入方向是有要求的如果搞不清程序可以帮你自动纠正。options.autoDiron;%是否进行自动纠错on为是否则为否。开启自动纠错后会智能调整数据的行列方向。2.指定输出的维度。也就是降维之后的维度当然这个数不能大于输入数据的特征维度。options.NumDimensions3;%降维后的数据维度3.数据归一化。你可以选择在PCA之前对特征数据进行归一化这也只需要设置一个参数。options.AutoScalefalse;%输入数据是否进行标准化false (默认) | true 4.绘制特征分布图和成分百分比图。在降维维度为2或者3时可以绘制特征分布图当然你也可以选择设置不画图图个清静。figflagon;%是否画图on为画图off为不画只有NumDimensions为2或者3时起作用3以上无法画图5.相关超参数设置。options.gamma2;%超参数gamma的数值默认为2只对gaussian核有效options.r1;%超参数r的数值默认为1只对polynomial核有效options.d2;%超参数d的数值默认为2只对polynomial核有效设置好这些配置参数后只需要调用下边这行代码[kpcaVal,explained]khKPCA(data,options,species,figflag);%kpcaVal为降维后的数据矩阵explained为各成分贡献度就可以绘制出这样两张图绘制三维分布图如果要绘制二维图把options.NumDimensions设置成2就好了。绘制出来是这样绘制二维分布图不过上述是知道标签值species的情况如果不知道标签值设置species[]就行了此时画出来的分布图是单一颜色的。上述代码秉承了本专栏一向的易用属性功能全部集中在khPCA函数里了这个函数更详细的介绍如下[kpcaVal,explained] khKPCA(data,options,species,figflag); % 执行KPCA操作并实现画图 % 依赖函数KernelPca.m原始代码见https://github.com/kitayama1234/MATLAB-Kernel-PCA % 输入 % data拟进行降维的数据data维度为m*n其中m为特征值种类数n为每个特征值数据长度 % options一些与kpca降维有关的设置使用结构体方式赋值比如 options.autoDir on具体包括 % -autoDir是否进行自动纠错on为是否则为否。开启自动纠错后会智能调整数据的行列方向。 % -NumDimensions降维后的数据维度默认为2注意NumDimensions不能大于data原本维度 % -kernel kernel类型选择(linear, gaussian, or polynomial)默认为linear % -gamma超参数gamma的数值默认为2 % -r超参数r的数值默认为1 % -d超参数d的数值默认为2 % -AutoScale是否进行标准化True或False默认为False % % species分组变量可以是数组、数值向量、字符数组、字符串数组等但是需要注意此变量维度需要与Fea的组数一致。该变量可以不赋值调用时对应位置写为[]即可 % 例如species可以是[1,1,1,2,2,2,3,3,3]这样的数组代表了Fea前3行数据为第1组4-6行数据为第2组7-9行数据为第三组。 % 关于此species变量更多信息可以查看下述链接中的Grouping variable % https://ww2.mathworks.cn/help/stats/gscatter.html?s_tiddoc_ta#d124e492252 % % figflag是否画图on为画图off为不画只有NumDimensions为2或者3时起作用3以上无法画图 % 输出 % pcaVal主成分分数即经过pca分析计算得到的主元每一列是一个主元 % explained每个主成分解释方差占总方差的百分比以列向量形式返回。需要上边这个函数文件以及测试代码的同学可以在下边链接获取核主成分分析KPCA降维|工具箱附录linear核函数 :gaussian核函数 :polynomial核函数 :
http://www.w-s-a.com/news/447695/

相关文章:

  • 最牛论坛网站app生成链接
  • 用jsp做的网站源代码网站优化说明
  • 网站建设公司名字甘肃省和住房建设厅网站
  • 做外贸网站需要什么卡网站建设公司怎样
  • 网站关键词密度怎么计算的中文版wordpress
  • asp网站建设教程如何在线上推广自己的产品
  • 电脑网站你懂我意思正能量济南网站建设公司熊掌号
  • 杂志社网站建设萧山区网站建设
  • 电商网站前端制作分工网站怎做百度代码统计
  • 免费的html大作业网站网站开发心得500字
  • 临时工找工作网站做美缝帮别人做非法网站
  • 深圳网站建设 设计创公司新昌网站开发
  • 唐山教育平台网站建设上海装修网官网
  • 一个公司做多个网站什么行业愿意做网站
  • 成都龙泉建设网站免费域名app官方下载
  • xss网站怎么搭建如何用wordpress站群
  • 怎样做网站外链supercell账号注册网站
  • 阿里巴巴网站是用什么技术做的哪些网站做推广比较好
  • 做网站go和python手机如何创网站
  • 网站开发进修网站做301将重定向到新域名
  • 公司网站开发费用账务处理ucenter wordpress
  • 六站合一的优势少儿编程机构
  • 软件开发与网站开发学做美食网站哪个好
  • 网站搜索 收录优化百度推广页面投放
  • 响应式网站的优点浙江省网站域名备案
  • 网站安全 扫描深圳被点名批评
  • 在哪个网站可以一对一做汉教网站优化策略
  • 龙岩做网站的顺企网宁波网站建设
  • 昆山网站建设河北连锁餐厅vi设计公司
  • 新蔡县住房和城乡建设局网站南昌租房网地宝网