当前位置：首页 > news >正文

浙江市建设网站手机网站触屏版

news 2026/4/9 10:24:22

浙江市建设网站,手机网站触屏版,云匠网要交钱才能用吗,设计上海展会2023什么是数据特征选定? 数据特征选定#xff08;Feature Selection#xff09;是指从原始数据中选择最相关、最有用的特征#xff0c;用于构建机器学习模型。特征选定是机器学习流程中非常重要的一步#xff0c;它直接影响模型的性能和泛化能力。通过选择最重要的特征#…什么是数据特征选定? 数据特征选定Feature Selection是指从原始数据中选择最相关、最有用的特征用于构建机器学习模型。特征选定是机器学习流程中非常重要的一步它直接影响模型的性能和泛化能力。通过选择最重要的特征可以减少模型的复杂性降低过拟合的风险并提高模型的训练和预测效率。特征选定的过程可以采用以下一些常见的方法相关性分析通过计算特征与目标变量之间的相关性选择与目标变量高度相关的特征。可以使用相关系数、互信息等指标进行相关性分析。特征重要性评估对于一些机器学习模型如决策树、随机森林、梯度提升树等可以通过模型训练过程中特征的重要性评估来选择重要的特征。方差选择选择方差大于某个阈值的特征过滤掉方差较小的特征认为方差较小的特征对目标变量的影响较小。正则化方法使用正则化方法如L1正则化、L2正则化进行特征选择通过加入正则化项来惩罚特征的权重从而使得部分特征的权重变为零实现特征选择。基于模型的特征选择使用某些机器学习模型如递归特征消除、稳定性选择等来评估特征的重要性并选择最重要的特征。基于特征工程的选择通过领域知识和数据理解来选择最相关的特征例如选择与问题背景相关的特征、选择对目标变量具有影响的特征等。特征选定需要结合具体的数据和任务来进行没有一种通用的方法适用于所有情况。选择合适的特征是一个迭代的过程通常需要尝试不同的方法和参数来找到最佳的特征子集。重要的是要保持合理的特征维度确保所选特征能够充分表达数据的信息并且对于给定的机器学习任务是有效的。在做数据挖掘和数据分析时数据是所有问题的基础并且会影响整个项目的进程。相较于使用一些复杂的算法灵活地处理数据经常会取到意想不到的效果。而处理数据不可避免地会使用到特征工程。那么特征工程是什么呢有这么一句话在业界广为流传数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限而已。因此特征过程的本质就是一项工程活动目的是最大限度地从原始数据中提取合适的特征以供算法和模型使用。特征处理是特征工程的核心部分scikit-learn 提供了较为完整的特征处理方法包括数据预处理、特征选择、降维等。通过 scikit-learn来自动选择用于建立机器学习模型的数据特征的方法。接下来将会介绍以下四个数据特征选择的方法 · 单变量特征选定。 · 递归特征消除。 · 主要成分分析。 · 特征的重要性。特征选定特征选定是一个流程能够选择有助于提高预测结果准确度的特征数据或者有助于发现我们感兴趣的输出结果的特征数据。如果数据中包含无关的特征属性会降低算法的准确度对预测新数据造成干扰尤其是线性相关算法如线性回归算法和逻辑回归算法。因此在开始建立模型之前执行特征选定有助于降低数据的拟合度较少的冗余数据会使算法得出结论的机会更大。提高算法精度较少的误导数据能够提高算法的准确度。减少训练时间越少的数据训练模型所需要的时间越少。可以在 scikit-learn 的特征选定文档中查看更多的信息http//scikitlearn.org/stable/modules/feature_selection.html。下面我们会继续使用PimaIndians的数据集来进行演示。代码如下 import pandas as pd from numpy import set_printoptions from sklearn.feature_selection import chi2, SelectKBest#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path) #将数据转成数组 array data.values #分割数据 X array[:, 0:8] Yarray[:,8]#选择K个最好的特征返回选择特征后的数据 test SelectKBest(score_funcchi2, k4) #fit()方法计算X中各个特征的相关性 fit test.fit(X, Y) #设置数据打印格式 set_printoptions(precision3)print(fit.scores_) #得分越高特征越重要 features fit.transform(X) #显示特征 print(features) 执行结束后我们得到了卡方检验对每一个数据特征的评分以及得分最高的四个数据特征。执行结果如下 [ 111.52 1411.887 17.605 53.108 2175.565 127.669 5.393 181.304] [[148. 0. 33.6 50. ][ 85. 0. 26.6 31. ][183. 0. 23.3 32. ]...[121. 112. 26.2 30. ][126. 0. 30.1 47. ][ 93. 0. 30.4 23. ]] 从这组数据中我们可以分析出得分最高的分别是血糖胰岛素含量身体质量指数BMI,年龄通过设置SelectKBest的score_func参数SelectKBest不仅可以执行卡方检验来选择数据特征还可以通过相关系数、互信息法等统计方法来选定数据特征递归特征消除递归特征消除RFE使用一个基模型来进行多轮训练每轮训练后消除若干权值系数的特征再基于新的特征集进行下一轮训练。通过每一个基模型的精度找到对最终的预测结果影响最大的数据特征。在 scikitlearn 文档中有更多的关于递归特征消除RFE的描述。下面的例子是以逻辑回归算法为基模型通过递归特征消除来选定对预测结果影响最大的三个数据特征。代码如下 import pandas as pd from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)#打印标签名称 print(data.columns)#将数据转成数组 array data.values #分割数据去掉最后一个标签 X array[:, 0:8]Y array[:, 8] #特征选择 model LogisticRegression() #递归特征消除法返回特征选择后的数据 rfe RFE(model) #拟合数据 fit rfe.fit(X, Y)print(特征个数, fit.n_features_) print(被选特征, fit.support_)print(特征排名, fit.ranking_) 运行结果特征个数 4 被选特征 [ True True False False False True True False] 特征排名 [1 1 3 4 5 1 1 2]主要成分分析主要成分分析PCA是使用线性代数来转换压缩数据通常被称作数据降维。常见的降维方法除了主要成分分析PCA还有线性判别分析LDA它本身也是一个分类模型。PCA 和 LDA 有很多的相似之处其本质是将原始的样本映射到维度更低的样本空间中但是PCA和LDA的映射目标不一样PCA是为了让映射后的样本具有最大的发散性而 LDA 是为了让映射后的样本有最好的分类性能。所以说PCA 是一种无监督的降维方法而LDA是一种有监督的降维方法。在聚类算法中通常会利用PCA对数据进行降维处理以利于对数据的简化分析和可视化。详细内容请参考 scikit-learn的API文档。代码如下 import pandas as pd from sklearn.decomposition import PCA from sklearn.feature_selection import RFE from sklearn.linear_model import LogisticRegression#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)#打印标签名称 print(data.columns)#将数据转成数组 array data.values #分割数据去掉最后一个标签 X array[:, 0:8]Y array[:, 8]pca PCA(n_components4)fit pca.fit(X)print(方差, fit.explained_variance_ratio_)print(fit.components_) 方差 [0.88854663 0.06159078 0.02579012 0.01308614] [[-2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-029.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03][-2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-029.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01][-2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-012.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01][-4.90459604e-02 1.19830016e-01 -2.62742788e-01 8.84369380e-01-6.55503615e-02 1.92801728e-01 2.69908637e-03 -3.01024330e-01]] 没感觉看不懂这个结果数据是怎么去进行分析的先知道有这么个东西后面再来补充特征重要性袋装决策树算法Bagged Decision Tress、随机森林算法和极端随机树算法都可以用来计算数据特征的重要性。这三个算法都是集成算法中的袋装算法在后面的集成算法章节会有详细的介绍。下面给出一个使用ExtraTreesClassifier类进行特征的重要性计算的例子。代码如下 import pandas as pdfrom sklearn.ensemble import ExtraTreesClassifier#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)#打印标签名称 print(data.columns[0:8])#将数据转成数组 array data.values #分割数据去掉最后一个标签 X array[:, 0:8]Y array[:, 8]model ExtraTreesClassifier()fit model.fit(X, Y)print(fit.feature_importances_)运行结果 Index([Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin,BMI, DiabetesPedigreeFunction, Age],dtypeobject) [0.10886677 0.22739778 0.10066603 0.07878746 0.07515111 0.146191220.11598885 0.14695078]执行后我们可以看见算法给出了每一个数据特征的得分从得分中我们可以分析得分高的也是跟前面特征血糖BMI,年龄等

查看全文

http://www.w-s-a.com/news/149266/