茂名营销型网站建设,建设营销型网站的目的有哪些,网络广告名词解释,刚刚建设的网站如何放图片一、scikit-learn自带数据集Scikit-learn内置了很多可以用于机器学习的数据#xff0c;可以用两行代码就可以使用这些数据。自带的小的数据集为#xff1a;sklearn.datasets.load_nameload_bostonBoston房屋价格回归506*13fetch_california_housing加州住房回归20640…一、scikit-learn自带数据集Scikit-learn内置了很多可以用于机器学习的数据可以用两行代码就可以使用这些数据。自带的小的数据集为sklearn.datasets.load_nameload_bostonBoston房屋价格回归506*13fetch_california_housing加州住房回归20640*9load_diabetes糖尿病回归442*10load_digits手写字分类1797*64load_breast_cancer乳腺癌分类、聚类(357212)*30load_iris鸢尾花分类、聚类(50*3)*4load_wine葡萄酒分类(597148)*13load_linnerud体能训练多分类20怎么用数据集的信息关键字DESCR数据集的描述信息data内部数据即Xfeature_names数据字段名target数据标签即ytarget_names标签字段名(回归数据集无此项 使用方法以load_iris为例数据介绍一般用于做分类测试有150个数据集共分为3类每类50个样本。每个样本有4个特征。每条记录都有 4 项特征包含4个特征Sepal.Length花萼长度、Sepal.Width花萼宽度、Petal.Length花瓣长度、Petal.Width花瓣宽度特征值都为正浮点数单位为厘米。可以通过这4个特征预测鸢尾花卉属于iris-setosa山鸢尾, iris-versicolour杂色鸢尾, iris-virginica维吉尼亚鸢尾中的哪一品种。第一步导入数据from sklearn.datasets import load_iris
iris load_iris()第二步定义X和yX, y iris.data, iris.target此外可以看下数据的维度X.shape,y.shape输出为((150, 4), (150,))查看特征名iris.feature_names输出为
[sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)]查看标签名iris.target_names输出为array([setosa, versicolor, virginica], dtypeU10)第三步划分训练集和测试集:from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.25)接下来就可以用机器学习算法进行训练和测试了。小技巧将数据转换为Dataframe格式两种方法都可以import pandas as pd
df_X pd.DataFrame(iris.data, columnsiris.feature_names)
#这个是X
df_y pd.DataFrame(iris.target, columns[target])
#这个是y
dfpd.concat([df_X,df2],axis1)#横向合并
df.head()或者import numpy as np
import pandas as pd
col_names iris[feature_names] [target]
df pd.DataFrame(data np.c_[iris[data], iris[target]], columnscol_names)
df.head()输出结果一致二、可在线下载的数据集需要下载下载的数据集为sklearn.datasets.fetch_namefetch_20newsgroups用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器fetch_20newsgroups_vectorized这是上面这个文本数据的向量化后的数据返回一个已提取特征的文本序列即不需要使用特征提取器fetch_california_housing加利福尼亚的房价数据总计20640个样本每个样本8个属性表示以及房价作为target所有属性值均为number详情可调用fetch_california_housing()[DESCR]了解每个属性的具体含义fetch_covtype森林植被类型总计581012个样本每个样本由54个维度表示12个属性其中2个分别是onehot4维和onehot40维以及target表示植被类型1-7所有属性值均为number详情可调用fetch_covtype()[DESCR]了解每个属性的具体含义fetch_kddcup99KDD竞赛在1999年举行时采用的数据集KDD99数据集仍然是网络入侵检测领域的事实Benckmark为基于计算智能的网络入侵检测研究奠定基础包含41项特征fetch_lfw_pairs该任务称为人脸验证给定一对两张图片二分类器必须预测这两个图片是否来自同一个人。fetch_lfw_people打好标签的人脸数据集fetch_mldata从 mldata.org 中下载数据集fetch_olivetti_facesOlivetti 脸部图片数据集fetch_rcv1路透社新闻语聊数据集fetch_species_distributions物种分布数据集使用方法与自带数据集一致只是多了下载过程示例fetch_20newsgroupsfrom sklearn.datasets import fetch_20newsgroups
news fetch_20newsgroups(subsetall) #本次使用的数据需要到互联网上下载
from sklearn.model_selection import train_test_split
#对数据训练集和测试件进行划分
X_train, X_test, y_train, y_test train_test_split(news.data, news.target, test_size0.25, random_state33)三、生成数据集可以用来分类任务可以用来回归任务可以用来聚类任务用于流形学习的用于因子分解任务的用于分类任务和聚类任务的这些函数产生样本特征向量矩阵以及对应的类别标签集合make_blobs多类单标签数据集为每个类分配一个或多个正态分布的点集make_classification多类单标签数据集为每个类分配一个或多个正态分布的点集提供了为数据添加噪声的方式包括维度相关性无效特征以及冗余特征等make_gaussian-quantiles将一个单高斯分布的点集划分为两个数量均等的点集作为两类make_hastie-10-2产生一个相似的二元分类数据集有10个维度make_circle和make_moons产生二维二元分类数据集来测试某些算法的性能可以为数据集添加噪声可以为二元分类器产生一些球形判决界面的数据举例import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
X, y make_moons(n_samples100, noise0.15, random_state42)
plt.title(make_moons function example)
plt.scatter(X[:,0],X[:,1],markero,cy)
plt.show()四、网页下载数据集深度学习数据集MS-COCOCOCO是一个可用于object detection, segmentation and caption的大型数据集。http://cocodataset.org/#homeImageNet图像总数约1,500,000; 每个都有多个边界框和相应的类标签。大小约150GBhttp://www.image-net.orgYelp Reviews它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。大小2.66 GB JSON2.9 GB SQL and 7.5 GB Photos全部已压缩数量5,200,000条评论174,000条商业类型20万张图片和11个大型城市https://www.yelp.com/dataset其它数据集kagglehttps://www.kaggle.com天池https://tianchi.aliyun.com/dataset搜狗实验室http://www.sogou.com/labs/resource/list_pingce.phpDC竞赛https://www.pkbigdata.com/common/cmptIndex.htmlDF竞赛https://www.datafountain.cn/datasetsGoogle数据集[需要科学上网]https://toolbox.google.com/datasetsearch科赛网https://www.kesci.com/home/dataset微软数据集https://msropendata.com/UCI机器学习数据库大名鼎鼎的数据集网站现在包含了557个数据集其中绝大多数可以直接下载并且很多的论文中benchmark也来源于此。https://archive.ics.uci.edu/ml/datasets.php多类别分类数据集里面包含了很多了多分类的数据集有时序的和非时序的。http://www.uco.es/kdis/mllresources/参考资料https://mp.weixin.qq.com/s/VR6HDh89wNAUsZWGkoCKowhttps://scikit-learn.org/stable/datasets/index.htmlhttps://blog.csdn.net/fendouaini/article/details/79871922本文主要参考以上资料整理如果对您有帮助希望您点赞收藏评论您的支持是我更新的动力~