当前位置: 首页 > news >正文

怎么做网站原型天津网络公司排名

怎么做网站原型,天津网络公司排名,网站内容和备案不一样,163企业邮箱申请目录 1.数据理解1.1分析数据集的基本结构#xff0c;查询并输出数据的前 10 行和 后 10 行1.2识别并输出所有变量 2.数据清洗2.1输出所有变量折线图2.2缺失值处理2.3异常值处理 3.数据分析3.1寻找相关性3.2划分数据集 4.数据整理4.1数据标准化 5.回归预测分析5.1线性回归… 目录 1.数据理解1.1分析数据集的基本结构查询并输出数据的前 10 行和 后 10 行1.2识别并输出所有变量 2.数据清洗2.1输出所有变量折线图2.2缺失值处理2.3异常值处理 3.数据分析3.1寻找相关性3.2划分数据集 4.数据整理4.1数据标准化 5.回归预测分析5.1线性回归岭回归套索回归 6.可视化6.1均分方差6.2平均绝对误差6.3 所有预测值与真实值对比 1.数据理解 from sklearn import model_selection as ms from sklearn.preprocessing import StandardScaler from sklearn import linear_model from sklearn.metrics import accuracy_score from sklearn.preprocessing import PolynomialFeatures as Poly from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score import pandas as pd import numpy as np import matplotlib.pyplot as pltdatapd.read_excel(台北房产数据集.xlsx)1.1分析数据集的基本结构查询并输出数据的前 10 行和 后 10 行 #前十行 data.head(10)#后十行 data.tail(10)1.2识别并输出所有变量 data.dtypes2.数据清洗 2.1输出所有变量折线图 便于观察观察所有特征的数据。 from pylab import mpl # 设置显示中文字体 mpl.rcParams[font.sans-serif] [SimHei] # 绘制直方图 data.hist(bins50, figsize(20,15))2.2缺失值处理 查看每一列的缺失值 #查看每一列的缺失值 data.isnull().sum()由于缺失值较少删除具有缺失值的行不会对数据有太大改变。 #删除具有空值的行 datadata.dropna() data.shape #(412, 8)2.3异常值处理 在上面的直方图中我们可以看到有部分数值是与之前的数值格格不入的 比如附近便利店的数量达到70多个、单位房价值异常高 我们把这些异常值的行取平均数填入 先找到数量异常的行再计算该列的平均值最后将该行个数替换为列的平均 #在上面的直方图中我们可以看到有部分数值是与之前的数值格格不入的 #比如附近便利店的数量达到70多个、单位房价值异常高 #我们把这些异常值的行取平均数填入#先找到便利店数量异常的行 data.loc[data[X4 附近便利店家数]50] print(异常行的数量,data.loc[data[X4 附近便利店家数]50].shape[0])#将该行便利店个数替换为列的平均值#先计算该列的平均值 shop_avg(int)(data[X4 附近便利店家数].mean()) print(附近便利店家数的平均值为,shop_avg) data[X4 附近便利店家数]data[X4 附近便利店家数].replace({70:shop_avg}) print(异常行的数量,data.loc[data[X4 附近便利店家数]50].shape[0])#先找到单位面积房价异常的行 data.loc[data[Y 单位面积房价]100] # print(异常行的数量,data.loc[data[Y 单位面积房价]100].shape[0])#将该行单位房价替换为列的平均值#先计算该列的平均值 shop_avg(int)(data[Y 单位面积房价].mean()) print(单位面积房价的平均值为,shop_avg) data[Y 单位面积房价]data[Y 单位面积房价].replace({117.5:shop_avg}) print(异常行的数量,data.loc[data[Y 单位面积房价]100].shape[0])3.数据分析 3.1寻找相关性 由于有些特征可能对房价起不到太大作用还有可能与目标标签是负相关的关系放到训练集里面既是浪费算力也会减少模型的准确性。 我们数据分析的第一步就是寻找相关性相关系数范围 [-1, 1] 越接近 1 表示有越强的正相关越接近 -1 表示有越强的负相关 #寻找相关性相关系数范围 [-1, 1] 越接近 1 表示有越强的正相关越接近 -1 表示有越强的负相关 corr_matrix data.corr() corr_matrix #具体看每个属性与单位面积房价的相关性 corr_matrix[Y 单位面积房价].sort_values(ascendingFalse)由上面相关性可知便利店家数与经纬度的相关性较高而交易年月虽是正相关但趋近于零而负相关的变量我们就不考虑了。 #定义散点图函数 def scatter_figure(th1,th2):data.plot(kindscatter, xth1, yth2)plt.xlabel(th1)plt.ylabel(th2)data.plot(kindscatter, xth1, yth2, alpha0.3)plt.xlabel(th1)plt.ylabel(th2)# 经度和单位房价的散点图与高密度点 scatter_figure(X6 经度,Y 单位面积房价)# 纬度和单位房价的散点图与高密度点 scatter_figure(X5 纬度,Y 单位面积房价)# 经度和纬度的散点图查看在哪个区域的房价高低与高密度点 scatter_figure(X6 经度,X5 纬度)3.2划分数据集 我们把数据集按照训练集测试集为73进行划分。 而特征值采用附近便利店数与经纬度这三列数据。 #划分数据集 ydata[[Y 单位面积房价]] xdata[[X4 附近便利店家数,X5 纬度,X6 经度]] x_train, x_test, y_train, y_test ms.train_test_split(x, y, random_state1, test_size0.3) x_train.head()4.数据整理 4.1数据标准化 #标准化 std StandardScaler() x_train_std std.fit_transform(x_train) x_test_std std.fit_transform(x_test) print(标准化之前\n,x_test) print(标准化之后\n,x_test_std)标准化之前 标准化之后 5.回归预测分析 5.1线性回归岭回归套索回归 回归预测这一部分我们采用了三种回归模型来训练与预测。 三种模型得分 #初始化训练器 line linear_model.LinearRegression() ridgelinear_model.Ridge() lassolinear_model.Lasso()nums[1,2,3] for num in nums:#用于生成多项式特征即将输入数据的特征进行组合生成新的特征poly Poly(num) x_train_poly poly.fit_transform(x_train_std)x_test_poly poly.transform(x_test_std)line.fit(x_train_poly,y_train)ridge.fit(x_train_poly,y_train)lasso.fit(x_train_poly,y_train)# print(预测值为,y_pred)# print(模型预测的均方误差,mean_squared_error(y_test,y_test_pred))print(第{}轮训练结果.format(num))print(线性回归模型得分,line.score(x_test_poly,y_test))print(岭回归模型得分,ridge.score(x_test_poly,y_test))print(套索回归模型得分,lasso.score(x_test_poly,y_test))print(------------------------------------------------------)#预测 y_test_line_predline.predict(x_test_poly) y_test_ridge_predridge.predict(x_test_poly) y_test_lasso_predlasso.predict(x_test_poly)从得分中我们可以看出来线性回归与岭回归模型得分几乎相等而套索回归模型稍逊色些。 部分预测值与实际值对比 x[] for a in range(60):x.append([a20]) # print(x) y_test2y_test[20:80] y_line_predy_test_line_pred[20:80] y_ridge_predy_test_ridge_pred[20:80] y_lasso_predy_test_lasso_pred[20:80] #设置图形 plt.figure(figsize(20,8),dpi80) #画图,zoder是控制画图流程的属性其值越大则表示画图的时间越晚 plt.plot(x,y_test2,colortomato,linestyle--,label准确值,markero) plt.plot(x,y_line_pred,colororange,label线性回归预测值) plt.plot(x,y_ridge_pred,colordeepskyblue,label岭回归回归预测值) plt.plot(x,y_lasso_pred,colorseagreen,label套索回归预测值)plt.xlabel(个数)#给x轴起名字 plt.ylabel(对比)#给y轴起名字 plt.grid() # 设置网格模式 plt.title(部分预测值与实际值对比图) plt.legend() #设置每个点上的数值 #展示 plt.show()6.可视化 # 计算均分方差 train_MSE_line [mean_squared_error(y_test, [np.mean(y_test)] * len(y_test)),mean_squared_error(y_test, y_test_line_pred)] train_MSE_ridge [mean_squared_error(y_test, [np.mean(y_test)] * len(y_test)),mean_squared_error(y_test, y_test_ridge_pred)] train_MSE_lasso [mean_squared_error(y_test, [np.mean(y_test)] * len(y_test)),mean_squared_error(y_test, y_test_lasso_pred)]#计算平均绝对误差 train_MAE_line [mean_absolute_error(y_test, [np.mean(y_test)] * len(y_test)),mean_absolute_error(y_test, y_test_line_pred)] train_MAE_ridge [mean_absolute_error(y_test, [np.mean(y_test)] * len(y_test)),mean_absolute_error(y_test, y_test_ridge_pred)] train_MAE_lasso [mean_absolute_error(y_test, [np.mean(y_test)] * len(y_test)),mean_absolute_error(y_test, y_test_lasso_pred)]# 绘图函数 def figure(title, *datalist):print(datalist)plt.figure(facecolorgray, figsize[16, 8])for v in datalist:plt.plot(v[0], -, labelv[1], linewidth2)plt.plot(v[0], o)plt.grid()plt.title(title, fontsize20)plt.legend(fontsize16)plt.show()6.1均分方差 # 绘制误差图 #figure( 均分方差 %.4f % (train_MSE_line[-1]), [train_MSE_line, MSE]) figure(line均分方差%.4f ridge均分方差%.4f lasso均分方差%.4f % (train_MSE_line[-1],train_MSE_ridge[-1],train_MSE_lasso[-1]),[train_MSE_line, 线性回归MSE],[train_MSE_ridge, 岭回归MSE],[train_MSE_lasso, 套索MSE])6.2平均绝对误差 figure(line平均绝对误差%.4f ridge平均绝对误差%.4f lasso平均绝对误差%.4f % (train_MAE_line[-1],train_MAE_ridge[-1],train_MAE_lasso[-1]),[train_MAE_line, 线性回归MAE],[train_MAE_ridge, 岭回归MAE],[train_MAE_lasso, 套索MAE])6.3 所有预测值与真实值对比 x[] for a in range(124):x.append([a]) #设置图形 plt.figure(figsize(20,8),dpi80) #画图,zoder是控制画图流程的属性其值越大则表示画图的时间越晚 plt.plot(x,y_test,colortomato,linestyle--,label准确值,markero) plt.plot(x,y_test_line_pred,colororange,label线性回归预测值) plt.plot(x,y_test_ridge_pred,colorcornflowerblue,label岭回归回归预测值) plt.plot(x,y_test_lasso_pred,colormediumseagreen,label套索回归预测值)plt.xlabel(个数)#给x轴起名字 plt.ylabel(对比)#给y轴起名字 plt.grid() # 设置网格模式 plt.title(预测值与实际值对比图) plt.legend() #设置每个点上的数值 #展示 plt.show()
http://www.w-s-a.com/news/289459/

相关文章:

  • 建设网站最强做网站哪一家公司好
  • 漫画风格网站人物介绍网页模板html
  • 贵阳市住房和城乡建设局政务网站大连 网站开发
  • 漳州市住房建设局网站网站一般多长
  • 国外做网站推广小程序制作二维码签到
  • 做网站需要域名网站建设诚信服务
  • 做物品租赁网站网站建设的完整流程
  • 响应式企业网站开发所用的平台西安知名网站推广
  • 高端响应式网站建设wordpress 全屏主题
  • 国内工程机械行业网站建设现状ui是什么意思
  • 成都网站开发哪家公司好出售家教网站模板
  • 订阅号做流量 那些电影如何链接网站温州市建设监理协会网站
  • 成都网站建设成功案例单招网商丘网站建设大全
  • 受欢迎的购物网站建设网推专员是做什么的
  • 商城网站前期准备湖南郴州建设局网站
  • 企业如何在自己的网站上做宣传外贸自建站可以自己做网站吗
  • 甘肃网站建设制作商网站空间哪家公司的好
  • 思途旅游网站建设系统用vscode做网站
  • 广州站改造最新消息半年工作总结ppt模板
  • logo模板下载网站推荐哪家网站开发培训好
  • 做外贸网站效果图页面关键词优化
  • 广平网站建设成都活动轨迹
  • 小型网站网站建设需要网络公司是什么行业
  • 滑动 手机网站 代码网页制作与设计讨论
  • 自己做网站处理图片用什么软件wordpress html5支持
  • 校园网站怎么建软文文案范文
  • 中国建设官方网站如何创建自己的软件
  • 来宾住房与城乡建设网站天津西青区怎么样
  • 西安网站建设培训班鄂州网页定制
  • 西部数码网站备份自己怎么做网站啊