当前位置：首页 > news >正文

西宁网站搭建专业公司郑州男科哪家比较正规医院

news 2025/12/20 4:49:43

西宁网站搭建专业公司,郑州男科哪家比较正规医院,做网站需要用到什么,wordpress模板设计目录 1.目的和要求 1.1 掌握回归分析的概念和使用场景 1.2 掌握机器学习回归分析进行数据预测的有效方法 1.3 掌握特征重要性分析、特征选择和模型优化的方法 2.波士顿房价预测与特征分析 2.1第一步#xff1a;导入所需的模块和包 2.2 第二步#xff1a;加载波士顿房价…目录 1.目的和要求 1.1 掌握回归分析的概念和使用场景 1.2 掌握机器学习回归分析进行数据预测的有效方法 1.3 掌握特征重要性分析、特征选择和模型优化的方法 2.波士顿房价预测与特征分析 2.1第一步导入所需的模块和包 2.2 第二步加载波士顿房价数据集 2.3 第三步数据预处理与分割 2.4 第四步建立并训练线性回归模型 2.5 第五步进行预测并评估模型 2.6 第六步可视化真实值与预测值的关系 2.7 第七步残差分析 2.5 第八步特征相关性分析 2.9 第九步特征重要性分析 3.鸢尾花数据集的逻辑回归分析 3.1 步骤 1导入所需的模块与包 3.2 步骤 2加载鸢尾花数据集 3.3 步骤 3数据探索与可视化 3.4 步骤 4数据集划分 3.5 步骤 5训练逻辑回归模型 3.6 步骤 6预测与评估模型 3.7 步骤 7可视化逻辑回归决策边界 3.8 结果分析 4.总体代码和结果 4.1波士顿 4.1.1 波士顿代码 4.1.2 波士顿代码结果 4.3.3 波士顿房价预测模型结果分析 4.2 鸢尾花 4.2.1 鸢尾花代码 4.2.2 鸢尾花代码运行结果 4.2.3 鸢尾花模型结果分析 1.目的和要求 1.1 掌握回归分析的概念和使用场景回归分析是一种统计方法用于理解变量之间的关系尤其是通过一个或多个自变量特征来预测目标变量因变量。在机器学习中回归分析主要用于连续值的预测。使用场景房价预测根据房屋的面积、位置、房龄等特征来预测房价。销售预测通过历史销售数据、市场状况等预测未来的销售额。股票市场预测根据市场指标和历史价格预测未来的股票价格。能耗预测根据天气和设备参数预测未来的能耗需求。回归分析的核心目标是寻找输入变量和目标输出变量之间的关系以最小化误差。 1.2 掌握机器学习回归分析进行数据预测的有效方法在机器学习中常用的回归方法包括线性回归、岭回归、LASSO回归和多项式回归等。你可以通过以下几个步骤来有效进行数据预测常用的回归模型线性回归假设自变量与因变量之间存在线性关系适用于简单且明确的线性问题。岭回归Ridge Regression在线性回归的基础上加上L2正则化用于解决多重共线性问题。LASSO回归Least Absolute Shrinkage and Selection Operator加上L1正则化可以使某些系数变为0具有特征选择功能。多项式回归适用于非线性数据可以通过增加特征的多项式项来提高预测效果。支持向量回归SVR用于非线性回归问题通过核函数将数据映射到高维空间进行线性回归。回归分析步骤数据预处理检查数据的完整性处理缺失值归一化或标准化数据。特征选择从众多自变量中选择与目标变量相关性较高的变量进行建模减少模型的复杂性。数据集划分将数据划分为训练集和测试集常见划分比例为80:20确保模型的泛化能力。模型选择根据数据特点选择合适的回归模型。模型评估使用均方误差MSE、R²值、平均绝对误差MAE等指标评估模型的效果。模型优化通过调整模型的参数如正则化系数、交叉验证和网格搜索等方法来优化模型。 1.3 掌握特征重要性分析、特征选择和模型优化的方法特征重要性分析在回归模型中特征的重要性可以通过以下方法评估线性回归系数线性回归模型中的系数值反映了每个特征对预测结果的影响大小。基于树的模型例如随机森林和梯度提升树这些模型能够直接输出特征的重要性。树模型通过拆分点的重要性来评估特征的贡献。 # 特征重要性分析代码示例 coefficients pd.Series(model.coef_, indexX.columns) coefficients coefficients.sort_values(ascendingFalse) plt.figure(figsize(10, 6)) coefficients.plot(kindbarh) plt.title(特征重要性分析, fontpropertiesfont) plt.xlabel(系数值, fontpropertiesfont) plt.ylabel(特征, fontpropertiesfont) plt.show()特征选择特征选择是通过减少不重要的特征来简化模型提升预测的准确性和泛化能力的方法。常用的特征选择方法有过滤法使用统计方法如皮尔逊相关系数、卡方检验等来选择与目标变量相关性较高的特征。包裹法通过模型进行评估选择能最大化模型表现的特征组合例如递归特征消除RFE。嵌入法模型训练时自动选择重要特征例如LASSO回归。模型优化模型优化是提升模型预测能力的关键以下是几种常用的优化方法正则化通过添加L1或L2正则化项防止模型过拟合。超参数调整通过网格搜索Grid Search或随机搜索Random Search寻找最佳的超参数组合。交叉验证将数据分成多折进行训练和验证避免模型在某个固定训练集上过拟合。 # 交叉验证代码示例 from sklearn.model_selection import cross_val_score cv_scores cross_val_score(model, X, y, cv10, scoringneg_mean_squared_error) cv_scores_mean -cv_scores.mean() print(f10折交叉验证的平均MSE{cv_scores_mean})总结回归分析用于分析特征与目标变量之间的关系常用于连续变量的预测任务。数据预测通过机器学习的回归模型进行模型选择、训练和评估提升预测效果。特征重要性与模型优化通过特征选择、正则化、超参数调整和交叉验证简化模型并提升预测能力。 2.波士顿房价预测与特征分析 2.1第一步导入所需的模块和包我们首先需要导入机器学习项目中常用的库这些库用于数据处理、建模和可视化。 # 导入必要的库 import pandas as pd # 用于数据处理 import numpy as np # 用于科学计算 import matplotlib.pyplot as plt # 用于绘制图形 import seaborn as sns # 用于绘制高级图形 from sklearn.model_selection import train_test_split # 用于分割训练集和测试集 from sklearn.linear_model import LinearRegression # 用于构建线性回归模型 from sklearn.metrics import mean_squared_error, r2_score # 用于模型评估 from matplotlib.font_manager import FontProperties # 用于设置中文字体解释 pandas 用于数据的加载、处理和分析。numpy 用于执行数学计算。matplotlib.pyplot 和 seaborn 用于数据的可视化。train_test_split 用于将数据集划分为训练集和测试集。LinearRegression 是线性回归模型的构建模块。mean_squared_error 和 r2_score 用于评估模型性能。 2.2 第二步加载波士顿房价数据集我们使用 TensorFlow 的 Keras 库从波士顿房价数据集中加载数据并将其分割为特征与目标变量。 # 加载本地数据集 file_path rC:\Users\Administrator\Desktop\ML\机器学习\实验任务二\data\boston_housing.csv df pd.read_csv(file_path)# 数据探索 print(df.head()) # 查看数据前5行 print(df.describe()) # 查看数据统计信息 print(df.columns) # 查看数据集的列名解释 pd.read_csv() 用于从 CSV 文件中加载数据。df.head() 用于查看数据的前5行了解数据的基本结构。df.describe() 提供了数值型数据的描述统计信息如平均值、标准差等。df.columns 打印数据集的列名确保列名正确。 2.3 第三步数据预处理与分割在进行建模之前我们需要处理数据将特征与目标变量分开并将数据集划分为训练集和测试集。 # 检查是否有缺失值 print(df.isnull().sum()) # 输出每个特征的缺失值数量# 分割特征和目标变量 X df.drop(MEDV, axis1) # MEDV是目标变量表示房价 y df[MEDV]# 将数据划分为训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)解释 df.isnull().sum() 检查数据集中是否存在缺失值确保数据质量。X df.drop(MEDV, axis1) 移除目标变量房价X 是特征矩阵。y df[MEDV] 将目标变量提取出来。train_test_split 用于将数据集划分为训练集和测试集其中 20% 的数据作为测试集。 2.4 第四步建立并训练线性回归模型我们使用线性回归模型对数据进行训练训练集用于模型的拟合。 # 创建线性回归模型 model LinearRegression()# 训练模型 model.fit(X_train, y_train)解释 LinearRegression() 创建线性回归模型的实例。model.fit(X_train, y_train) 通过训练数据对模型进行训练调整模型参数使得模型可以根据训练数据预测房价。 2.5 第五步进行预测并评估模型模型训练完成后使用测试集进行预测并使用均方误差MSE和 R²值来评估模型性能。 # 使用测试集进行预测 y_pred model.predict(X_test)# 评估模型性能 mse mean_squared_error(y_test, y_pred) r2 r2_score(y_test, y_pred)# 打印评估结果 print(f均方误差MSE{mse}) print(fR²值{r2})解释 model.predict(X_test) 使用训练好的模型对测试集进行预测。mean_squared_error() 计算均方误差衡量模型预测的误差大小误差越小模型越好。r2_score() 计算 R²值表示模型解释数据变化的比例值越接近 1 表示模型越好。 2.6 第六步可视化真实值与预测值的关系我们通过散点图展示真实房价与预测房价的关系理想情况下散点应接近对角线。 # 可视化真实房价与预测房价 plt.scatter(y_test, y_pred) plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], k--, lw2) # 绘制对角线 plt.xlabel(实际房价, fontpropertiesfont) plt.ylabel(预测房价, fontpropertiesfont) plt.title(实际房价 vs 预测房价, fontpropertiesfont) plt.show()解释 plt.scatter() 用于绘制散点图横坐标为实际房价纵坐标为预测房价。plt.plot() 绘制一条对角线表示理想情况下预测值应与实际值一致。如果散点接近对角线说明模型的预测效果较好。 2.7 第七步残差分析残差是指预测值与实际值之间的差距。我们通过柱状图分析残差的分布检查模型是否存在系统性偏差。 # 残差分析 residuals y_test - y_pred plt.hist(residuals, bins20) plt.xlabel(残差, fontpropertiesfont) plt.ylabel(频数, fontpropertiesfont) plt.title(残差分布, fontpropertiesfont) plt.show()解释 residuals y_test - y_pred 计算残差即实际值与预测值的差。plt.hist() 绘制残差的分布直方图观察其分布是否接近正态分布。 2.5 第八步特征相关性分析通过热力图分析特征之间的相关性以便了解哪些特征之间存在较强的线性关系。 # 特征相关性分析 corr_matrix df.corr() plt.figure(figsize(12, 10)) sns.heatmap(corr_matrix, annotTrue, cmapcoolwarm) plt.title(特征相关性热力图, fontpropertiesfont) plt.show()解释 df.corr() 计算数据集中每个特征之间的相关性系数。sns.heatmap() 绘制热力图颜色越深表示相关性越强帮助我们直观地理解特征之间的关系。 2.9 第九步特征重要性分析我们通过线性回归模型的系数来分析各个特征对房价预测的影响并通过条形图展示特征的重要性。 # 特征重要性分析 coefficients pd.Series(model.coef_, indexX.columns) coefficients coefficients.sort_values(ascendingFalse) plt.figure(figsize(10, 6)) coefficients.plot(kindbarh) plt.title(特征重要性分析, fontpropertiesfont) plt.xlabel(系数值, fontpropertiesfont) plt.ylabel(特征, fontpropertiesfont) plt.show()解释 model.coef_ 返回线性回归模型中每个特征的系数系数越大表示该特征对预测结果的影响越大。coefficients.plot(kindbarh) 绘制条形图显示特征的重要性排序。 3.鸢尾花数据集的逻辑回归分析 3.1 步骤 1导入所需的模块与包 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report, confusion_matrix import matplotlib.pyplot as plt import seaborn as sns import numpy as np import pandas as pd from matplotlib.font_manager import FontProperties解释 sklearn.datasets用于加载鸢尾花数据集。train_test_split用于将数据集划分为训练集和测试集。LogisticRegression逻辑回归模型用于多分类任务。classification_report 和 confusion_matrix用于模型的评估提供分类报告和混淆矩阵。matplotlib 和 seaborn用于可视化包括绘制特征关系图和混淆矩阵。numpy 和 pandas用于数据操作和处理。FontProperties用于设置图表中的中文字体。 3.2 步骤 2加载鸢尾花数据集 # 设置中文字体 font FontProperties(fnamerC:\Windows\Fonts\simhei.ttf) # 修改为系统中中文字体的路径# 加载鸢尾花数据集 iris load_iris() X iris.data y iris.target feature_names iris.feature_names target_names iris.target_names解释加载数据集load_iris() 用于加载鸢尾花数据集。X 是特征矩阵y 是标签。feature_names 和 target_names 分别是特征和标签的名称。中文字体通过 FontProperties 设置中文字体确保可视化图表中的中文能够正常显示。 3.3 步骤 3数据探索与可视化 # 数据探索 df pd.DataFrame(X, columnsfeature_names) df[Species] y print(df.head())# 特征关系可视化 sns.pairplot(df, hueSpecies) plt.show()解释数据探索将数据集转换为 DataFrame 格式方便数据查看与操作。通过 print(df.head()) 查看数据的前几行。特征关系可视化通过 sns.pairplot() 展示各特征之间的关系图按照不同的鸢尾花种类Species进行颜色区分有助于理解特征之间的分布和相关性。 3.4 步骤 4数据集划分 # 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42)解释划分训练集和测试集使用 train_test_split() 函数将数据集按 70% 训练集和 30% 测试集划分。通过设置 random_state42确保划分结果是可重复的。 3.5 步骤 5训练逻辑回归模型 # 训练逻辑回归模型 model LogisticRegression(max_iter200) model.fit(X_train, y_train)解释模型创建与训练创建逻辑回归模型对象 LogisticRegression() 并在训练集上进行训练。max_iter200 设置了最大迭代次数为 200以确保模型能够收敛。 3.6 步骤 6预测与评估模型 # 预测并评估模型 y_pred model.predict(X_test)# 混淆矩阵和分类报告 cm confusion_matrix(y_test, y_pred) sns.heatmap(cm, annotTrue, fmtd, cmapBlues, xticklabelstarget_names, yticklabelstarget_names) plt.xlabel(预测值, fontpropertiesfont) plt.ylabel(实际值, fontpropertiesfont) plt.title(混淆矩阵, fontpropertiesfont) plt.show()print(classification_report(y_test, y_pred, target_namestarget_names))解释预测使用训练好的模型在测试集上进行预测得到预测标签 y_pred。混淆矩阵confusion_matrix() 生成混淆矩阵展示模型预测结果和实际值的匹配情况。通过 sns.heatmap() 绘制热图直观展示混淆矩阵的结果。分类报告通过 classification_report() 输出分类报告包含精确率、召回率、F1 值等评估指标。 3.7 步骤 7可视化逻辑回归决策边界 # 可视化逻辑回归决策边界选取两个特征 X_two_features X[:, :2] # 选择两个特征 X_train, X_test, y_train, y_test train_test_split(X_two_features, y, test_size0.3, random_state42) model.fit(X_train, y_train)x_min, x_max X_two_features[:, 0].min() - 1, X_two_features[:, 0].max() 1 y_min, y_max X_two_features[:, 1].min() - 1, X_two_features[:, 1].max() 1 xx, yy np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))Z model.predict(np.c_[xx.ravel(), yy.ravel()]) Z Z.reshape(xx.shape)plt.contourf(xx, yy, Z, alpha0.3, cmapplt.cm.Paired) plt.scatter(X_test[:, 0], X_test[:, 1], cy_test, edgecolorsk, cmapplt.cm.Paired) plt.xlabel(花萼长度(cm), fontpropertiesfont) plt.ylabel(花萼宽度(cm), fontpropertiesfont) plt.title(逻辑回归决策边界, fontpropertiesfont) plt.show()解释选择两个特征为了便于可视化只选取前两个特征花萼长度和花萼宽度来绘制决策边界。绘制决策边界使用 np.meshgrid() 创建网格通过模型对网格上的每个点进行预测使用 contourf() 绘制决策边界。通过 scatter() 绘制测试集中样本点的分布情况进一步展示模型在二维平面上的分类效果。 3.8 结果分析模型评估混淆矩阵展示了模型在三类鸢尾花上的分类效果。大部分样本分类正确显示了模型的良好表现。分类报告提供了精确率、召回率、F1 值等关键指标总体而言模型在分类任务中的表现良好。决策边界可视化决策边界清晰地将不同类别的鸢尾花分隔开来展示了逻辑回归模型在二维特征空间中的分类效果。样本点大多数落在正确的分类区域中进一步验证了模型的分类能力。 4.总体代码和结果 4.1波士顿 4.1.1 波士顿代码 # 导入必要的库 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score import matplotlib.pyplot as plt import seaborn as sns from matplotlib.font_manager import FontProperties# 设置中文字体 font FontProperties(fnamerC:\Windows\Fonts\simhei.ttf) # 替换为你的系统中的中文字体路径# 加载本地数据 file_path rC:\Users\Administrator\Desktop\ML\机器学习\实验任务二\data\boston_housing.csv df pd.read_csv(file_path)# 数据探索 print(df.head()) print(df.describe())# 特征与标签分离 X df.drop(MEDV, axis1) # 特征 y df[MEDV] # 目标变量# 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42)# 创建线性回归模型并训练 model LinearRegression() model.fit(X_train, y_train)# 预测并评估模型 y_pred model.predict(X_test) mse mean_squared_error(y_test, y_pred) r2 r2_score(y_test, y_pred) print(f均方误差MSE{mse}) print(fR²值{r2})# 图 5可视化真实值与预测值的散点图 plt.figure(figsize(8, 6)) plt.scatter(y_test, y_pred) plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], r--, lw2) # 理想预测线 plt.xlabel(实际房价, fontpropertiesfont) plt.ylabel(预测房价, fontpropertiesfont) plt.title(实际房价 vs 预测房价, fontpropertiesfont) plt.show()# 图 7残差分布图 residuals y_test - y_pred plt.figure(figsize(8, 6)) sns.histplot(residuals, kdeTrue, bins30) plt.axvline(residuals.mean(), colorred, linestyle--, lw2) plt.xlabel(残差, fontpropertiesfont) plt.ylabel(频数, fontpropertiesfont) plt.title(残差分布, fontpropertiesfont) plt.show()# 图 10特征相关性热力图 corr_matrix df.corr() plt.figure(figsize(12, 10)) sns.heatmap(corr_matrix, annotTrue, cmapcoolwarm) plt.title(特征相关性热力图, fontpropertiesfont) plt.show()# 图 12特征重要性条形图 coefficients pd.Series(model.coef_, indexX.columns) coefficients coefficients.sort_values(ascendingFalse)plt.figure(figsize(10, 6)) coefficients.plot(kindbarh) plt.title(特征重要性排序, fontpropertiesfont) plt.xlabel(系数值, fontpropertiesfont) plt.ylabel(特征, fontpropertiesfont) plt.show()4.1.2 波士顿代码结果 CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO \ 0 0.00632 18.0 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 1 0.02731 0.0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 2 0.02729 0.0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 3 0.03237 0.0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 4 0.06905 0.0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 B LSTAT MEDV 0 396.90 4.98 24.0 1 396.90 9.14 21.6 2 392.83 4.03 34.7 3 394.63 2.94 33.4 4 396.90 5.33 36.2 CRIM ZN INDUS CHAS NOX RM \ count 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 mean 3.613524 11.363636 11.136779 0.069170 0.554695 6.284634 std 8.601545 23.322453 6.860353 0.253994 0.115878 0.702617 min 0.006320 0.000000 0.460000 0.000000 0.385000 3.561000 25% 0.082045 0.000000 5.190000 0.000000 0.449000 5.885500 50% 0.256510 0.000000 9.690000 0.000000 0.538000 6.208500 75% 3.677083 12.500000 18.100000 0.000000 0.624000 6.623500 max 88.976200 100.000000 27.740000 1.000000 0.871000 8.780000 AGE DIS RAD TAX PTRATIO B \ count 506.000000 506.000000 506.000000 506.000000 506.000000 506.000000 mean 68.574901 3.795043 9.549407 408.237154 18.455534 356.674032 std 28.148861 2.105710 8.707259 168.537116 2.164946 91.294864 min 2.900000 1.129600 1.000000 187.000000 12.600000 0.320000 25% 45.025000 2.100175 4.000000 279.000000 17.400000 375.377500 50% 77.500000 3.207450 5.000000 330.000000 19.050000 391.440000 75% 94.075000 5.188425 24.000000 666.000000 20.200000 396.225000 max 100.000000 12.126500 24.000000 711.000000 22.000000 396.900000 LSTAT MEDV count 506.000000 506.000000 mean 12.653063 22.532806 std 7.141062 9.197104 min 1.730000 5.000000 25% 6.950000 17.025000 50% 11.360000 21.200000 75% 16.955000 25.000000 max 37.970000 50.000000 均方误差MSE24.29111947497348 R²值0.66875949353563254.3.3 波士顿房价预测模型结果分析 1. 模型评估均方误差 (MSE)模型的MSE较小表示预测值与实际房价之间的差距较小模型在一定程度上准确预测了房价。R²值R²值表明模型能解释房价变化的主要部分虽然表现良好但仍存在部分未解释的变化。整体上模型对数据的拟合度较好。 2. 可视化分析真实房价 vs 预测房价散点图大多数数据点沿对角线分布表明预测值与实际房价相对接近模型具有一定的预测能力。但部分散点偏离较大反映出模型在某些情况下存在预测误差。残差分布图残差接近正态分布说明预测误差较均匀没有系统性偏差。残差分析显示模型适用于该数据集。 3. 特征相关性分析相关性热力图通过热力图可以看出不同特征之间的相关性。例如房间数RM 与房价正相关意味着房间数较多的房屋房价较高而低收入人口比例LSTAT 与房价负相关表示低收入比例越高房价越低。 4. 特征重要性分析 NOX一氧化氮浓度对房价的负面影响最大说明环境污染对房价有显著的负面影响。RM房间数对房价的正面影响较大房间数越多房价越高。LSTAT低收入人口比例和 DIS与就业中心的距离负面影响明显说明社会经济因素和地理位置对房价有重要作用。总体来看模型能够较好地捕捉数据中的关键特征并合理预测房价。 4.2 鸢尾花 4.2.1 鸢尾花代码 # 导入必要的库 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report, confusion_matrix import matplotlib.pyplot as plt import seaborn as sns import numpy as np import pandas as pd from matplotlib.font_manager import FontProperties# 设置中文字体 font FontProperties(fnamerC:\Windows\Fonts\simhei.ttf) # 修改为系统中中文字体的路径# 加载鸢尾花数据集 iris load_iris() X iris.data y iris.target feature_names iris.feature_names target_names iris.target_names# 数据探索 df pd.DataFrame(X, columnsfeature_names) df[Species] y print(df.head())# 特征关系可视化 sns.pairplot(df, hueSpecies) plt.show()# 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42)# 训练逻辑回归模型 model LogisticRegression(max_iter200) model.fit(X_train, y_train)# 预测并评估模型 y_pred model.predict(X_test)# 混淆矩阵和分类报告 cm confusion_matrix(y_test, y_pred) sns.heatmap(cm, annotTrue, fmtd, cmapBlues, xticklabelstarget_names, yticklabelstarget_names) plt.xlabel(预测值, fontpropertiesfont) plt.ylabel(实际值, fontpropertiesfont) plt.title(混淆矩阵, fontpropertiesfont) plt.show()print(classification_report(y_test, y_pred, target_namestarget_names))# 可视化逻辑回归决策边界选取两个特征 X_two_features X[:, :2] # 选择两个特征 X_train, X_test, y_train, y_test train_test_split(X_two_features, y, test_size0.3, random_state42) model.fit(X_train, y_train)x_min, x_max X_two_features[:, 0].min() - 1, X_two_features[:, 0].max() 1 y_min, y_max X_two_features[:, 1].min() - 1, X_two_features[:, 1].max() 1 xx, yy np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))Z model.predict(np.c_[xx.ravel(), yy.ravel()]) Z Z.reshape(xx.shape)plt.contourf(xx, yy, Z, alpha0.3, cmapplt.cm.Paired) plt.scatter(X_test[:, 0], X_test[:, 1], cy_test, edgecolorsk, cmapplt.cm.Paired) plt.xlabel(花萼长度(cm), fontpropertiesfont) plt.ylabel(花萼宽度(cm), fontpropertiesfont) plt.title(逻辑回归决策边界, fontpropertiesfont) plt.show()4.2.2 鸢尾花代码运行结果 sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) \ 0 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 2 4.7 3.2 1.3 0.2 3 4.6 3.1 1.5 0.2 4 5.0 3.6 1.4 0.2 Species 0 0 1 0 2 0 3 0 4 0 precision recall f1-score supportsetosa 1.00 1.00 1.00 19versicolor 1.00 1.00 1.00 13virginica 1.00 1.00 1.00 13accuracy 1.00 45macro avg 1.00 1.00 1.00 45 weighted avg 1.00 1.00 1.00 454.2.3 鸢尾花模型结果分析 1. 模型评估准确率通过分类报告可以看到模型的精确率、召回率和F1值。模型在三个类别上的表现较为均衡整体分类准确率较高表明逻辑回归在鸢尾花数据集上的表现良好。 2. 可视化分析混淆矩阵混淆矩阵展示了模型的分类效果大多数数据点被正确分类。少量误分类集中在某些相近类别之间如Versicolor和Virginica但总体误差较小。 3. 决策边界可视化决策边界通过选取两个特征花萼长度和花萼宽度绘制的决策边界图展示了模型的分类能力。不同类别的数据点大部分落在各自的决策区域说明逻辑回归能够较好地将不同类别的鸢尾花分开。 4. 特征关系分析特征关系图通过 pairplot 展示了各个特征的两两关系不同类别的鸢尾花在某些特征维度上区分明显如花瓣长度和宽度这帮助解释了模型能够有效分类的原因。总体来看逻辑回归模型在鸢尾花分类任务中表现优异准确率高决策边界清晰分类效果较好。

查看全文

http://www.w-s-a.com/news/241105/