当前位置: 首页 > news >正文

手机网站建设宽度手机优化助手怎么关闭

手机网站建设宽度,手机优化助手怎么关闭,wordpress 移除一级菜单,网站流量统计 设计数据科学家会直观呈现数据#xff0c;以更好地理解数据。 他们可以扫描原始数据、检查摘要度量值#xff08;如平均值#xff09;或绘制数据图表。 图表是一种可视化数据的强有力方式#xff0c;数据科学家经常使用图表快速了解适度复杂的模式。 直观地表示数据 绘制图表…数据科学家会直观呈现数据以更好地理解数据。 他们可以扫描原始数据、检查摘要度量值如平均值或绘制数据图表。 图表是一种可视化数据的强有力方式数据科学家经常使用图表快速了解适度复杂的模式。 直观地表示数据 绘制图表是为了提供对数据的快速定性评估这有助于理解结果、查找离群值、了解数字的分布方式等。 尽管有时候我们提前知道哪种图表最有用但其他时候我们以探索性的方式使用图表。 若要了解数据可视化效果的强大功能请考虑以下数据无人驾驶汽车的位置 (x,y)。 在数据的原始形式下很难看到任何真实的模式。 平均值告诉我们汽车的路径以 x 0.2 和 y 0.3 为中心数值范围似乎介于 -2 和 2 之间。 使用Matplotlib直观呈现数据 加载上一次的数据在这次尝试图形化 DataFrames提供了一种探索和分析表格数据的好方法但有时一张图片胜过一千行和一千列。Matplotlib库提供了绘制数据可视化的基础可以大大增强您分析数据的能力。 让我们从一个简单的条形图开始它显示了每个学生的成绩。 好吧这是有效的但图表可以使用一些改进使它更清楚我们正在看什么。 请注意您使用了Matplotlib中的pyplot类来绘制图表。这个类提供了许多方法来改进绘图的视觉元素。例如下面的代码 Specifies the color of the bar chart. 指定条形图的颜色。 Adds a title to the chart (so we know what it represents) 在图表中添加标题以便我们知道它代表什么 Adds labels to the X and Y axes (so we know which axis shows which data) 向X和Y轴添加标签以便我们知道哪个轴显示哪个数据 Adds a grid (to make it easier to determine the values for the bars) 添加网格以便于确定条形图的值 Rotates the X markers (so we can read them) 旋转X标记以便我们可以读取它们 我们可以通过figure()方法来控制图形的大小 一个图形可以包含多个子图每个子图都在自己的轴上。 例如下面的代码创建一个具有两个子图的图形一个是显示学生成绩的条形图另一个是比较及格与不及格成绩的饼图。 到目前为止您一直使用Matplotlib.pyplot对象的方法绘制图表。然而Matplotlib是Python中图形的基础许多包包括Pandas提供了抽象底层Matplotlib函数和简化绘图的方法。例如DataFrame提供了自己的方法来绘制数据如下面的示例所示该示例绘制了学习时数的条形图。 统计分析入门  现在你已经知道如何使用Python来操作和可视化数据你可以开始分析它了。 许多数据科学都植根于统计学因此我们将探索一些基本的统计技术。 仅仅是一些统计概念和技术 描述性统计和数据分布 在检查变量例如学生成绩样本时数据科学家对其分布特别感兴趣换句话说所有不同的成绩值如何在样本中分布。这种探索的起点通常是将数据可视化为直方图并查看变量的每个值出现的频率。 等级的直方图是对称的形状其中最常出现的等级往往在范围的中间大约50在尺度的极端处的等级较少。 集中量数 为了更好地理解分布我们可以研究所谓的集中趋势的度量这是一种描述代表数据“中间”的统计数据的奇特方式。这种分析的目的是试图找到一个“典型”值。定义数据中间的常见方法包括 The mean: A simple average based on adding together all of the values in the sample set and then dividing the total by the number of samples. 平均值将样本集中的所有值相加然后将总和除以样本数得到的简单平均值。 The median: The value in the middle of the range of all of the sample values. 中位数所有样本值范围中间的值。 The mode: The most commonly occurring value in the sample set*. 众数样品组*中最常出现的值。 让我们计算这些值沿着最小值和最大值以进行比较并将它们显示在直方图上。 箱形图以不同于直方图的格式显示坡率值的分布。图的方框部分显示数据的内部两个四分位数所在的位置。在这种情况下一半的等级在大约36到63之间。从方框中延伸出来的胡须显示了外部的两个四分位数因此本例中的另一半等级介于0和36之间或63和100之间。框中的线表示中值。 对于学习将直方图和箱线图结合起来是很有用的其中箱线图的方向被改变以使其与直方图对齐。(在某些方面将直方图视为分布的“正视图”将箱形图视为分布的“平面图”是有帮助的。 所有集中趋势的测量值都位于数据分布的中间这是对称的从中间开始值在两个方向上逐渐变低。 为了更详细地探索这种分布您需要了解统计学的基本原理是获取数据样本并使用概率函数来推断有关整个数据总体的信息。 这是什么意思呢样本指的是我们手头上的数据比如这22名学生的学习习惯和成绩等信息。人口是指我们可以收集的所有可能的数据例如历史上每个教育机构的每个学生的成绩和学习习惯。通常我们感兴趣的是人口但收集所有这些数据是不切实际的。相反我们需要尝试从我们拥有的少量数据样本中估计人口是什么样的。 如果我们有足够的样本我们可以计算一个称为概率密度函数的东西它估计了整个人口的等级分布。 Matplotlib中的pyplot类提供了一个有用的plot函数来显示这个密度。 真实世界的数据分布 现在让我们来看看学习时间数据的分布 学习时间数据的分布与年级的分布有显著差异。 请注意箱形图的须线仅从6. 0左右开始开始这表明第一季度的绝大多数数据都高于此值。最小值用o标记表明它在统计上是一个离群值一个显著位于分布其余部分范围之外的值。 异常值的出现有多种原因。也许一个学生打算记录“10”小时的学习时间但输入了“1”错过了“0”。又或者这学生平时学习的时候就是异常的懒无论哪种方式这是一个统计异常并不代表一个典型的学生。让我们看看没有它的分布是什么样的。 出于学习的目的我们只是将值1视为真正的离群值并将其排除在外。在真实的世界中当我们的样本量如此之小时在没有更多理由的情况下排除极端数据是不寻常的。这是因为我们的样本量越小我们的抽样越有可能代表整个人口。(Here人口意味着所有学生的成绩而不仅仅是我们的22。例如如果我们对另外1,000名学生的学习时间进行抽样我们可能会发现学习不多实际上是很常见的 当我们有更多的数据可用时我们的样本变得更可靠。这使得更容易将离群值视为低于或高于大多数数据所在的范围的值。例如以下代码使用Pandas分位数函数排除低于第0.01百分位数99%的数据位于该值之上的观测。 提示可以通过在高百分位值处定义阈值来消除分布上端的离群值。例如你可以使用分位数函数来查找0.99百分位数99%的数据位于该百分位数以下。 去除离群值后箱形图显示了四个四分位数内的所有数据。请注意该分布不像坡度数据那样对称。有些学生的学习时间非常长大约为16小时但大部分数据都在7到13小时之间。少数极高的值将平均值拉向量表的高端。 让我们看看这个分布的密度。 这种分布称为右偏分布。大量数据位于分布的左侧由于极端高端的值将均值拉到右侧因此向右创建了一个长尾。  方差度量 所以现在我们有一个很好的想法在年级和学习时间数据分布的中间。然而我们应该检查分布的另一个方面数据中有多少可变性 衡量数据可变性的典型统计量包括 Range: The difference between the maximum and minimum. Theres no built-in function for this, but its easy to calculate using the min and max functions. 范围最大值和最小值之间的差值。没有内置的函数但使用min和max函数很容易计算。 Variance: The average of the squared difference from the mean. You can use the built-in var function to find this. 方差与平均值的平方差的平均值。您可以使用内置的var函数来找到它。 Standard Deviation: The square root of the variance. You can use the built-in std function to find this. 标准差方差的平方根。你可以使用内置的std函数来找到它。 在这些统计数据中标准差通常是最有用的。它以与数据本身相同的尺度提供数据方差的度量因此等级分布的等级点和学习时间分布的小时数。标准差越高将分布中的值与分布均值进行比较时的方差就越大;换句话说数据更加分散。 当使用正态分布时标准差与正态分布的特定特征一起使用以提供更好的洞察力。运行以下单元格以查看标准差与正态分布中的数据之间的关系。 水平线显示在平均值的一个、两个和三个标准差正或负内的数据的百分比。 在任何正态分布中. 大约68.26%的值在平均值的一个标准差内。 大约95.45%的值落在平均值的两个标准差内。 大约99.73%的值落在平均值的三个标准差内。 所以因为我们知道平均成绩是49.18标准差是21.74成绩分布近似正态分布我们可以计算出68.26%的学生应该达到27.44和70.92之间的成绩。 我们用来了解学生数据变量分布的描述性统计是统计分析的基础。因为它们是探索数据的重要部分所以DataFrame对象有一个内置的describe方法它返回所有数值列的主要描述性统计信息。 比较数据  现在您已经了解了数据集中数据的统计分布可以检查数据以确定变量之间的任何明显关系。 首先让我们删除任何包含离群值的行以便我们拥有代表典型学生班级的样本。我们发现StudyHours列包含一些值极低的离群值因此我们将删除这些行。 比较数据和分类变量 数据包括两个数值变量学习时间和成绩和两个分类变量姓名和通过。让我们首先将数值StudyHours列与分类Pass列进行比较以查看学习的小时数与及格分数之间是否存在明显的关系。 为了进行这种比较让我们创建箱形图显示每个可能的Pass值true和false的StudyHours分布。 比较数值变量  现在让我们比较两个数值变量。我们将首先创建一个显示成绩和学习时间的条形图。 图表显示了每个学生的成绩和学习时间但由于数值在不同的尺度上因此不容易进行比较。一个等级是以等级点来衡量的范围从3到97学习时间以小时来衡量范围从1到16。 在处理不同尺度的数值数据时一种常见的技术是对数据进行归一化以便值保持其比例分布但在相同的尺度上进行测量。为了实现这一点我们将使用一种称为MinMax缩放的技术该技术将值按比例分布在0到1的范围内。你可以编写代码来应用这种转换但Scikit-Learn库提供了一个缩放器来为你做这件事。 将数据标准化后更容易看到成绩和学习时间之间的明显关系。这不是一个完全匹配的结果但看起来分数高的学生学习得更多。 因此学习时间和成绩之间似乎存在相关性。事实上我们可以使用统计相关性度量来量化这些列之间的关系。 相关性统计量是一个介于-1和1之间的值表示关系的强度。大于0的值表示正相关一个变量的高值往往与另一个变量的高值一致而小于0的值表示负相关一个变量的高值往往与另一个变量的低值一致。在这种情况下相关值接近于1显示出学习时间和成绩之间的强正相关。 可视化两个数字列之间明显相关性的另一种方法是使用散点图 再次看起来有一个明显的模式学习时间最长的学生也是成绩最高的学生。 我们可以通过在显示数据总体趋势的图中添加回归线或最佳拟合线来更清楚地看到这一点。为此我们将使用一种称为最小二乘回归的统计技术。 还记得你在学校学习如何解线性方程组的时候记得线性方程的斜率截距形式看起来像这样 在这个等式中y和x是坐标变量m是直线的斜率B是y轴截距直线通过Y轴的位置。 在学生数据的散点图中我们已经有了xStudyHours和yGrade的值所以我们只需要计算最接近这些点的直线的截距和斜率。然后我们可以形成一个线性方程为我们的每个xStudyHours值计算该线上的新y值。为了避免混淆我们将这个新的y值称为fx因为它是基于x的线性方程函数的输出。原始y等级值和fx值之间的差是我们的回归线和学生实际等级之间的误差。我们的目标是计算具有最低总体误差的直线的斜率和截距。 具体来说我们通过对每个点的误差进行平方并将所有平方误差相加来定义总误差。最佳拟合线是为我们提供平方误差之和的最低值的线因此称为最小二乘回归。 幸运的是您不需要自己编写回归计算代码。SciPy包包括一个stats类它提供了一个linregress方法来为您完成这项艰巨的工作。这将返回斜率方程所需的系数基于要比较的给定变量样本对的斜率m和截距B。 请注意这一次代码绘制了两个不同的东西像以前一样绘制了样本学习时间和成绩的散点图然后绘制了基于最小二乘回归系数的最佳拟合线。 图上方显示了回归线计算的斜率和截距系数。 该线基于为每个StudyHours值计算的fx值。运行以下单元格以查看包含以下值的表 每个学生的学习时间 每个学生取得的成绩 使用回归线系数计算的fx值 计算的fx值与实际坡率值之间的误差 有些错误特别是在极端情况下是相当大的高达17.5级以上。但是总的来说这条线非常接近实际成绩。 使用回归系数预测
http://www.w-s-a.com/news/955728/

相关文章:

  • 南充做网站略奥网络免费的正能量视频素材网站
  • 电子商务网站开发的基本原则汕头网站制作流程
  • 网站访问量突然增加合肥宣传片制作公司六维时空
  • 建设购物网站流程图怎么找网站
  • 阿里云部署多个网站制作小程序网站源码
  • 博罗东莞网站建设网站免费源代码
  • 网站规划与设计范文桂平网站建设
  • 网站备案号密码wordpress邮箱发送信息错误
  • 模板的网站都有哪些关键词搜索工具爱站网
  • 鲜花网站建设的利息分析企业网站建设方案书
  • 深圳网站平台石家庄做商城网站的公司
  • 微网站营销是什么私人订制网站有哪些
  • 浙江建设工程合同备案网站新手做网站教程
  • 网站优化关键词排名自己怎么做wordpress安装主题失败
  • 成都建设银行招聘网站网站的切换语言都是怎么做的
  • 网站网业设计wordpress 很差
  • 网站开发软件著作权归谁网站悬浮窗广告
  • 如何提升网站alexa排名货运网站源码
  • 如何看自己网站流量梧州网站设计理念
  • 商城网站建设特点有哪些信息门户
  • 弄一个网站临沂有哪几家做网站的
  • 广州个人网站制作公司网站建设公司价
  • 免费建设网站赚钱小程序开发文档pdf
  • ucenter 整合两个数据库网站网店推广技巧
  • 网站优化排名提升百度wap
  • 八里河风景区网站建设内容摘要网站开发基础学习
  • 上海做外贸网站的公司智慧团建网站登陆平台
  • 上海商务网站建设如何做的网站手机可以用吗
  • 产品推广营销方案seo推广员招聘
  • 做水利网站需要多少钱山东市网站建设