当前位置: 首页 > news >正文

在哪找做调查赚钱的网站好怎么管理好自己的网站

在哪找做调查赚钱的网站好,怎么管理好自己的网站,智能小程序开发者工具,线上销售有哪些渠道来自#x1f96c;#x1f436;程序员 Truraly | 田园 的博客#xff0c;最新文章首发于#xff1a;田园幻想乡 | 原文链接 | github #xff08;欢迎关注#xff09; 文章目录 3.3.1 数据的中心趋势平均数和加权平均数众数#xff0c;中位数和均值描述数据的离散程度 程序员 Truraly | 田园 的博客最新文章首发于田园幻想乡 | 原文链接 | github 欢迎关注 文章目录 3.3.1 数据的中心趋势平均数和加权平均数众数中位数和均值描述数据的离散程度 箱线图其他描述数据的方法 3.4 数据清洗3.4.1 缺失值3.4.2 数据清洗 3.5 数据集成和转换3.5.3 数据转换 3.6 数据规约和数据变换3.6.2 数据离散化 数据类型 名称型区别性 比如性别顺序型区别性顺序性 比如身高间隔型区别性顺序性可加减 比如温度比率型区别性顺序性可加减可乘除 比如百分比 为什么要预处理数据 数据不完整比如缺失值数据不一致比如单位不一致有噪声比如错误数据 3.3.1 数据的中心趋势 平均数和加权平均数 首先这里有一组数据 1,,53,22,39,73,9,14算数平均值 x ‾ 1 n ∑ i 1 n x i \overline{x}\frac{1}{n}\sum_{i1}^{n}x_{i} xn1​∑i1n​xi​ 加权平均值 x ‾ ∑ i 1 n w i x i ∑ i 1 n w i \overline{x}\frac{\sum_{i1}^{n}w_{i}x_{i}}{\sum_{i1}^{n}w_{i}} x∑i1n​wi​∑i1n​wi​xi​​ 其中 w i 是权重 x i 是数据 其中 w_{i} 是权重 x_{i} 是数据 其中wi​是权重xi​是数据 众数中位数和均值 参考资料偏态分布的左偏右偏如何理解| 知乎 众数出现次数最多的数 中位数将数据从小到大排列中间的数 均值平均数 上图情况为左偏态反之为右偏态中间为正态 描述数据的离散程度 箱线图 参考资料箱形图 | 百度 最小值0 分位数Q0最大值1 分位数中位数0.5 分位数Q2 (n1)/2 位四分位数0.25 分位数0.75 分位数Q1 Q3 (n1)/4 位 (3n3)/4 位 中间四分位数极差IQR Q3 - Q1 上限Q3 k * IQR 下限Q1 - k * IQR k 为一个常数经验值为 1.5区间外的数据为离群点可根据情况忽视或者删除 EG1 2 2 5 6 9 9 Q0 1 Q1 2 M 5 Q3 91 2 2 5 6 7 8 9 9 Q0 1 Q1 第2.5位 2 M 第5位 6 Q3 第7.5位 8*0.59*0.5 8.51 2 3 4 5 6 7 8 Q0 1 Q1 第2.25位 2*0.753*0.25 2.25 M 第4.5位 4.5 Q3 第6.75位 6*0.257*0.75 6.75 其他描述数据的方法 直方图横轴为数据纵轴为频数 分位图横轴为数据纵轴为累计频数 Q-Q 图横轴为理论分位数纵轴为样本分位数 散点图横轴为数据纵轴为数据 3.4 数据清洗 3.4.1 缺失值 缺失值的处理 整条数据删除人工填写填写统一值使用均值或者中位数填写减少数据的方差使用类似数据的均值或者中位数填写进一步减少影响 3.4.2 数据清洗 针对数据的噪声比如错误数据重复数据不一致数据 使用分箱方法将数据分为多个箱子然后将箱子中的数据替换为箱子的均值这样可以减少噪声的影响数据平滑 等宽分箱将数据分为相同宽度的箱子比如 0-1010-2020-30依次将数据放入对应的箱子箱子内数据不一致。宽度一般为 w m a x ( d a t a ) − m i n ( d a t a ) N w\frac{max(data)-min(data)}{N} wNmax(data)−min(data)​ 等频分箱将数据平等分为 n 份每份数据个数相同 EG 4 8 9 15 21 21 24 25 26 28 29 34 等宽分箱 w (34-4)/3 10 [4,14) | [14,24) | [24,34] 4 8 9 | 15 21 21 | 24 25 26 28 29 34等频分箱 w 12/3 4 箱 4 8 9 15 | 21 21 24 25 | 26 28 29 343.5 数据集成和转换 3.5.3 数据转换 数据规范化 最大最小规范化将数据转换到某一区间。比如[0,1]公式为 X ∗ X − X m i n X m a x − X m i n X^{*}\frac{X-X_{min}}{X_{max}-X_{min}} X∗Xmax​−Xmin​X−Xmin​​ Z-Score 规范化将数据转换为均值为 0标准差为 1 的数据。公式为 X ∗ X − X ‾ S X^{*}\frac{X-\overline{X}}{S} X∗SX−X​ 其中 X ‾ 为均值 \overline{X} 为均值 X为均值 S 为标准差 S 1 n ∑ i 1 n ( X i − X ‾ ) 2 S\sqrt{\frac{1}{n}\sum_{i1}^{n}(X_{i}-\overline{X})^{2}} Sn1​∑i1n​(Xi​−X)2 ​ 3.6 数据规约和数据变换 数据立方体聚合将数据按照维度进行聚合比如按照时间维度地理维度产品维度等 线性回归分析使用线性方程拟合数据然后使用方程代替数据 采样方法对于类似的一个数据簇可以使用其中一部分数据代替整个簇要注意在整体中每个簇代替的数据比例要相同 3.6.2 数据离散化 数据离散化将连续数据转换为离散数据比如将年龄分为 0-1010-2020-30 等 数据离散化的方法 基于信息增益的方法使用熵来衡量数据的离散程度熵越大数据越离散熵越小数据越集中。使用信息增益来衡量数据的离散程度信息增益越大数据越离散信息增益越小数据越集中。信息增益的计算公式为 I ( S , T ) E n t r o p y ( S ) − ∑ v ∈ T ∣ S v ∣ ∣ S ∣ E n t r o p y ( S v ) I(S,T) Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v}) I(S,T)Entropy(S)−∑v∈T​∣S∣∣Sv​∣​Entropy(Sv​) 其中 E n t r o p y ( S ) − ∑ i 1 n p i l o g 2 p i Entropy(S) -\sum_{i1}^{n}p_{i}log_{2}p_{i} Entropy(S)−∑i1n​pi​log2​pi​ S 为数据集 T 为数据集的一个属性 S v 为 T 的一个值 p i 为 S v 中第 i 个类别的概率 S 为数据集T 为数据集的一个属性S_{v} 为 T 的一个值p_{i} 为 S_{v} 中第 i 个类别的概率 S为数据集T为数据集的一个属性Sv​为T的一个值pi​为Sv​中第i个类别的概率 这个东西后面 ID3 决策树会用到 基于卡方检验的方法使用卡方检验来衡量数据的离散程度卡方检验越大数据越离散卡方检验越小数据越集中。卡方检验的计算公式为 χ 2 ∑ i 1 n ( A i − E i ) 2 E i \chi^{2} \sum_{i1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}} χ2∑i1n​Ei​(Ai​−Ei​)2​ 其中 A i 为实际值 E i 为期望值 A_{i} 为实际值E_{i} 为期望值 Ai​为实际值Ei​为期望值 基于自然分区的方法使用人工的方式将数据分为多个区间比如年龄分为 0-1010-2020-30 等 ———————————————— 版权声明本文为 田园幻想乡 的原创文章遵循 CC 4.0 BY-NA-SA 版权协议转载请附上原文出处链接及本声明。 原文链接http://truraly.fun/课程笔记/数据挖掘/【3】数据预处理.html
http://www.w-s-a.com/news/310077/

相关文章:

  • 免费注册店铺位置sem seo什么意思
  • 建筑网站搜图电子商务网站建设渠道
  • 学校网站内容四川手机网站开发
  • 网站制作公司违法商业网站运营成本
  • 显示佣金的网站是怎么做的广告设计主要做哪些
  • 做阿里网站的分录济南seo网站排名关键词优化
  • 北京建设银行纪念钞预定官方网站wordpress中文优化版
  • 宝安做棋牌网站建设找哪家效益快创意设计师个人网站
  • 做线上网站需要多少钱系统开发板价格
  • 建筑企业登录哪个网站wordpress feed地址
  • 网站建设流程百科提升seo搜索排名
  • 杭州网站建设 巴零做销售怎么和客户聊天
  • 北京自己怎样做网站wordpress oauth2插件
  • 上海800做网站wordpress建站的好处
  • 婚纱摄影网站设计模板如何做好网站内容
  • cdn网站加速招商计划书模板ppt
  • 我在某网站网站做代理开发小程序外包
  • 设计网站国外商城网站的建设费用
  • 网站开发工作需要什么专业学做网站游戏教程
  • 电子商务网站规划 分析 设计杭州网站优化平台
  • 汕头企业自助建站系统网站后台登陆验证码无法显示
  • 宁波网站制作服务做外贸推广自己网站
  • php 微信 网站开发青岛网站互联网公司
  • 网站软件免费下载大全网站建设开发价格高吗
  • asp网站制作软件上海做网站制作
  • 福田区住房和建设局网站好搜搜索引擎
  • 平面设计师看的网站济南机场建设
  • 俄文网站开发翻译平台页面设计模板
  • 建设在线购物网站淮南电商网站建设价格
  • 龙泉市旅游门户网站建设wordpress faq插件