建设网站买了域名还要什么资料,沈阳网站建设管理,佛山高明网站建设设计,上海网站营提示#xff1a;文章写完后#xff0c;目录可以自动生成#xff0c;如何生成可参考右边的帮助文档 文章目录 一、文件读取1.以pd.read_csv()为例#xff1a;2.数据查看 二、数据离散化、排序1.pd.cut()离散化#xff0c;以按范围加标签为例2. pd.qcut()实现离散化3.排序4.… 提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档 文章目录 一、文件读取1.以pd.read_csv()为例2.数据查看 二、数据离散化、排序1.pd.cut()离散化以按范围加标签为例2. pd.qcut()实现离散化3.排序4.Series.map()Series.apply() 三、数据处理1.发现缺失值2.剔除缺失值3.填充缺失值1)固定值填充2)前向填充后向填充 4.df.replace()5.重复值处理6.四分位法识别异常值 四、分组、索引及聚合1.分组函数2.索引设置与重置1重置索引2设置索引3索引排序 3.分组后常见操作1分组后聚合2分组后过滤filter3分组后过滤transform4分组后过滤apply 一、文件读取
方法
pd.read_csv()pd.read_excel()pd.read_json()pd.read_sql()pd.read_xml()
1.以pd.read_csv()为例 2.数据查看 df.describe()方法只针对数值列的描述性统计 统计出现次数
二、数据离散化、排序
1.pd.cut()离散化以按范围加标签为例 2. pd.qcut()实现离散化
cut是根据每个值进行离散化qcut是根据每个值出现的次数进行离散也就是基于分位数的离散化功能
3.排序
df.sort_index():按照默认索引按正序排序 data1.sort_values()按照实际值排序 Series.nlargest()获取前N个最大值与之相对于的为Series.nsmallest()
4.Series.map()Series.apply() Series.map() map()是Series中特有方法通过它实现对Series每个元素互换 Series.apply()和df.apply() apply()在对Series操作时会作用到每个值上在对DataFrame操作时会作用到所有行或列通过axis控制 df.applymap() applymap方法针对与DataFrame其效果类似于apply对series的效果 pandas中map()、apply()、applymap()的区别 1、map()方法适用于Series对象作用于Series里的一个个元素,可以通过字典或函数类对象来构建映射关系对Series对象进行转换 2、apply()方法适用于Series对象、DataFrame对象、Groupby对象Series.apply()作用于Series里的一个个元素df.apply()处理的是行或列数据本质上处理的是单个Series用函数类对象来构建映射关系对Series对象进行转换 3、applymap()方法用来处理DataFrame对象的单个元素值作用于df中的一个个元素,也是使用函数类对象映射转换
三、数据处理
1.发现缺失值 2.剔除缺失值
df.dropna():
howhow为all时只有当该列或行全部缺失时才会将该列删除为any时当该列或行有缺失时会将该列删除thresh设置非缺失值个数axis1当该列非缺失值个数大于等于设置的值时该列保留否则删除 3.填充缺失值
df.fillna() 填充思路
根据业务知识填充连续性变量缺失值的填充均值、众数分类型变量缺失值的填充众数预测值填充
1)固定值填充 2)前向填充后向填充
前向填充取前一个值填充后向填充取后一个值填充
4.df.replace()
有些异常值“-”不是缺失值但程序无法处理需要换成程序可失败的缺失值
5.重复值处理
df.drop_duplicates()
不传参时删除一模一样的数据并保留出现的第一条keepfirst、last、false数据保留原则subset用作字段判断依据
6.四分位法识别异常值 四、分组、索引及聚合
1.分组函数
groupby函数之间按组进行迭代每一组都是Series或DataFrame
2.索引设置与重置 1重置索引 2设置索引 3索引排序 3.分组后常见操作
1分组后聚合
groupby().aggregate()方法填入对应字典映射即可查看数据中位数、均值合计 2分组后过滤filter 3分组后过滤transform
groupby().transform()方法在数据转换之后的形状和原来是一样的但并不是单纯的将一列数据转换而是对分组之后的小组数据内部按照相同的逻辑和组内指标进行转换常见的例子是实现组内数据标准化
4分组后过滤apply
输入一个分组的DataFrame进行apply(),可以返回一个DataFrame或Series或一个标量。 group和apply的组合操作可以适应apply()返回的结果类型