当前位置: 首页 > news >正文

自己想开个网站怎么弄代运营公司的套路

自己想开个网站怎么弄,代运营公司的套路,茌平网站建设价格,qq群排名优化前言 pyspark中很多常用的功能#xff0c;过段时间没有使用就容易忘记#xff0c;需要去网上搜索#xff0c;这里总结一下#xff0c;省的以后还去去搜#xff0c;供自己以后参考。 withColumn def hot_func(info_str):if info_str:eturn 1return 0过段时间没有使用就容易忘记需要去网上搜索这里总结一下省的以后还去去搜供自己以后参考。 withColumn def hot_func(info_str):if info_str:eturn 1return 0 df df.withColumn(is_hot, F.udf(hot_func, StringType())(F.col(your_col_name)))自定义函数 from pyspark.sql.functions import udf # 定义并注册函数 udf(returnTypeStringType()) def f_parse_category(info):x json.loads(info)[category]return x if x is not None else spark.udf.register(f_parse_category, f_parse_category) # 在sql中使用注册的函数 sql select *, f_parse_category(info) category, from your_table where info is not null df spark.sql(sql).cache()groupby处理 按groupby处理保留goupby字段并对groupby的结果处理。正常情况下使用df.groupBy即可但需要处理多列并逻辑较为复杂时可以使用这种方式。 from pyspark.sql.functions import pandas_udf from pyspark.sql.functions import PandasUDFType from pyspark.sql.types import StructField, LongType, StringType, StructType from collections import Counterpattern re.compile(r\b\w(?: |.join([_size, _sum]) r)\b)group_cols [category] value_cols [sales_sum, stat_size]schema StructType( [StructField(col, LongType()) if len(re.findall(pattern, col))0 else StructField(col, StringType()) for col in group_colsvalue_cols],)pandas_udf(schema, functionTypePandasUDFType.GROUPED_MAP) def group_stat(df):# 获取l [df[item].iloc[0] for item in group_cols]df df[[col for col in df.columns if col not in group_cols]]sales_sum df[sales].sum().item()stat_size len(df)# d: {key: value}df[first_attr] df[attr].transform(lambda d: list(json.loads(d).keys())[0])attr_dict json.dumps({k:v for k, v in Counter(df[first_attr].value_counts().to_dict()).most_common()}, ensure_ascii0)counter sum(df[brand_name].apply(lambda x:Counter(json.loads(x))), Counter())ct len(counter)brand_list df[brand].to_list()values [sales_sum, stat_size, attr_dict, ct, infobox_brand_stat, brand_list]return pd.DataFrame([l values])# df 包含字段category sales attr brand_name brand df df.groupby(group_cols).apply(group_stat).cache() patition By orderBy from pyspark.sql.window import Window from pyspark.sql.functions import row_number, dense_rank # 根据department分区然后按salary排序编号 windowSpec Window.partitionBy(department).orderBy(salary) df.withColumn(row_number,row_number().over(windowSpec)) \.show(truncateFalse) # dense_rank: 相同值排序编号一致sql的方式 select name, category, sales, DENSE_RANK() OVER (PARTITION BY category ORDER BY b.sales DESC) as sales_rank from your_tbdataframe转正rdd处理行 该中情况一般在需要处理过个行的情况下使用如果是少数的行处理可以使用withColumn def hot_func(info_str):if info_str:eturn 1return 0 df df.withColumn(is_hot, F.udf(hot_func, StringType())(F.col(your_col_name)))转为rdd的处理方式为 def gen_norm(row):# 转为字段处理row_dict row.asDict(recursiveTrue)process_key row_dict[key]row_dict[process_key] process_keyreturn Row(**row_dict) # sampleRatio0.01 为推断列类型的抽样数据比例 df df.rdd.map(gen_norm).toDF(sampleRatio0.01).cache() df.show()
http://www.w-s-a.com/news/756568/

相关文章:

  • 创建企业网站国内网站用django做的
  • 云主机网站的空间在哪制作微网站的平台
  • 长沙做网站 青创互联wordpress4.4.1
  • 宜昌哪里有专业做网站的网站开发做什么的
  • 3小说网站开发东莞网站公司哪家好
  • 做网站安全联盟解ps网站设计概述
  • 聊城公司做网站wordpress连接域名
  • 宣传网站建设的意义台州行app官网下载
  • 温州 网站优化网站开发公司前置审批
  • 网站开发具体的工作内容网站下载app免费
  • seo网站建设时文章频率昆山网站建设ikelv
  • 中天建设中瑞物资网站优化建立生育支持政策体系
  • 网站页面的宽度大网站怎样选域名
  • icp网站备案流程wordpress post 405
  • 网站怎样上传到空间重庆有多少网站
  • 用模板建商城购物网站嘉定专业网站建设
  • 网站开发与应用 论文dede手机医院网站模板
  • 织梦 网站栏目管理 很慢自学网页设计难吗
  • 茶文化建设网站的意义平顶山网站建设服务公司
  • 建设网站详细流程南京宣传片制作公司
  • 合肥网站排名什么网站做电气自动化兼职
  • 如何用api做网站交通建设门户网站
  • 阳西住房和城乡规划建设局网站长沙网站seo技巧
  • 长沙知名网站推广手机画设计图软件
  • 顺德公司做网站自己有网站怎么优化
  • 南京网站开发南京乐识专业外贸流程知乎
  • 盐田区住房和建设局网站分类网站有哪些
  • 建一个团购网站WordPress文章字号设置
  • 做漂亮的网站东营网站seo
  • 网站开发摊销做设计哪个网站可以接单