漯河 网站建设,h5网站建设报价多少钱,数据分析系统,机械类 网站源码目录
基础处理
字符串列表字典运算符正则表达式re库requestsBeautiful Soupjieba库分词模式基于TF-IDF算法的关键词提取 基于TextRank算法的关键词提取pandas 打开有多个表的.xlsx文件 基础处理 字符串 str_ str_.lower()lower()函数#xff1a;将字符中的大写字母转换成小…目录
基础处理
字符串列表字典运算符正则表达式re库requestsBeautiful Soupjieba库分词模式基于TF-IDF算法的关键词提取 基于TextRank算法的关键词提取pandas 打开有多个表的.xlsx文件 基础处理 字符串 str_ str_.lower()lower()函数将字符中的大写字母转换成小写字母。 str_ str_.upper()upper()函数将字符中的小写字母转换成大写字母。 str_ str_.replace(要被替换的字符,替换后的字符)替换字符串 str_ str_.strip() 删除字符串前后的空格或字符 str_ str_.count()统计某字符在字符串中的个数 str_ str_.split()以指定字符分割 str_.isalpha()用于判断字符中是否只包含英文和中文字符如果字符串至少有一个字符且所有字符都是字母则返回 True否则返回 False。 判断中文字符用编码格式匹配。判断字符中所有都是中文有一个英文都返回False。 num python炒粉为生活添砖javaif \u4e00 num \u9fff:print(True)
else:print(False) 提取字符中的非中文字符。 num python炒粉为生活添砖javajg
for i in num:if \u4e00 i \u9fff:#是中文就pass掉passelse:#不是中文就添加jg i
#返回pythonjava
print(jg) 列表 list_.remove().remove()函数可以删除列表中第一个指定的值。 list_ list_[::-1]用索引反转列表 list_.insert(要插入的位置的索引要插入的内容)向列表插入值 list_ list_.pop()默认移除列表最后一个元素。如果提供索引则移除指定索引的元素。 字典 向字典插入值 如dict_[ 键 ] 插入的值 提取字典的值dict_.get(要提取值的键) 字典的排序sorted()函数如下 my_dict {banana: 3, apple: 4, pear: 1, orange: 2}
sorted_dict_by_values dict(sorted(my_dict.items(), keylambda item: item[1]))
print(sorted_dict_by_values)
# 输出: {pear: 1, orange: 2, banana: 3, apple: 4} 倒叙排序reverseTrue 运算符 // 两数相除向下取整取两数相除后的整数部分。 如3 // 2 结果为1 5 // 2 结果为2 % 取模运算两数相除后的余数。 如7 % 2 结果为1 3 % 2 结果为1 pow(x,y,z)其中 x 是底数y 是指数。这个函数返回 x 的 y 次幂其中 x 是底数y 是指数而 z 是模数。这个函数返回 (x**y) % z 的结果即 x 的 y 次幂对 z 取模的结果。这种用法在计算大数的幂并对某个数取模时非常有用因为它可以避免中间结果过大而导致的溢出问题。 正则表达式re库 re.search()在字符中找到第一次搜索出的正则表达式模式若为找到则返回None。 re.findall(正则表达式 , 要匹配的字符串)在字符串中找到正则表达式所匹配的所有子串, 返回列表。 re.sub()正则表达式替换匹配的字符串 requests
发送请求
#传入url链接
url XXX#向网站发送请求
#请求成功时状态为200
resp requests.get(url)#转换编码格式
#常用的编码格式utf-8,gbk
resp.encoding utf-8#将返回转换成文本
resp resp.text Beautiful Soup 将文本转换成Beautiful Soup的对象 soup BeautifulSoup( 文本 ,html.parser) soup.find(标签 , 属性xxx)匹配第一个符合条件的值。##注意匹配class属性时要将class属性写成 class_ 因为class时python的关键词。 soup.find_all(标签 , 属性xxx)匹配所有符合条件的值。 提取标签的属性soup[ title ] jieba库
分词模式 1.精确模式 精确模式是将文本按照最大概率进行切分效果较好。使用方法jieba.cut(sentence)返回一个可迭代的分词结果。 2.全模式 全模式将文本中所有可能的词语都切分出来可能存在冗余。使用方法jieba.cut(sentence, cut_allTrue)返回一个可迭代的分词结果。 3.搜索引擎模式 搜索引擎模式根据词语的位置进行切分适合搜索引擎分词。使用方法jieba.cut_for_search(sentence)返回一个可迭代的分词结果。 jieba.luct()这个函数回返回一个分词后的列表。 基于TF-IDF算法的关键词提取
jieba库提供了基于TF-IDF算法的关键词提取方法jieba.analyse.extract_tags(sentence, topK10)用于从文本中提取关键词。topK参数指定返回的关键词数量默认为10。 基于TextRank算法的关键词提取
jieba库还提供了基于TextRank算法的关键词提取方法jieba.analyse.textrank(sentence, topK10withWeightFalse, allowPOS(ns, n, vn, v))sentence是要提取关键词的文本topK参数指定返回的关键词数量默认为10。withWeight表示是否返回关键词的权重值默认为FalseallowPOS表示仅包括指定词性的词默认为名词、动词等 pandas 打开有多个表的.xlsx文件 df pd.read_excel(path_to_excel_file.xlsx, sheet_nameNone)设置sheet_name参数为None打开指定的表df[表名]