当前位置: 首页 > news >正文

hexo框架做网站学校网站建设要点

hexo框架做网站,学校网站建设要点,yy刷单做的那些网站,深圳百度seo公司华为OD机试中的中文分词模拟器题目#xff0c;通常要求考生对给定的不包含空格的字符串进行精确分词。这个字符串仅包含英文小写字母及英文标点符号#xff08;如逗号、分号、句号等#xff09;#xff0c;同时会提供一个词库作为分词依据。以下是对这类题目的详细解析 一…华为OD机试中的中文分词模拟器题目通常要求考生对给定的不包含空格的字符串进行精确分词。这个字符串仅包含英文小写字母及英文标点符号如逗号、分号、句号等同时会提供一个词库作为分词依据。以下是对这类题目的详细解析 一、题目描述 给定一个连续不包含空格的字符串Q该字符串仅包含英文小写字母及英文标点符号(逗号、分号、句号)同时给定词库对该字符串进行精确分词。 说明: 1、精确分词:字符串分词后不会出现重复。即ilovechina不同词库可分割为i,love,china“ilove,china”不能分割出现重的i,ilove,chinai出现重复。 2、标点符号不成词仅用于断句。 3、词库:根据外部知识库统计出来的常用词汇例: dictionary[i,ove,china,lovechina,ilove]4、分词原则:采用分词顺序优先且最长匹配原则 “ilovechina”假设分词结果 [i,ilove,lo,love,ch,china,lovechina]则输出 [ilove,china]错误输出:[i,lovechina]原因:“ilove”优先于lovechina 成词错误输出:[i,love,china]原因:“ilove”i遵循最长匹配原则 二、输入描述 第一行输入待分词语句ilovechina 字符串长度限制:0length256 第二行输入中文词库 i,love,china,ch,na,ve,lo,this,is,this,word词库长度限制:1length100000 三、输出描述 按顺序输出分词结果i,love,china” 用例1 输入 ilovechina i,love,china,ch,na,ve,lo,this,is,the,word输出 i,love,china说明 无 用例2 输入 iat i,love,china,ch,na,ve,lo,this,is,the,word,beauti,tiful,ful输出 i a,t四、分词原则 精确分词字符串分词后不会出现重叠的情况。分词顺序按照字符串从左到右的顺序进行分词。最长匹配在分词时优先匹配词库中最长的符合条件的词汇。标点符号标点符号不成词仅用于断句。 五、代码实现 import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Scanner; import java.util.Set;public class PreciseSegmentation {public static void main(String[] args) {// 使用Scanner读取输入Scanner scanner new Scanner(System.in);// 读取待分词的句子String Q scanner.nextLine();// 读取词库字符串String dictionaryStr scanner.nextLine();// 将词库转换为集合SetString dictionary new HashSet(Arrays.asList(dictionaryStr.split(,)));// 分词结果ListString result new ArrayList();// 当前处理的起始位置int start 0;// 开始分词处理while (start Q.length()) {// 初始化结束位置int end start 1;// 用于存储最长匹配的词String longestMatch null;// 寻找最长匹配的词while (end Q.length()) {// 获取子字符串String sub Q.substring(start, end);// 检查子字符串是否在词库中if (dictionary.contains(sub)) {// 更新最长匹配的词if (longestMatch null || sub.length() longestMatch.length()) {longestMatch sub;}}// 移动结束位置end;}// 如果找到匹配的词将其加入结果列表if (longestMatch ! null) {result.add(longestMatch);// 更新起始位置start longestMatch.length();} else {// 如果没有找到匹配的词将单个字符加入结果列表result.add(Q.substring(start, start 1));// 移动起始位置start;}}// 输出结果System.out.println(String.join(,, result));} } 六、解题思路 解题思路如下 输入读取 使用Scanner类从标准输入读取两行数据。第一行是待分词的句子Q第二行是词库字符串dictionaryStr。 词库转换 将词库字符串dictionaryStr按逗号分隔转换为String类型的列表。使用HashSet来存储词库中的词汇以便进行快速的查找操作。这是因为HashSet的查找时间复杂度为O(1)而列表的查找时间复杂度为O(n)。 分词处理 初始化一个空列表result来存储分词结果。初始化一个变量start来记录当前处理的起始位置初始值为0。使用一个外层while循环来遍历整个待分词的句子Q直到start变量的值等于句子的长度。 最长匹配查找 在外层循环内部初始化一个变量end来表示当前查找的结束位置初始值为start 1。初始化一个变量longestMatch来存储当前找到的最长匹配的词汇初始值为null。使用一个内层while循环来查找从start到end之间的所有可能的子字符串并检查它们是否在词库中。如果找到一个匹配的词汇并且它的长度大于当前longestMatch的长度或者longestMatch为null则更新longestMatch的值。每次内层循环结束时end的值都会增加1以继续查找下一个可能的子字符串。 结果处理 当内层循环结束后检查longestMatch是否为null。如果longestMatch不为null说明找到了一个匹配的词汇将其添加到result列表中并更新start的值为start longestMatch.length()以便继续处理下一个词汇。如果longestMatch为null说明在当前位置没有找到匹配的词汇此时将当前位置的单个字符作为一个词汇添加到result列表中并将start的值增加1。 输出结果 使用String.join(,, result)将result列表中的词汇用逗号连接起来形成一个字符串。输出该字符串作为分词结果。 这个解题思路遵循了最长匹配原则和分词顺序优先的原则确保了分词结果的准确性和合理性。同时通过使用HashSet来存储词库中的词汇提高了查找效率。 七、运行示例解析 运行示例解析如下 输入 待分词的句子ilovechina词库字符串i,love,china,ch,na,ve,lo,this,is,the,word 步骤解析 初始化 Q ilovechina词库字符串被分割并存储在HashSet中即dictionary {i, love, china, ch, na, ve, lo, this, is, the, word}result []空列表用于存储分词结果start 0当前处理的起始位置 分词处理 外层while循环开始条件是start Q.length()即start 9。 第一次外层循环 end start 1 1内层while循环开始条件是end Q.length()即1 9。 sub Q.substring(0, 1) idictionary.contains(i)返回true。更新longestMatch i。end递增为2。sub Q.substring(0, 2) ildictionary.contains(il)返回false。end递增为3。sub Q.substring(0, 3) ilodictionary.contains(ilo)返回false。end递增为4。sub Q.substring(0, 4) ilovdictionary.contains(ilov)返回false。end递增为5。sub Q.substring(0, 5) ilovedictionary.contains(ilove)返回false。end递增为6。sub Q.substring(0, 6) ilovecdictionary.contains(ilovec)返回false。end递增为7。sub Q.substring(0, 7) ilovechdictionary.contains(ilovech)返回false。end递增为8。sub Q.substring(0, 8) ilovechidictionary.contains(ilovechi)返回false。end递增为9。sub Q.substring(0, 9) ilovechinadictionary.contains(ilovechina)返回false虽然这不是词库中的词但因为我们是从头开始找所以会继续尝试更短的词。内层循环结束因为end已经超过Q.length()。 longestMatch i将其加入result即result [i]。更新start 1。 后续的外层循环类似地处理 start 1时找到longestMatch love加入result即result [i, love]。start 6时找到longestMatch china加入result即result [i, love, china]。此时start 11已经超过Q.length()外层循环结束。 输出结果 使用String.join(,, result)将result列表中的词汇用逗号连接起来得到i,love,china。输出该字符串。 最终输出 i,love,china注意在这个例子中尽管词库中有一些无关的词如ch, na, ve, lo等但它们并没有影响分词的结果因为分词算法总是尝试找到最长的匹配词。
http://www.w-s-a.com/news/59342/

相关文章:

  • 怎么做钓鱼网站吗百度免费域名注册网站
  • 如何给网站做外部优化今年国内重大新闻
  • 有没有做生物科技相关的网站弄一个app大概多少钱
  • 五金加工东莞网站建设怎么做网页跳转
  • 淄博网站优化价格wordpress没有小工具
  • 自己搭建服务器做视频网站wordpress发布文章 发布
  • php仿博客园网站阅读分享网站模板
  • 网站宣传的劣势域名注册长沙有限公司
  • 怎样联系自己建设网站企业怎样做好网站建设
  • 网站制作需求分析电商网站建设浩森宇特
  • 淄博网站建设招聘摄影网站建设的论文
  • 怎么把凡科网里做的网站保存成文件网站建设研究的意义
  • 服务器2003怎么做网站网站建设服务器的配置
  • 高校网站建设方案网站推广软件下载安装免费
  • 重庆没建网站的企业网站开发软件 连接SQL数据库
  • 百度申诉网站沉默是金
  • 如何自己建网站wordpress图片延时加载
  • 甘肃省住房和城乡建设厅注册中心网站千博企业网站管理系统2013
  • 西餐厅网站模板seo搜索引擎优化ppt
  • 什么做的网站吗wordpress注册可见插件
  • 献县做网站价格可以提升自己的网站
  • 如何修改网站title建设网站只能是公司
  • 网站推广效果怎么样建设工程公司组织架构图
  • 成都制作网站价格表网站安全证书过期怎么办
  • 高校图书馆网站的建设方案湖南常德市
  • 房地产怎么做网站推广wordpress插件汉化下载
  • 一般pr做视频过程那个网站有无锡网络公司平台
  • 安徽网站推广系统网站根目录权限设置
  • 班级网站建设需求智慧校园登录入口
  • asp.net网站发布到虚拟主机电商设计网站哪个好