当前位置：首页 > news >正文

网络营销师在哪里报名考试嘉兴百度快照优化排名

news 2025/12/21 9:27:09

网络营销师在哪里报名考试,嘉兴百度快照优化排名,公司企业邮箱大全,seo工作室合作文章目录一、基本了解1.1 插件分类1.2 插件管理命令二、分析插件2.1 es中的分析插件2.1.1 官方核心分析插件2.1.2 社区提供分析插件2.2 API扩展插件三、Head 插件3.1 安装3.2 web页面使用3.2.1 概览页3.2.1.1 unassigned问题解决3.2.2 索引页3.2.3 数据浏览页3.2.4 基本查询页3… 文章目录一、基本了解1.1 插件分类1.2 插件管理命令二、分析插件2.1 es中的分析插件2.1.1 官方核心分析插件2.1.2 社区提供分析插件2.2 API扩展插件三、Head 插件3.1 安装3.2 web页面使用3.2.1 概览页3.2.1.1 unassigned问题解决3.2.2 索引页3.2.3 数据浏览页3.2.4 基本查询页3.2.4.1 term指定查询3.2.4.2 range范围查询3.2.4.3 多条件查询3.2.5 复合查询页3.2.5.1 查询数据3.2.5.2 插入数据3.2.5.3 查询所有文档3.2.5.4 布尔查询3.2.5.5 创建索引库四、ik分词器4.1 Windows安装4.2 Linux安装4.3 自定义停用词词典一、基本了解 1.1 插件分类插件是用户以自定义方式增强es功能的一种方法分两类核心插件和社区贡献插件。插件太多只需要熟悉插件的安装流程即可根据项目需要再自行安装。核心插件核心插件属于es项目插件的版本号始终与es安装包的版本号相同这些插件由es团队维护。项目地址社区贡献插件社区贡献插件属于es项目外部的插件。这些插件由单个开发人员或私人公司提供并拥有各自的许可证及各自的版本控制系统。 1.2 插件管理命令 1.列出当前已安装的插件。这里显示的就是我们已经安装了一个ik分词器插件。 [es-qingjunlocalhost bin]$ elasticsearch-plugin list2.安装插件。 [es-qingjunlocalhost bin]$ elasticsearch-plugin install analysis-icu3.删除插件。 [es-qingjunlocalhost bin]$ elasticsearch-plugin remove analysis-icu我们可以使用相关命今获取插件命令的使用说明$es_home/bin/elasticsearch-plugin - h 1.插件位置指定当在根目录中运行 Elasticsearch 时如果使用 DEB 或RPM 安装了 Elasticsearch则以根目录运行 /usr /share / Elasticsearch/ bin /Elasticsearch-plugin以便 Elasticsearch 可以写入磁盘的相应文件否则需要以拥有所有 Elasticsearch 文件的用户身份运行 bin/ Elasticsearch 插件当用户自定义URL 或文件系统时用户可以通过指定 URL 直接从自定义位置下载插件: sudo bin / elasticsearch - plugin install [url] 二、分析插件基本了解分析器会接受一个字符串作为输入参数将这个字符串拆分成独立的词或语汇单元(也称之为 token)。在处理过程中会丢弃一些标点符号等字符处理后会输出一个语汇单元流(也称之为 token stream)。es为很多语言提供了专用的分析器特殊语言所需的分析器可以由用户根据需要以插件的形式提供。分析器组成的三个部分 character filter: 分词之前的预处理过滤HTML标签、特殊符号转换等。tokenizer用于分词。token filter用于标准化输出。 es内置的主要分析器 Standard分析器默认的分词器会将词汇单元转换成小写形式并且去除停用词和标点符号支持中文(采用的方法为单字切分)。停用词指语气助词等修饰性词语如 the、an、的、这等。Simple分析器首先通过非字母字符分割文本信息并去除数字类型的字符然后将词汇单元统一为小写形式。Whitespace分析器仅去除空格不会将字符转换成小写形式不支持中文:不对生成的词汇单元进行其他标准化处理。Stop分析器与Simple 分析器相比增加了去除停用词的处理。Keyword分析器该分析器不进行分词而是直接将输入作为一个单词输出。Pattern分析器该分析器通过正则表达式自定义分隔符默认是“]W”即把非字词的符号作为分隔符。Language分析器这是特定语言的分析器不支持中文支持如 English、French 和Spanish 等蛮豆颓逼磺糯敢奇害弋亭缆忸侠子补。注意事项任何全文检索的字符串域都会默认使用 Standard 分析器。 Standard分析器简介工作模式一般来说分析器会接受一个字符串作为输入。在工作时分析器会将这个字符串拆分成独立的词或语汇单元(称之为 token)当然也会丢弃一些标点符号等字符最终分析器输出一个语汇单元流。常规分析器使用算法Whitespace 分词算法。该算法按空白字符如空格、Tab、换行符等对语句进行简单的拆分将连续的非空格字符组成一个语汇单元。例如对下面的语句使用 Whitespace 分词算法分词时会得到如下结果:原文:Youre the lst runner home! 结果: Youre、the、st、runner、home!Standard 分析器使用算法 Unicode 文本分制算法。可以寻找单词之间的界限并输出所有界限之间的内容。Unicode 内包含的知识使其可以成功地对包含混合语言的文本进行分词。 2.1 es中的分析插件分析插件是一类插件可通过向es中添加新的分析器、标记化器、标记过滤器或字符过滤器等扩展es的分析功能。 2.1.1 官方核心分析插件插件名称作用ICU库可以扩展对 Unicode 的支持包括更好地分析亚洲语言、Unicode 规范化、支持 Unicode 的大小写折叠、支持排序和音译。Kuromoji 插件对日语进行分析Lucene Nori 插件对韩语进行分析Phonetic 插件可以使用 Soundex、Metaphone、Caverphone 和其他编码器/解码器将标记分析为其语音等价物。SmartCN插件可用于对中文或中英文混合文本进行分析。该插件利用概率知识对简化中文文本进行最优分词。首先文本被分割成句子然后每个句子再被分割成单词。Stempel插件对波兰语进行分析Ukrainian 插件为乌克兰语提供词干分析 2.1.2 社区提供分析插件插件名称作用IK Analysis Plugin将 Lucene IK Analyzer 集成到 Elasticsearch 中支持读者自定义字典Pinyin Analysis Plugin一款拼音分析插件该插件可对汉字和拼音进行相互转换。Vietnamese Analysis Plugin对越南语进行分析Network Addresses Analysis Plugin可以用于分析网络地址。Dandelion Analysis Plugin可译为蒲公英分析插件该插件提供了一个分析器(称为“蒲公英-A”)该分析器会从输入文本中提取的实体进行语义搜索。STConvert Analysis Plugin可对中文简体和繁体进行相互转换 2.2 API扩展插件 API扩展插件通过添加新的、与搜索有关的 API 或功能实现对es新功能的添加。es社区人员陆陆续续贡献了不少API扩展插件编辑器汇总如下插件名称作用Carrot2 Plugin用于结果聚类。可访问 GitHub 官网搜索 elasticsearch-carrot2查看配套代码。Elasticsearch Trigram Accelerated Regular Expression Filter该插件包括查询、过滤器、原生脚本、评分函数以及用户最终创建的任意其他内容通过该插件可以让搜索变得更好。可访问 GitHub 官网搜索 search-extra 获取插件。Elasticsearch Experimental HighlighterJava 编写用于文本高亮显示。可访问 GitHub 官网搜索 search-highlighter 获取插件。Entity Resolution Plugin该插件使用 Duke (Duke 是一个用 Java 编写的、快速灵活的、删除重复数据的引擎)进行重复检测。读者可访问 GitHub 官网搜索 elasticsearch-entity-resolution 获取插件Entity Resolution Plugin(zentity)用于实时解析es中存储的实体信息。可访问 GitHub 官网搜索zentity 获取插件。POL language Plugin该插件允许用户使用简单的管道查询语法对es进行查询。可访问 GitHub官网搜索 elasticsearch-pql 获取插件。Elasticsearch Taste Plugin该插件基于 Mahout Taste 的协同过滤算法实现。可访问 GitHub 官网搜索elasticsearch-taste 获取插件。WebSocket Change Feed Plugin该插件允许客户端创建到es节点的 WebSocket 连接并从数据库接收更改的提要。可访问 GitHub 官网搜索 es-change-feed-plugin 获取插件三、Head 插件 es-head插件在0.x-2.x版本时是集成在elasticsearch内的。由elasticsearch的bin/elasticsearch-plugin来管理插件从2.x版本跳到了5.x版本后head就作用了一个独立的服务来运行了。Elasticsearch 5之后则需要将elasticsearch-head服务单独运行并且支持Chrome的插件方式或者Docker容器运行方式。这个插件我们前面已经安装过这里就介绍下具体怎么玩它。插件简介 Head 插件全称为 elasticsearch-head是一个界面化的集群操作和管理工具可以对集群进行“傻瓜式”操作。既可以把 Head 插件集成到 Elasticsearch 中也可以把 Head 插件当成-个独立服务。主要功能显示es集群的拓扑结构能够执行索引和节点级别的操作。在搜索接口能够查询es集群中原始JSON 或表格格式的数据。能够快速访问并显示es集群的状态。 3.1 安装 1.安装node.js环境注意版本不要太高不然会跟linux本身的依赖库包版本冲突报错。 [rootlocalhost bck]# tar zxf node-v16.9.0-linux-x64.tar.gz [rootlocalhost bck]# mv node-v16.9.0-linux-x64 /usr/local/node[rootlocalhost bck]# tail -2 /etc/profile export node_home/usr/local/node export PATH$node_home/bin:$PATH[rootlocalhost bck]# source /etc/profile [rootlocalhost bck]# node -v v16.9.02.解压es-head安装包安装依赖。注意这里需要进入解压出来的目录里执行命令。下载地址 #安装cnpm [rootlocalhost elasticsearch-head-5.0.0]# npm install -g cnpm --registryhttps://registry.npm.taobao.org#安装依赖 [rootlocalhost elasticsearch-head-5.0.0]# cnpm install3.启动es-head [rootlocalhost elasticsearch-head-5.0.0]# npm run start4.访问页面。 5.修改es配置文件添加如下两行解决跨域问题。 [rootlocalhost elasticsearch-8.5.2]# vi config/elasticsearch.yml http.cors.enabled: true http.cors.allow-origin: *6.重启eses-head就可以连接es了。 3.2 web页面使用 Head 插件首页由 4 部分组成节点地址输入区域、信息刷新区域、导航条、概览中的集群信息汇总。 3.2.1 概览页第一部分节点地址输入区域。这里输入es集群任意一个节点IP就可以查看集群所有状态和数据。第二部分信息刷新区域。刷新区域可以查看es相关的信息和刷新插件的信息。 2. 信息区域可以看到es相关的信息包括集群节点信息、节点状态、集群状态集群信息、集群健康值等内容。单击对应的按钮即可查看对应的信息。第三部分导航条。看到概览、索引、数据浏览、基本查询和复合查询五个 Tab 导航默认为概览。第四部分概览中的集群信息汇总。可以看到es已经创建的索引这些索引信息包含了索引的名称、索引的大小和索引的数据量并且通过“信息”和“动作”两个按钮可以查看索引信息或者给索引创建别名。第五部分集群健康值。es中有专门的衡量索引健康状况的标志分为三个等级 green绿色。代表所有的主分片和副本分片都已分配集群是 100% 可用的。yellow黄色。所有的主分片已经分片了但至少还有一个副本是缺失的不会有数据丢失所以搜索结果依然是完整的。不过高可用性在某种程度上会被弱化。如果更多的分片消失就会丢数据了。可以把 yellow 想象成一个需要及时调查的警告。red红色。至少一个主分片以及它的全部副本都在缺失中。意味缺少数据搜索只能返回部分数据而分配到这个分片上的写入请求会返回一个异常。当只有一台主机时索引的健康状况是 yellow。因为一台主机集群没有其他的主机可以做副本所以说这就是一个不健康的状态因此集群也是十分有必要的。第六部分索引分片。Elasticsearch数据就存储在这些分片中。每一个方框就是elasticsearch的分片粗线方框是es的主分片主分片旁边细线方框是es的备份分片对应关系粗线方框0的备份分片是细线方框0以此类推。 3.2.1.1 unassigned问题解决副本分片作用主要目的是为了故障转移为备份数据。如果持有主分片的节点挂掉了一个副本分片就会晋升为主分片的角色。产生unassigned问题原因副本分片和主分片不能放在同一个节点上在这里集群里只有一个节点副本分片没有办法分配到其他的节点上所以出现所有副本分片都是未分配的情况。因为只有一个节点如果存在主分片节点挂掉了那么整个集群理应就挂掉了不存在副本分片升为主分片的情况。处理手段将每个索引的副本数重置为0即可解决这个未知节点问题。“number_of_replicas”:0 3.2.2 索引页可以查看当前es集群中的索引情况。 1.新建索引。 2.查看。 3.2.3 数据浏览页可以查看特定索引下的数据。 3.2.4 基本查询页匹配方式 must子句文档必须匹配 must 查询条件相当于“”。should子句文档应该匹配 should 子查询的一个或多个条件。must_not子句文档不能匹配该查询条件相当于“!”。term表示的是精确匹配。wildcard表示的是通配符匹配。prefix表示的是前缀匹配。range表示的是区间查询。注意事项当用多个查询条件进行搜索或查询时需要注意多个查询条件间的匹配方式。匹配方式主要有3种即must、should 和mus_not。“”“_”按用于增加查询条件或减少查询条件。在查询结果展示区域中用户可以设置数据的呈现形式如 table、JSON、CVS 表格等还可以勾选“显示查询语句”选项呈现通过表单内容拼接的搜索语句。 3.2.4.1 term指定查询 3.2.4.2 range范围查询 3.2.4.3 多条件查询 3.2.5 复合查询页基本了解 “复合查询”标签页可以自由拼接条件进行复杂的数据查询。“复合查询”标签页为用户提供了编写 RESTful接口风格的请求用户可以使用JSON 进行复杂的查询比如发送 PUT 请求新增及更新索引使用 delete 请求删除索引等。 RESTful API的基本格式 http://ip:port/索引/类型/文档ID 配置接口的四个选项在es中以POST 方法自动生成ID而 PUT 方法需要指明ID。请求方法与HTTP 的请求方法相同如 GET、PUT、POST、DELETE 等。还可以配置查询JSON 请求数据、请求对应的es节点和请求路径。支持配置JSON验证器对用户输入的JSON 请求数据进行JSON 格式校验。支持重复请求计时器配置重复请求的频率和时间。在结果转换器中支持使用 JavaScript 表达式变换结果。 3.2.5.1 查询数据查询。查询索引111中编号为1的文档。 3.2.5.2 插入数据新增数据有两种方式POST和PUT两者的区别就是POST自动生成文档编号也可以指定而PUT需要指定文档编号生成。 1.post方式指定id生成。 2.post方式不指定id生成会是随机生成一个id。 3.put方式指定id生成。 3.2.5.3 查询所有文档 3.2.5.4 布尔查询 must文档必须匹配这些条件才能被搜索出来。must_not文档必须不匹配这些条件才能被搜索出来。should如果满足这些语句中的任意语句则将增加搜索排名结果 score; 否则对查询结果无任何影响。其主要作用是修正每个文档的相关性得分。filter表示必须匹配但它是以不评分的过滤模式进行的。这些语句对评分没有贡献只是根据过滤标准排除或包含文档。注意事项如果没有 must 语句那么需要至少匹配其中的一条 should 语句。但如果存在至少一条 must 语句则对 should 语句的匹配没有要求。查看匹配”qingjun“且不匹配”baimu“的文档。 {query: {bool: {must: [{match: {name: qingjun}}],must_not: [{match: {name: baimu}}]}} }3.2.5.5 创建索引库四、ik分词器什么是IK分词器 ? 分词即把一段中文或者别的划分成一个个的关键字我们在搜索时候会把自己的信息进行分词会把数据库中或者索引库中的数据进行分词然后进行一个匹配操作默认的中文分词是将每个字看成一个词比如“我爱狂神会被分为我“爱”“狂神”这显然是不符合要求的所以我们需要安装中文分词器ik来解决这个问题。注意事项如果要使用中文建议使用ik分词器 !ik提供了两个分词算法ik_smat 和ik_max_word其中 ik_mart 为最少切分ik_max_word为最细粒度划分!一会我们测试! 常用配置文件 IKAnalyzer.cfg.xml用来配置自定义词库。main.dicik原生内置的中文词库总共有27万多条只要是这些单词都会被分在一起最常用的文件。quantifier.dic存放了一些单位相关的词。suffix.dic存放了一些后缀。surname.dic中国的姓氏。stopword.dic包含了英文的停用词停用词 stop word 比如 a 、the 、and、 at 、but 等会在分词的时候直接被干掉不会建立在倒排索引中。 4.1 Windows安装 1.下载ik分词器安装包注意下载版本需要与安装的es版本一致。github下载地址 2.将下载的压缩包解压到我们本地安装es根目录下的plugins目录。我这里新增加了一个ik目录是为了好区分该目录下的所有文件就是解压出来的。 3.重启es包括与之相关的所有服务kibana。重启再启动后能读到分词器日志就会显示。 4.可以通过elasticsearch-plugin命令查看加载进来的插件这里就显示了一个ik插件。 5.启动kibana测试。 get _analyze ##get请求_analyze为请求对象分词器。下面括号内容为请求要求。 {analyzer: ik_smart, ##选中ik分词器。text: 跟我一起学运维 ##分哪个词。 }ik_smart为最少切分是将一句话按段切分出来的分出来的内容没有重复的字。 ik_max_word最小粒度划分穷尽所有组合会出现重复的字。这里就出现了一个问题把“学运维”三个字拆分了我不需要将这三个字拆分应该是一个组合词该怎么办自己去添加词库。 6.进入ik分词器安装目录下的config目录手动创建一个文档以dic结尾里面添加我们想要的词。 7.将新建的文档名称添加到IKAnalyzer.cfg.xml文件中。 8.重启es和kibana。 9.再次查看kibana上的分词效果。此时“学运维”就是我们添加再词库里的词而不是切分开来用最小粒度查看就多了一个“学运维”词之前是没有这个词的。 4.2 Linux安装 1.同样需要准备ik分词器的安装包版本最好与es、kibana版本一致。我们还是解压到es的插件目录里方便管理。 2.进入config目录自定义分词。第一种在默认词库里添加后在重启es、kibana服务测试效果。第二种新建自定义分词库再重启es和kibana测试效果。 4.3 自定义停用词词典上面我们已经自定义了“学运维”一词在分词时可以把这三个字排一起当成一个词分出来。当然也可以自定义停用词词典比如了、的、啥、么我不像搜索这样的词出来。 1.比如我想在能把“吧”这个词搜索出来对我没有实际意义就可以把它单独停用。 2.在ik/config目录下自定义个文件里面添加不像分的词再添加到IKAnalyzer.cfg.xml文件里最后重启es和kibana。 3.重启后在测试就不会有“吧”这个词了。

查看全文

http://www.w-s-a.com/news/689386/