当前位置: 首页 > news >正文

网站建设公司有哪些比较知名的分析网站建设的论文

网站建设公司有哪些比较知名的,分析网站建设的论文,网站被spider重复抓取,天津猎头公司最近读了这本书#xff0c;在思路上很有启发#xff0c;对知识图谱有了初步的认识#xff0c;以下是原书后半部分的内容#xff0c;可以购买实体书获取更多内容。 知识图谱推理 结合已有规则#xff0c;推出新的事实#xff0c;例如持有股份就能控制一家公司#xff0…最近读了这本书在思路上很有启发对知识图谱有了初步的认识以下是原书后半部分的内容可以购买实体书获取更多内容。 知识图谱推理 结合已有规则推出新的事实例如持有股份就能控制一家公司孙宏斌持有融创的股份那么可以推导出孙宏斌控制融创 基于演绎的推理工具 逻辑编程RDFFox: java实现基于DataLog依靠逻辑编程进行推理根据自定义的和已有的规则从已知事实推新事实 例如根据孙宏斌控制融创并且只有自然人能控制公司可以推导出孙宏斌是自然人产生式推理Drools、Jena、GraphDB等 由事实集合、产生式集合和推理引擎构成 事实集合例如student name:zhangsan age:23表示有一个叫张三的人23岁 产生式集合例如IF(student name:) then add(person name)表示如果有一个学生名为x那么就添加一个名为x的人到person中推理引擎中包含推理规则将推理规则应用到事实集合和产生式集合中能产生新的知识例如规则为type x y(subClassOf y z)add(type x z),事实集合和产生式集合分别为type zhangsan student subClass student person那么可以推理出type zhangsan person当执行规则有很多条时可以随机选择其中一条、选择最近没有被用的一条、最复杂的一条进行之星知道没有新规则可以被执行基于归纳的推理工具 1.基于图结构的推理 从图中高频出现的一些结构可以推断出一些隐形的知识 例如a--妻子--b--孩子--c并且存在a--孩子--c那么就可以推断出这两个关系是等价的。使用以下两种算法能够发现一些概率很高的关系路径通过分析可以确定出这些关系路径的共同模式并将其总结为新知识 例如已知运动员h位于北京市t并且其他很多实体中都存在类似于下面路规则的路径就可以推出一条新的规则运动员h效力于》国安队位于》北京市t当对新运动员进行分析时如果仅知道运动员效力于申花队和申花队位于上海两个知识 那么就可以应用上面的规则推断出该运动员位于上海市PRA(path ranking algorithm)算法 可以用来预测给定头实体h和关系r预测尾实体t的概率分别是多少或者反过来给定t和r预测头实体h可以使用前向算法计算k跳之内到达每一个节点的概率然后再logistics平滑处理CoR-PRA算法 是一种改进从h和t出发分别计算特定步数内到达各个节点的概率。当发现h-》x且t-》x时就可以认为h和t之间存在关系 可以用h和t之间的覆盖度和精确度来衡量h和t的关系。SFE是进一步的算法考虑了二元路径剪枝假设h对应到关系r连接着很多不同的节点就忽略r以及两个节点是否有共同的属性等参考论文 Learning relations features with backword random wallksni laoacl 2015Efficient and expressive knowledge base cmpletion using subgraph feature extraction,matt gardner,emnlp 2015工具库 github.com/noon99jaki/pra 2.基于规则学习的推理 类似于离散数学的推导 rule:head–body,例如 ifFatherOf(X,Z)-hasWife(X,Y) and hasChild(Y,Z) and notDivocied(X) and notDivocied(y)评价标准 supportrule表示同时满足head(rule)和body(rule)的实例个数置信度support(rule)/body(rule)头覆盖度support(rule)/head(rule)pca置信度部分完全假设support(rule)/ (body(rule) and r(x,y^)),分母中过滤了从X类出发但是没有到达Y类节点的情况常用工具AMIE: 效率高能挖掘出大量规则,改进版AMIE3.基于表示学习的推理 transE最基础的方法 transH能够表示1:nn:n等关系可以将不同向量投影到同一个平面并使其投影相同 transR区分实体向量和关系向量每个关系都多了一个d * d的矩阵 transD在transR的基础上用两个向量代替上面提到的矩阵 DistMult不需要向量加法更简单 其他方法NTN、ConvE等 4.基于图的表示学习 随着信息在节点间的传播来捕捉节点间的依赖关系并进行推理例如节点分类、边分类等 知识库补全利用已存在的三元组和包含新实体的三元组对新实体进行表示学习 连接预测和实体发现获取缺失节点embedding预测两个节点之间是否存在一些边 工具库 networkx可以参考https://networkx.org/ dgl可以参考https://docs.dgl.ai/tutorials/blitz/4_link_predict.html#sphx-glr-tutorials-blitz-4-link-predict-py 语义搜索 结构化查询 互联网中大量数据大量数据以rdf的形式存在因此可以使用sparql语言进行查询类似于sql和数据库之间的关系 查询时可以查询是否存在某个节点或者按照一定条件查询或者描述一个节点的全部关系信息或者为节点增加信息 有删除和插入某些关系功能没有更新功能 语义搜索 可以借助索引来加速搜索但是要合理利用缓存并考虑索引的增量 1.关键词 可以直接用关键词来定位实体 也可以利用关键词所暗示的起点和终点来构造索引例如1999-2003年的电影 也可以利用包含结构化查询实体和关系类别的索引例如比战狼票房高的电影进行结构化查询时例如吴京的配偶是谁配偶一词对应的图谱的关系是“夫妻” 因此需要构造关键词-》图谱中的实体和边的映射关系 有了映射关系后能生成局部的子图将其中的实体或边取出就能完成排序了。排序分为两部分同一个关键词可能会生成多个子图例如吴京真实的妻子、吴京在电视剧中的妻子 需要对这些进行一次排序再对每一个子图中的内容进行排序例如吴京电视剧中有5个妻子但是最热门的是刘涛等。2.表示学习 将实体投影到连续的向量空间中一是方便计算两个不同实体之间的相似度二是向量的语义更丰富who play in Chicago and won an Oscar在传统语义搜索中有以下三步1.首先将搜索词与知识图谱中的关系做对齐who是所需检索实体1Chicago是实体2play in 是关系 然后用关键字检索的方式找出候选实体和边可能有很多相关的2.然后对这些边和实体进行消歧play in Chicago and won Oscarplay有多种解释但是在上下文中“出演”最合适 Chicago也有很多解释但这里“电影Chicago”更合适3.将消歧后的实体和边做组合即出演电影通过电影chicago和出演关系找到候选演员集合 再去看谁拿了Ocasr奖就能从对应的图谱中筛选出可能的演员。而在表示学习中可以直接利用向量省略消歧的过程并进行近似查询。3.基于es的搜索引擎 首先判断搜索类型是根据实体搜属性 还是根据属性搜实体 接下来识别知识库中是否包含所需实体并通过映射将搜索内容中的属性进行映射例如用户问多大啦几岁了都是是在问年龄 然后进行细化例如用户问大于三十岁的篮球运动员那么就去构造》30的条件并用es去查询 也就是说可以给予每类问题的模板填充解析时识别出的实体名和属性名以及属性条件最终进行es查询 知识问答 背景知识 事实问题 实体的属性西红柿原产地、实体的基本定义什么是西红柿、复杂图谱查询北京2022年gdp、王菲和章子怡的关系主观问题 “如何做蛋糕”、“如何治疗近视”等知识库 纯文本知识库、半结构化知识库excel等、图片视频分布式表示的知识库问答 例如询问姚明老婆的出生地首先将这个问句转化为向量a然后看与姚明相关的实体向量中哪个与a最相似。基于符号的传统问答 先确定逻辑表达式例如问姚明老婆的出生地需要先转化为sparql语言然后再去知识库中查询需要将老婆映射到配偶这一关系中。早期问答系统 主要基于模式匹配或语法解析前者类似识别关键词并填充后者利用语法解析发现实体并按照一定规则转化为数据库查询基于信息检索的问答 例如问“中国哪个城市人口最多”需要经历 1.问题处理识别出过滤条件和答案所需类型这里的条件是人口最多答案需要是一个城市 2.段落检索与排序基于关键词召回文档切分段落 3.从段落中选出合适的答案基于kqba的问答 步骤有四个 1.问题分析利用词典、词性分析、分词、实体识别、语法树分析、句法依存分析等提取问题信息基于机器学习或规则提取来判断问句的类型和所需答案的类型2.连接到知识库中包括关系属性、描述属性、实体分类例如将“姚明老婆是”映射到“配偶”这一图谱中存在的关系上3.消歧例如建国路可能指道路本身也可能指建国路这个社区可以先生成关于社区和道路的两种查询然后通过统计方法和机器学习进行筛选4.构建查询基于前面的问题解析结果转化为sql或sparql查询。社区问答 FAQ-QA 也称CommunityQA类似于百度知道核心是计算语义相似性 面临的挑战有两点一是词汇歧二是语言表达的多样性相同的语义有很多表达方式 quora QA数据集和测试主要就是评价问题的相似度 KQBA技术 挑战 知识库不完整、泛化语义理解还活着吗需要对应“死亡日期”这一属性、 多样化映射机制例如外孙应该映射成女儿的儿子这个条件以及其他过滤、排序条件例如产量最多的年份、1990年之前等 计算语义相似度语言模型、句子主题分析模型、句子结构相似度分析模型基于模板的方法 可以参考cui的论文【1】能够自动化生成问题模板 例如有人问“请问江苏的人口是多少”则可以把江苏换为“{省份}”把人口换为“{地区属性}” 即得到模板“{省份}{地区属性}” 并去知识图谱中找相关属性这样就能识别“广东的面积有多大”处理简单的属性问题、比较问题或组合问题把组合问题拆成简单问题 例如“广东和江苏哪个面积大”可以拆分为“{省份1}{省份2}{地区属性1}{比较符号}” 这样就能识别“甘肃和河南哪个人口多”了 同样例如“广东省会的经济总量是多少”则可以拆分成“广东省会是哪里”和“省会经济总量是多少” 其中第一个问题可以套用模板“{省份}{地区属性}”得到广东省会广州然后可以套用其他末班。可以把问题中的实体提取出来并映射到不同的分类中 然后再去找与每个分类中的实体相关模板的相似度例如槽位数量槽位中词汇的类型以及非槽位词的文本相似度 选择合适的模板并判断所需查询的具体属性。 例如问题“东风有限公司的法人是谁”可以匹配模板“{公司}{公司属性}” 但是东风公司对应东风汽车厂和东风导弹厂因此需要分别查询他们的属性参考文献 【1】KBQALearning Question Answering over QA Corpora and knowledge Bases,CUI W,VLDB 2017 【2】Auto Template Generation for Question Answering over Knowledge Graphs,Abujabal A,WWW 2017 基于语义解析的方法 进行语法分析将查询转化为逻辑表达式然后利用知识库的语义信息将逻辑表达式转为知识查询。 资源映射【1】 例如文本中可以找出大量的“r1{老婆是}{男性女性}”、“r2{妻子是}{男性女性}” 并且通过统计发现关系r1所对应的{男性女性}实例对与关系r2对应的{男性女性}实例对高度重合 则可以判断r1和r2是等价的可以进行资源映射可以用jaccard距离来判断桥接操作【1】 例如问句“which college did Obama go to”和“which college did obama graduate” 在后一个句子中可以直接根据obama和grduate两个词从知识图谱中查询奥巴马的毕业院校假设有相关数据 但是前一个句子只能识别出奥巴马无法理解“go to”所代表的属性因此可以利用其他信息例如obama是人名college是地名并且“graduate”这一关系的首尾两端分别是人名和地名 因此可以将go to理解为“毕业于”。 当知识库中还存在着“奥巴马访问了哈佛大学”的知识时由于“访问”这一关系的首尾两端的属性是人名和地名 因此可以将 go to 理解为“访问”。参考文献 【1】Semantic Parsing on Freebase from question-answer pairs,berant j,emnlp 2013 基于深度学习的方法 端到端 文献【1】将问题以及与问题中关键词相关的实体属性分别映射到低维向量并做相似度运算 例如问阿凡达在因果的上映时间则直接把与阿凡达相关的属性分别送入一个双塔网络。文献【2】同时训练语言词向量和知识库三元组将问题与知识库映射到同一个空间 分别得到主题词向量、上下文向量和答案向量将这三种向量分别点积将点积结果求和得到每一个候选属性的分数。 例如询问阿凡达在英国的上映时间则对应的主题词为阿凡达上下文为英国答案向量为一个日期辅助选择 可以应用于实体识别模块bert或lstmcrf、关系分类意图识别模块文本分类模型、 实体消歧基于深度学习的排序判断一组概念的语义融洽度语义解析方面文献【3】可以将一个问句例如“谁在武林外传中为佟湘玉配音”Q1 和一个图谱中的多跳关系进行融合和扩展的结果R1例如武林外传》配音演员》王伟和王伟》饰演佟湘玉两个关系路径进行融合 将Q1和R1分别映射到300维向量并计算相似度参考文献 【1】 Question Answering with subgraph embeddingbordes A2014 【2】Question Answer over freebase with multi-column convolutional neural networkDong Lacl 2015 【3】Semantic parsing via staged query graph generation:question answering with knowledge base[J] 2015 实际操作技巧 S表示主语P表示谓语O表示宾语OP表示运算符 则属性检索可表达为S:P例如姚明的身高 多跳查询表达为S:P1:P2例如姚明妻子的籍贯, 多属性查询表达为P1 OP O1 and P2 OP (O2 or O3),例如身高大于180并且国籍是中国或美国分词词典 可以先将知识库中的实体名和属性名作为分词词典之后再分词属性值的匹配 在汉语中也可以尝试在分词后使用n-gram或elasticsearch或模糊搜索 例如搜索中包含“国展”那么“中国展览馆”n-gram或者“中国艺术展”模糊搜索都能完成映射有一些属性值没有明确提到属性名例如“国籍中国的运动员” 没有提到属性名为中国那么可以尝试使用该值中国出现最频繁的属性名国籍作为补全查询类型确定 在识别出问题中的实体名、属性名、属性值之后依据他们的数量和位置 就可以去匹配不同的模板并执行查询了每一个模板对应着特定的查询如果有实体名和多个属性名那就是多跳检索 如果有一个属性名和一个实体名并且实体名在前那么就是查询属性值张译的身高是多少 反之则是根据属性值查实体儿子是金正日的人是谁如果没有实体名则是利用属性查实体 如果有属性值但是没有属性名则要补全属性名 如果只有属性名但没有属性值则需要用正则去匹配属性值例如“身高大于180cm”则需要匹配出“180”gAnswer 实用系统 在构造数据时可以参考gAnswer的数据格式定义出原始的知识表示 进而识别出所有的实体主语和宾语、谓语、以及每一个主语的类型并将其处理为编号(方便存储)针对一词多义可以构建倒排索引针对每一个实体计算其属于每一个类型的置信度或在该类型中常出现的上下文词汇 例如“倒数”一词可能属于邓紫棋的歌曲也可能是一个动词 当其上下文出现“专辑、音乐、演唱”等词汇时更有可能属于邓紫棋的歌曲构建知识图谱的流程 知识建模 自顶向下从顶层概念出发逐步细化自底向上先对实体进行归纳然后逐步抽象需要考入如何描述复杂知识匿名节点还是边节点、是否支持扩展、变更以及调整知识存储 单一式存储利用三元组、属性表或垂直分割等方式 混合式综合利用多种单一式存储原生数据库neo4j、allegroGraph针对复杂节点不灵活 结构数据库mysql、mongo等较为灵活可以构建索引、an数据特点进行划分知识抽取 结构化数据mysql数据库等或者yago、freebase半结构化数据百科网页、垂类网站等可以使用包装器进行抽取包装器是针对数据源的抽取规则需要考虑数据更新、网页变动等包装器有STALKER\Wargo等非结构化数据文本文档数据视频等分为OpenIE和CloseIE两种工具分别有Reverb/TextRunner、DeepDive等知识融合 数据模式层概念合并例如在图谱A中有坦克这个概念在图谱B中有tank这个概念二者等价、概念上下位例如主战坦克是坦克的下级概念、概念的属性合并例如发动机马力、发动机功率是一个概念数据层实体合并、实体属性融合、属性融合中的冲突检测等知识计算 知识推理发现新的知识规则分为基于本体的推理和基于规则的推理。知识图谱挖掘图遍历、最短路径、权威节点分析图排序算法、族群发现最大流、社区发现、相似节点、路径分析、关联分析、节点聚类等知识应用 语义搜索解决传统搜索中关键字多义歧义通过实体链接实现知识与文档的混合检索智能问答准确的语义解析的获得意图并确定答案的优先级排序。可视化提供决策支撑辅助发现业务模式
http://www.w-s-a.com/news/770393/

相关文章:

  • 设计网站公司收费西安小程序开发公司有哪些
  • 如何建网站赚取佣金哪个网站可以做免费宣传
  • 万网手机网站seo方法
  • 免费制作网站app百度首页纯净版
  • 支持api网站开发wordpress排版Markdown
  • 赤峰做网站的logo设计软件在线制作
  • iis网站批量导入苏州最新新闻事件今天
  • 甘肃省住房和城乡建设厅注册中心网站首页沈阳专业关键词推广
  • 网站怎么能在百度搜到网站开发费怎么做会计分录
  • 嘉定专业网站制作公司七星彩网站开发
  • 网站建设人员培训企业网站开发模型图
  • 自己开发一个网站应该怎么做国外设计网站 绿色的
  • 南昌外贸网站设计推广任务发布平台app
  • 建立网站成本书店网站建设可行性分析
  • 高端网站设计官网乌海学校网站建设
  • 哪些网站适合新手编程做项目优秀网页设计赏析
  • 永州网站seo德阳网站建设优化
  • 网站建设高端网站本地建设网站软件下载
  • 网站后台账号密码破解杭州酒店网站设计公司推荐
  • 和县网站开发秦皇岛建设工程信息网站
  • 国外网站用什么dns好建一个下载网站要什么cms系统
  • 礼品工艺品网站建设手机做网站哪家好
  • 泉州网站建设方案维护怎样选择网站建设
  • 江苏建站速度忿先进的网站建设
  • 广州天河建站公司com域名注册多少钱
  • 成都网站建设推广好vs2013如何做网站
  • 茶叶网站建设模板企业网站备案要多少钱
  • 怎么查网站找谁做的win主机伪静态规则 wordpress
  • 轻云服务器菁英版 多个网站北京it外包服务商
  • 售后服务 网站建设阳江seo优化