当前位置: 首页 > news >正文

网站建设与运营财务报表建设一个商城网站的成本

网站建设与运营财务报表,建设一个商城网站的成本,四川冠辰网站建设,工信部网站备案怎么查询随着ChatGPT的推出#xff0c;通用人工智能的时代缓缓拉开序幕。我们第一次看到市场在追求人工智能开发者#xff0c;而不是以往的开发者寻找市场。每一个企业都有大量的数据#xff0c;私有的用户数据#xff0c;自己积累的行业数据#xff0c;产品数据#xff0c;生产线… 随着ChatGPT的推出通用人工智能的时代缓缓拉开序幕。我们第一次看到市场在追求人工智能开发者而不是以往的开发者寻找市场。每一个企业都有大量的数据私有的用户数据自己积累的行业数据产品数据生产线数据市场数据等等一应俱全。这些数据都不在基础大语言模型的记忆里如何有效的用起来是目前通用人工智能在企业端的重要课题。 我们可以将私有数据作为微调语料来让大语言模型记住新知识这种方法虽然可以让大模型更贴近企业应用场景更高效使用私有数据但往往难度较大另外企业数据涵盖了文本图像视频时序知识库等模态接入单纯的大语言模型学习效果较差。我们今天来聊聊另一种更常见的方案通过矢量数据库提取相关数据注入到用户prompt context提示语境里给大语言模型提供充分的背景知识进行有效推理。【如图一所示】 图一 基于数据提取的大语言模型应用架构 矢量数据库允许任何对象以矢量的形式表达成一组固定维度的数字可以是一段技术文档也可以是一幅产品配图。当用户的提示包含了相似语义的信息我们就可以将提示编码成同样维度的矢量通过矢量数据库查寻K-NearestNeighbor近邻搜索来获得相关的对象。Approximate NearestNeighbor近似近邻搜索作为矢量数据库的核心技术之一在过去的十年里获得了长足进步。它可以通过损失一定的准确度在高维空间里快速搜索近邻矢量比如NGT算法可以在接近一千维的矢量空间达到万次查询而准确度不低于99%。如图二所示不同的算法展现了不同的妥协效果。 图二 查询QPS和返回准确度召回之间的妥协。数据集为fashion-mnist采用了784维矢量 测试基于单个CPU的统一环境测试时间为2023年四月。 这种语义搜索的方法起源于大语言模型时代之前起初是为了降低企业搜索的工程复杂度提升搜索结果的相关性因为矢量本身和神经网络高度契合也成为大语言模型应用的标准配置。甚至出现如Memorizing Transformer 和 KNN-LM这样的架构将近邻搜索算法和大语言模型结合来成功构造快速external memory外部记忆。 但是这样的架构依然存在一个重要的问题从用户的提示生成矢量通过近邻搜索找到有关数据这两方面的矢量相似度高并不一定代表语义的相关性也高因为两方的矢量可能并不在同一语义空间。如果企业数据的语义空间和大语言模型有比较大的区别图一所示的架构就可能无法有效的关联重要数据而降低了可用性。这种语义空间差别在处理多模态数据时尤其明显比如从文本到图像的对齐【如图三】从文本到知识图谱的对齐【如图四】。同时图像视频知识图谱文档等等都蕴含大量的信息压缩到单一矢量大大损失颗粒度从而降低了近邻搜索的有效性。 如果将这些对象碎片化处理再由大语言模型进行整合除了复杂的碎片化工程这种方法大大增加了提示语境的长度要求。尽管大量的研究工作已经从计算效率上解决了语境长度的瓶颈比如Linear TransformerReformer到最近的LongNet理论上1B的Token已经是可行的但实际的效果却显示当前的大语言模型并不能很好的利用长语境来获得相关信息【如图五】。归根结底将大量背景信息有效高效的投射到文本语义空间从而让后端的大语言模型可以更好发挥依然是目前应用开发的一大难点。 图三 图像文本通过交叉注意力机制对齐。借用BLIP2架构图 图四 知识图谱和文本通过交叉注意力机制对齐。借用动态知识图谱融合模型 图五 相关的文档在提示语境中的位置会极大影响大语言模型的能力。来自于最近的研究 语义空间的投射可以看作是一个alignment对齐任务。在粗颗粒度上单一矢量的空间对齐可以通过学习投射矩阵来实现【如图六所示】。这个投射空间小可以用较少的标注数据训练从而大大提升搜索结果的相关性也已经成为业界广泛使用的技术。而细粒度的对齐工作依然是目前技术突破的焦点从Perceiver IOCLIP到BLIP2我们也渐渐看到交叉注意力机制的通用对齐能力【如图三四】特别是大规模的无监督学习半监督学习大大提升了对齐的泛化能力。把这些对齐算法和矢量数据库结合起来提供快速高效的细粒度对齐将会极大提升大语言模型应用的用户体验也是我们值得期待的方向。 图六 粗粒度对齐 总体而言通过矢量数据库将企业内部数据和大语言模型结合起来拥有广泛的应用场景但技术挑战也仍然很大我们今天讨论的这些技术点仅仅是诸多挑战中的一两个环节还有很多没有触碰后面有机会和大家继续探讨。 参考资料 1.https://github.com/erikbern/ann-benchmarks 2.https://arxiv.org/pdf/1911.00172.pdf 3.https://arxiv.org/pdf/2203.08913.pdf 4.https://arxiv.org/pdf/2006.16236.pdf 5.https://arxiv.org/pdf/2001.04451.pdf 6.https://arxiv.org/pdf/2307.02486.pdf 7.https://arxiv.org/pdf/2301.12597.pdf 8.https://arxiv.org/pdf/2306.08302.pdf 9.https://arxiv.org/pdf/2307.03172.pdf 10.https://finetunerplus.jina.ai/ 11.https://github.com/krasserm/perceiver-io 12.https://arxiv.org/pdf/2103.00020.pdf 13.https://arxiv.org/pdf/2301.12597.pdf 作者简介 缪 旭 九章云极DataCanvas公司首席AI科学家 二十余年人工智能研究和管理经验深耕人工智能的技术实现和应用发表多篇学术文章并拥有多项授权发明专注将可推理可解释的人工智能、大模型、大规模实时机器学习、知识图谱等前沿AI技术加速应用于各行各业。
http://www.w-s-a.com/news/465897/

相关文章:

  • 网站角色权限wordpress 优化版
  • 购物网站ppt怎么做网络公司注册多少钱
  • 学做衣服上什么网站好贴吧高级搜索
  • 贵州 跨境电商网站建设做淘宝店铺有哪些好的网站
  • 广州正规网站制作公司网站搭建公司
  • ui设计零基础好学吗珠海网站建设优化推广
  • 网站开发多少费用火车头采集wordpress发布时间
  • 有没有做皮艺的网站教育培训网站建设ppt
  • 建设外贸商城网站制作如何建设景区旅游网站
  • 网站建设服务的具体条件怎么建设一个响应式网站
  • 做flash的网站wordpress设置前台投稿
  • 商务网站开发文档迅雷资源做下载网站
  • 无极磁铁网站如何把地图放到自己做的网站上
  • 青浦赵巷网站建设公司网站开发需求文档
  • 苏州网站建设的公司哪家好无锡网站制作那些
  • 装饰公司网站模板科技成果鉴定机构
  • 给公司做的东西放到私人网站上十堰为企业做网站的单位
  • 手机网站建设价钱手机自己做网站
  • 网站建设属于哪种公司电子商务查询网站
  • 工程建设标准强制性条文最新版本网站关键词排名优化应该怎么做
  • 网站网页设计内容品牌高端网站建设公司
  • 网站开发报价 福州中国建筑网官网手机版
  • 网站 图片 自动往右移专门做定制化的网站
  • 最好用的cms手机百度关键词排名 网站优化软件
  • 凉山州城乡规划建设局网站长沙网站建设哪家强
  • 广州网站开发创意设计公司企业自己怎么制作网站首页
  • 曲靖 曲靖网站建设软件(app)开发wordpress 没有远程发布
  • 官方网站开发与定制网站建设技术是干嘛的
  • 昆明网站建设工作室网站菜单导航怎么做的
  • 南京网站做的好的公司猪八戒网站做推广怎么样