重庆网站seo什么意思,张家港杨舍网站制作,有哪些做婚礼电子请柬的网站,软文范例大全1000字本文根据7月24日飞天发布时刻产品发布会、7月5日DataFunCon2024北京站#xff1a;大数据大模型.双核时代实录整理而成#xff0c;演讲信息如下#xff1a;
演讲人#xff1a;徐晟 阿里云研究员/计算平台产品负责人
主要内容#xff1a; Overview - 阿里云大数据 AI 产品…本文根据7月24日飞天发布时刻产品发布会、7月5日DataFunCon2024·北京站大数据·大模型.双核时代实录整理而成演讲信息如下
演讲人徐晟 阿里云研究员/计算平台产品负责人
主要内容 Overview - 阿里云大数据 AI 产品线介绍 Trending - 大数据和 AI 趋势分析 Solution - 阿里云智能大数据产品解决方案 Future - 未来展望
一、Overview - 阿里云 AI 产品线介绍
首先简单介绍一下阿里云的大数据和AI产品。阿里云在全球布局30个region基本已覆盖国际各主要地区包括89个可用区 超过3200个CDN节点为客户提供高效稳定的基础云化的计算和存储服务。 阿里云拥有非常多的大数据和AI系列产品大数据产品主要包括两条线 一是自研产品线自阿里云成立之初便自主研发涵盖大数据处理、机器学习、数据仓库等多个领域如MaxCompute、DataWorks、Hologres、PAI等。 二是开源产品线阿里云积极参与开源社区贡献并维护了一系列开源项目如Apache Flink、Apache Spark、StarRocks等为全球开发者提供了丰富的工具和资源。 2023年阿里云大数据与AI平台实现了3位数增长成为国内领先的技术驱动力。据统计国内超过半数的大模型预训练工作在阿里云平台上完成彰显了其在AI领域的强大实力。在大数据平台性能测试中阿里云在TPC-DS、TPC-H、TPC-BB等多个榜单上均有出色表现证明了其在决策型数据分析领域的卓越能力。市场份额方面阿里云在2022年占据了约49亿市场份额中的20亿稳居国内领先地位。同时阿里云在云数仓、AI基础架构和AI开发服务等领域的国际测评中也取得了显著成绩。尽管在国内市场保持领先地位但阿里云也清醒地认识到在国际竞争中仍需努力追赶。 阿里云大数据平台的核心优势包括 首先阿里云凭借强大的基础设施构建了业界领先的弹性伸缩能力。无论是在业务高峰期还是低谷期阿里云都能迅速调整资源按需弹性和分时弹性等多种弹性配置灵活资源供给确保客户应用的平稳运行。这一能力的实现得益于阿里云对云计算底层技术的深入研究和创新。 在技术优化方面阿里云持续投入通过算法优化、架构改进等手段显著提升了服务的性价比。客户在享受高性能计算和存储服务的同时也获得了成本效益的双重优势。 稳定性是阿里云的另一大优势。在数据密集型和高并发场景下阿里云的服务依然保持了极高的稳定性和可靠性这背后是阿里云对系统架构的精心设计和对故障恢复机制的不断完善。 随着AI技术的兴起阿里云积极探索大数据与AI的深度融合推出了一系列创新解决方案。从智能数据分析到AI模型训练阿里云为客户提供了一站式服务推出AI for Science、Data for AI等助力企业快速实现AI赋能。 此外阿里云在安全管控和企业服务方面也做了大量工作。从数据加密、访问控制到合规性审计阿里云构建了全方位的安全防护体系让客户在享受云计算便利的同时无需担心数据安全问题。 阿里云的这些努力不仅提升了自身的竞争力也为客户带来了实实在在的价值。在数字化转型的浪潮中阿里云正成为企业信赖的合作伙伴共同探索未来无限可能。
二、Trending - 大数据和 AI 趋势分析
接下来分享一下大数据和AI的发展趋势以及阿里云大数据产品是如何顺应这种趋势而演进的。
1. 从数据湖到大数据AI一体 数据湖作为一种数据存储架构允许以原始格式存储海量数据无需预定义数据模型为数据分析提供了极大的灵活性。在系统规模较小、数据处理需求相对简单时数据湖能够很好地满足需求。其灵活的数据摄入和存储能力使得企业能够快速响应业务变化进行探索性数据分析。
但是随着数据量的激增和业务复杂度的提升数据湖的非结构化存储和缺乏数据治理开始暴露出问题。所以特定规模前数据湖灵活性占优之后数仓成长性占优。在数据湖时代我们无法做到数据湖和数据仓库的成本和灵活性的平衡各自都有非常大的问题。但是在湖仓一体时代随着数据读取效率的变高这个曲线的规律将会被打破我们可以通过技术的优化与迭代逐渐去取得性能与成本的平衡。后续我们将介绍从数据湖到湖仓一体到大数据AI融合一体的演进。 数据湖的概念自提出以来旨在创建一个统一的数据存储空间以原始格式存储各类数据供不同计算引擎访问和处理。然而随着技术的发展数据湖的局限性逐渐显现尤其是在数据格式、数据治理和跨引擎共享方面这促使了从数据湖到湖仓一体Lakehouse再到大数据AI一体架构的演进。
最初数据湖设想中包含结构化、半结构化数据的统一存储但缺乏统一的数据格式标准导致计算引擎访问数据时效率低下。引擎往往需要自行解析数据这不仅限制了数据的共享还可能造成数据孤岛即数据虽然存储在公共存储上但实际上只对特定引擎可用。
为了解决这些问题Lakehouse架构应运而生。Lakehouse在数据湖的基础上引入了统一的表格式标准如Delta、Hudi、Iceberg等以及统一的SDK使得数据在湖上能够被多个引擎以标准方式访问从而实现了真正的湖仓一体。阿里云的Paimon、File Cache和Table Cache等技术进一步优化了湖仓性能使其接近本地数仓的水平。
随着大数据与AI的深度融合对数据的统一管理提出了更高要求。大数据AI一体架构不仅关注结构化和半结构化数据还需考虑AI引擎特有的数据格式如特征向量等。这要求构建统一的元数据管理以实现跨引擎的数据访问和处理。元数据管理成为连接不同数据源、引擎的关键确保了数据的统一视图和高效利用。
然而从数据湖到大数据AI一体的演进并非没有挑战。公共存储相比私有存储在性能优化上存在天然劣势因为私有存储可以针对特定引擎进行深度优化。但随着网络、存储I/O等技术的不断进步这一差距有望缩小甚至消失。正如神经网络的发展历程所示技术进步最终克服了算力限制推动了AI的广泛应用。
综上所述大数据与AI的融合是一个持续演进的过程从数据湖到大数据AI一体架构不仅解决了数据格式、数据治理和跨引擎共享的挑战还推动了数据管理技术的创新。尽管在性能优化上仍面临难题但随着技术的不断进步这些问题将逐渐得到解决为大数据与AI的深度融合铺平道路。
2. 阿里云自研大数据产品
1MaxCompute 首先MaxCompute作为阿里云的旗舰级大数据处理平台自诞生之日起便与阿里云的崛起紧密相连。MaxCompute的架构设计体现了阿里云在数据存储、计算、调度与服务层面的深厚积累。其核心层包括私有存储与公共存储通过开放的存储API和SDK实现了数据的灵活访问与管理。之上弹性计算和调度层确保了资源的高效利用能够根据业务需求动态调整计算能力。更进一步MaxCompute集成了增量计算、元数据管理和开放API等高级功能为用户提供了一站式的开发与服务体验。这些都属于标配的能力。 在功能与性能上MaxCompute展现出了企业级安全、大规模数据处理和高可用性等关键优势。由于其早期服务于阿里巴巴集团内部高并发的淘宝、天猫等场景MaxCompute在安全体系、数据规模处理和故障恢复机制上做了大量优化确保了数据的完整性和系统的稳定性。此外MaxCompute与算法的深度融合使其在机器学习、数据挖掘等领域展现出了强大的应用潜力。
近年来MaxCompute的重点演进方向之一是湖仓一体的开放架构。同时Severless的服务弹性进一步增强能够根据用户需求动态调整资源确保了在不同业务场景下的高效运行。阿里云的MaxCompute平台凭借其先进的架构设计和优化技术为众多企业用户带来了显著的性能提升和成本优化。通过将原有的开源Hadoop体系迁移至MaxCompute企业不仅能够享受到更稳定、更高效的数据处理能力还能在成本控制上实现突破。
所以今天我们在讲所有大数据和AI的尝试时候一定会看三个指标第一是稳定性具有一票否决权第二是性价比第三则是性能如果性能很低即使性价比很高也是不符合我们的需要的。MaxCompute过往在离线计算领域表现卓越更在近年来积极拥抱AI推动大数据与AI的深度融合形成了独特的数据处理与分析生态。 为了满足AI开发中对交互式编程环境的需求MaxCompute引入了Notebook开发环境将大数据处理与AI开发无缝对接。这一创新不仅为开发者提供了熟悉的Python编程环境也使得大数据工程师能够更便捷地进行数据探索和模型构建促进了大数据与AI的协同工作。MaxFrame计算框架的推出是MaxCompute在大数据与AI融合上的又一进展。
MaxFrame允许用户在MaxCompute平台上直接运行分布式Python计算任务充分利用已购买的MaxCompute计算资源。这一设计不仅避免了系统切换的繁琐还有效降低了用户成本实现了大数据与AI计算的资源共享和优化。MaxCompute内部还集成了深度学习和统计学习算法为用户提供了一站式的算法调用服务。这意味着用户无需在外部寻找开发算法就能在MaxCompute平台上进行复杂的数据分析和模型训练大大简化了工作流程提高了效率。
在MaxCompute上实现了一个小的大数据和AI的闭环后面讲到的产品大都具有类似功能。综上所述MaxCompute通过引入Notebook环境、MaxFrame计算框架和内置算法库构建了一个完整的大数据与AI融合生态。这一生态不仅体现了MaxCompute在技术融合上的前瞻性也为用户提供了更加灵活、高效和经济的数据处理解决方案。阿里云的产品线之所以强大正是因为在每个产品中都融入了大数据与AI结合、湖仓一体以及统一元数据管理等先进理念。MaxCompute的成功案例正是这一理念的最佳实践。
2DataWorks DataWorks可以看作是MaxCompute的伴生体。DataWorks从原来最早的基于MaxCompute单引擎闭环到后面的多引擎支持今天的DataWorks已经完全不一样了。首先底层的引擎也好、存储也好都可以用通过DataWorks直接进行访问。中间数据集成、数据治理、数据开发等整套体系已非常完备。现在又加入了当前流行的Copilot、自然语言转SQL、自然语言分析通过DataWorks不但可以访问到所有的引擎还可以在开发态享受大模型的红利。
3Hologres Hologres提供统一、实时、弹性、易用的一站式实时数仓引擎一份数据支持OLAP查询、即席分析、在线服务、向量计算多个场景 可同时替换 OLAP 引擎(Greenplum/Presto/Impala/ClickHouse等)或 KV 数据库(HBase/Redis等)在TPC-H 30000GB标准测试结果中Hologres获得世界第一领先第二名23%。支持10亿/秒的高吞吐实时写入与更新PB级数据可实现秒级分析。阿里云自研的三驾马车MaxCompute、Hologres再加上DataWorks这三个产品基本上覆盖了当前90%的重要场景。剩下的一块是流计算会用到Flink。
4典型案例
下面分享几个案例。 首先是电商的案例。阿里巴巴作为全球领先的电商企业在电商领域的深厚积累为阿里云产品组合提供了丰富的应用场景。在电商场景中阿里云的产品组合展现出了强大的数据处理与分析能力。以人工智能平台PAI平台AI、Search搜索服务、Hologres交互式查询以及实时计算Flink技术为核心构建了从原始数据ODS到数据仓库DWD再到数据服务ADS的整层数仓建模。这些在阿里云整套的产品组合里面都有实际的成功案例。不仅支撑了阿里巴巴内部电商业务的高效运营也为外部企业提供了成熟的电商解决方案。阿里云在电商领域的实践尤其注重数据安全与容灾能力的建设。考虑到金融客户等对数据安全有着极高要求的场景阿里云在产品设计之初就将安全性与容灾机制作为核心考量确保在任何情况下都能保障数据的完整性和系统的稳定性。 另一个案例是某数字媒体案例。所有数字化相关的迁移、计算、治理再加上AI都可以通过我们的产品组合来解决。上图中清晰展示了从数据采集、处理到分析、应用的全链条解决方案。这一架构不仅涵盖了数据的生命周期管理还融入了AI技术如智能推荐、内容分析等为数字媒体的个性化服务和内容创新提供技术支撑。
3. 阿里云开源大数据产品
下面介绍阿里云开源大数据产品。 前面介绍的自研产品重点关注性能、稳定性和能力而开源产品则更多焦点于如何与湖存储生态无缝融合以及如何通过开放的生态体系提供更广泛的兼容性和灵活性。阿里云的开源产品不仅关注性能和稳定性更强调与湖存储的紧密集成兼容多种表格式以及高效的元数据管理体现了开源先天的开放性和生态兼容性。JindoFS作为阿里云开源产品中的一个亮点它巧妙地封装了OSS接口同时支持HDFS文件系统实现了OSS接口与HDFS的互通。这一设计保持了与上一代数仓方案的兼容性确保了数据的平滑迁移和使用起到了前后承启的作用。它也支持file cache等在此基础上它也支持前面介绍的主流的湖格式再加上今年顶级的Apache开源项目Paimon。这些最后统一会被DLF的湖元仓来统一来管理。DLF元数据管理服务在阿里云的湖存储生态中扮演着关键角色。它统一管理了所有湖存储格式的元数据提供了统一的数据访问和管理接口使得用户在处理不同格式的数据时能够享受到一致的体验。DLF的出现极大地简化了湖存储生态中的元数据管理提升了数据处理的效率和灵活性。在此基础之上是我们整个的开源体系。包括EMR、Spark、Flink体系现在还新加了Milvus的向量检索在阿里云的开源体系中ECSElastic Compute Service和EMRElastic MapReduce模式一度是用户搭建自定义大数据处理框架的首选。用户可以租用ECS服务器并在其上部署EMR框架构建定制化的数据处理环境。这种模式的流行背后反映的是用户对于系统控制和定制能力的需求。用户希望能够随时调试和修复问题拥有对底层系统的完全掌控。然而随着技术的不断进步和云计算服务的成熟行业趋势逐渐从分散走向统一Serverless无服务器模式成为新的发展方向。Serverless模式之所以成为主流关键在于它能够真正解决用户在运维、成本控制和系统管理方面的痛点。在Serverless模式下用户无需关心底层资源的购买、续费和运维只需专注于业务逻辑的实现。系统安全、可运维性等技术细节由云服务提供商统一管理用户只需按需使用和付费大大简化了操作流程降低了运维成本。阿里云顺应这一趋势将Serverless模式作为EMR和Spark产品线的重点发展方向。通过Serverless化阿里云致力于为用户提供更加灵活、高效、低成本的数据处理服务让用户能够更专注于业务创新而无需过多关注底层技术细节。与此同时阿里云的开源体系也保持着高度的开放性和灵活性。无论是裸金属、ECS、弹性容器还是其他形式的计算资源阿里云都能够提供支持满足不同用户在不同场景下的需求。与自研体系相比开源体系在提供高度定制化能力的同时也更加注重与行业标准的兼容和用户需求的灵活性让用户在享受云服务便利的同时能够根据自身业务特点选择最合适的部署方式。
1Serverless Spark 开源系主推Serverless Spark。在Serverless Spark的场景中Celeborn作为Apache顶级项目引入了Remote机制这一创新在数据处理架构上带来了革命性的变化。当有很多计算节点在分布的时候传统的Spark作业在执行shuffle操作时依赖于计算节点的本地存储这不仅限制了shuffle数据的规模还可能引发存储资源的不均衡分配导致计算节点因存储空间不足而出现瓶颈。特别是在大规模分布式计算环境中这一问题尤为突出增加了系统运维的复杂性和成本。
Celeborn通过将shuffle操作从计算节点的本地存储转移到远程shuffle服务实现了存储与计算的分离今天我们有一个shuffle的池子就好了这是一个非常重要的突破。第二个问题在大数据处理领域Native Engine原生引擎的概念日益受到关注其核心优势在于能够直接在底层存储系统上运行无需通过中间层或框架进行数据访问从而显著提升数据处理的性能和效率。今年我们计划在云栖大会上发布Flink Native Engine期待大家的关注。
2Serverless StarRocks 另外要介绍的就是Serverless StarRocks。Serverless StarRocks作为阿里云的高性能分析引擎自诞生之初即以湖原生设计为核心这意味着它在设计上就充分考虑了与湖存储生态的深度融合。Serverless StarRocks不仅能够无缝对接湖存储的各种格式如Hive、Iceberg、Hudi等还针对湖存储进行了专门的优化以提升数据处理性能和分析效率。通过Serverless化StarRocks实现了资源的弹性伸缩能够在不增加运维负担的前提下自动调整计算资源以应对不同规模的数据处理需求。
3Paimon 接下来介绍的是Paimon。当前Iceberg常常被大家当作批处理的标准湖表格式来用那为什么还要做PaimonPaimon是阿里云为解决实时数据处理和流计算场景而设计的湖存储格式。与业界常用的如DeltaIceberg、Hudi等格式相比Paimon在实时性能方面具有显著优势。最初Paimon是为了与Flink等实时计算框架紧密集成而开发的因此在流处理场景下表现出色。随着Paimon的不断发展它已经能够同时支持批处理和流处理成为了一种全面的湖存储格式。我们希望Paimon未来也能够成为一个主力的格式目前引擎也都在做对接。
4实时计算Flink版 Flink作为阿里云在实时计算领域的核心产品即将迎来一系列创新性的发布包括针对特定场景优化的native算子和native Flink版本。这些技术革新旨在提升Flink在实时数据处理、流计算等场景下的性能和灵活性满足企业对实时数据处理日益增长的需求。阿里云将在九月份的云栖大会上详细分享这些创新成果。欢迎大家来听这方面的专场介绍。
4. 阿里云搜索产品 阿里云的搜索产品主要包括两个部分。第一部分是Elasticsearch。ES在阿里云上做了非常多的适配它可以将日志等很多轻量的场景很方便地用起来。同时我们自己还有一个叫做OpenSearch的产品源自阿里巴巴主搜框架即淘宝搜索背后的强大技术支撑。主搜框架的开源版本Heavenask展现了阿里云在搜索技术领域的开放与共享。
那么对于搜索这个方向我们最大的区别是什么今天任何一个做大搜的平台包括以前的bing、百度或淘宝虽然它不处理这种数据的结构化的问题因为商家把结构化表直接入进去了但其背后有着一个非常庞杂的体系。阿里云的优势在于构建了一个能够支持成百上千算法工程师协同工作的平台。这一平台的构建对于大型搜索平台的运维和算法迭代至关重要它使得搜索引擎能够不断优化提升搜索结果的相关性和用户体验。
把平台与Elasticsearch这样更多的搜索引擎做整合是未来的一个方向。随着大模型技术的发展 RAG技术成为提升搜索准确性和相关性的重要手段。RAG技术通过结合检索结果和大模型能够提供更加准确和一致的搜索结果。RAG做检索增强跟大模型相关然而大模型是没有办法保证准确性的可能对同一问题给出的答案都是不一样的所以我们希望将其不确定性转为确定性希望通过改变input来实现。也就是先搜一遍把搜索的结果再提交给大模型来回答这时准确率就会更高。但是要实现这件事是很难的一定要在整个搜索的向量部分做得非常好才可能有所提升。
当然从理论上来讲如果能够接受无限制的token那也就不需要RAG了但从成本上来讲是不现实的。所以我们一直强调三点一是稳定性二是性价比三是性能。我们的LLM智能问答版已经上线大家有兴趣可以看一下一分钟怎么构建一个RAG系统。
5. 阿里云人工智能平台PAI
接下来介绍AI场景。 上图左侧展示的是一个PAI-DSW的gallery。PAI-DSW即notebook的编程模式gallery指的是做好的模板。对于已经收录的模型训练场景直接点一下模板就可以直接使用了。今天对于AI用户来说其实就包括两个场景第一个场景是大家来用来开发第二个场景就是购买、管理和使用。 如上图所示今天的AI工程的infrastructure跟以前有很大区别以前很多的学习可能一个机器有八个卡可能用一个卡甚至半个卡就够了。但现在不一样了几十几百个B的一个模型需要多少卡所以这个时候问题就出来了当集群变更大、任务变得更多以后尤其更要命的是卡不一定是一样的。这个时候就需要一个非常复杂的工程体系能够把任务合理地分配到不同的资源上其次如果卡出问题比如八个卡中可能有一个出问题另外七个还work正常的监测手段也是看不到的这些就需要我们在工程上做非常多的适配工作能够做损失的恢复也就是把任务调到其它卡上去跑第三个问题因为要调到其它卡上去跑需要在中间save这些状态这个过程又会影响整体的performance这里也需要保证间隔足够短在不影响整体performance的同时保证这个任务能够快速的被schedule。这就是我们的PAI在训练上面做的一些能力。
1PAI-DSW 上图中介绍的是交互式开发notebook在此不展开讲解。
2PAI-EAS 接着是推理服务。在大模型的推理服务中profile和decode这两个过程的要求是不一样的前者是计算密集型后者则是访问存储密集型。要做好优化当模型很大需要很多并行的时候同样也需要一个很强的工程框架PAI也提供了这方面的能力。
3PAI-DLC 另外一块是模型训练服务PAI-DLC它与PAI-DSW交互式开发notebook和模型推理服务PAI-EAS并列构成人工智能平台PAI的三驾马车完整解决了AI infrastructure的问题。目前百川智能、零一万物、vivo、复旦大学、巨人网络等大批企业和机构都在阿里云上训练大模型并通过阿里云对外提供服务。
三、Solution - 阿里云智能大数据产品解决方案
前面介绍的每个产品都形成了一些自己的小闭环但是其实我们更希望提供更加统一的解决方案在今年九月份的云栖大会上将推出一个新的解决方案。 如图Meta管理、存储管理上面是跨引擎的复用最上面是开发平台可以跨引擎调度。我们希望通过这种一体化的方式不仅仅在产品内部做大数据和AI和湖的这种生态的闭环也在整体的解决方案上面做闭环。 这里想大家展示了之前提到的阿里云大数据AI产品组合的整体大数据AI融合的产品整体架构。
四、Future - 未来展望 最后是对未来的一些展望。历史上我们走过很多的阶段搜索、大数据、AI依次成为业界焦点。然而今天是有史以来第一次大数据、搜索和AI同台演出。所以今天这个时代跟原来是不一样的对系统的要求对产品要求对知识结构的要求以及对整个方向的要求都是不一样的。所以阿里云希望能做出更多更好的产品来助力业务的创新与发展。如果大家对于上面的阿里云与AI产品感兴趣也可以在官网体验我们产品的免费试用与各类入门教程谢谢大家。
以上就是本次分享的内容谢谢大家。