2024年被视为大模型应用元年,无论是B端企业还是C端消费者市场,均展现出快速扩展的势头。随着大模型技术的不断突破,算力需求急剧增长,智算中心成为各地基建的重要组成部分。
人工智能2.0时代下,大语言模型、多模态模型和文生视频模型等都对算力提出了前所未有的需求。以文生视频模型为例,模型虽然一般参数量不大,但训练数据都以千小时或万小时的视频量计算,其训练数据从TB级跃升至PB级,由此对算力提出了十倍甚至百倍的增长要求,并拉动下一代智算中心的建设。
在此背景下,央国企和各行业纷纷加强对人工智能的投入,推动大模型在实际业务中的快速落地。2月19日,国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会,强调要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,进一步深化开放合作,更好发挥跨央企协同创新平台作用。开展AI+专项行动,强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。
快速增长的市场需求也带来了前所未有的挑战。大模型训练的算力需求已达到万卡集群的规模,算力利用率的提升与成本控制成为瓶颈。与此同时,模型构建复杂,行业落地面临诸多难题。为了应对这些挑战,云计算领域正向芯片指令集与MaaS(模型即服务)方向延伸,通过创新的架构和服务提供多层次的算力支持。全国范围内的算力基础设施建设正在迅速推进,但与此同时,也面临数据不均衡、云边端算力协同等挑战,制约了算力的高效释放。
要释放更多的算力,需多方发力。首先,加强顶层设计和政策支持至关重要。2023年工业和信息化部等六部门发布的《算力基础设施高质量发展行动计划》明确了算力发展方向,有助于优化算力资源布局。其次,加大算力基础设施的建设投入,推动技术创新和产业升级。最后,人才培养和国际合作是进一步释放算力的关键,通过引进先进技术和管理经验,结合本土人才培养,算力产业将获得持续发展动力。
作为云服务国家队,天翼云坚持科技创新驱动高质量发展,全面升级产品和生态矩阵,打造涵盖“算力·平台·数据·模型·应用”的智算云能力体系,加速向智算云全面升级,构建全栈大模型智算服务体系,包括算力分发网络平台“息壤”、智算基础设施平台“云骁”和一站式智算服务平台“慧聚”,为大模型企业提供从算力供给、算力调度到模型训练及推理应用的一站式服务,推动智能计算与实体经济深度融合,为数字经济和产业发展注入新动能。
腾讯云的智算服务以TCE(腾讯专有云)和TCS(云原生平台)为核心,帮助企业搭建智算中心。TCE是一款全栈云平台,支持异AG真人国际构CPU/GPU计算和高性能存储,适用于大模型训练等高需求计算场景。TCS则基于云原生技术,提供PaaS平台,支持容器虚拟化和多集群管理,满足大模型推理和训练的需求。腾讯智算中心的解决方案具备高性能计算、RDMA高性能网络和并行文件存储系统,帮助企业实现数据的高速读写与算力调度,目前已在IDC、汽车、金融等多个行业成功落地。
商汤科技自2018年起,便开始构建新一代AI原生基础设施SenseCore商汤大装置,以AI大模型开发、生成、应用为核心,一站式满足从数据处理、模型搭建到应用部署的全链条需求。为应对市场对GenAI不断增长的算力需求,商汤不断扩展其算力规模,到2024年一季度已达12000 petaFLOPS,预计到年底将增至25000 petaFLOPS。较为前瞻的战略布局和技术提升使商汤科技迅速跻身市场第一梯队,在GenAI IaaS领域形成较大优势。
在各类创新企业的引领下,智算云行业已步入快车道。未来,随着政策支持、技术创新、人才储备等多方面协同发展,智算云将为更多行业提供智能化、可持续的算力服务,助力全球数字经济的加速发展。这一领域的持续创新不仅将改变企业的生产方式,还将为社会的智能化转型提供强大助力。