苏州市干将路303号创意产业园

0512-3565 6563

Jackjones@kuaidata.com

联系客服

数据中心托管服务/管理式网络

服务:

400 651 8888

微软云服务:

400 089 2448

markjune@kuaidata.com

内容分布式网络服务:

400 811 0278

云集成与合作:

cloud@kuaidata.com

公司新闻

面向大模型的智算集群建设有三个要点

2024-09-30

9月27日,以“探索AI边界重构数字场景”为主题2024产学研融通创新活动在北京正式召开,26位演讲嘉宾齐聚,共话生成式人工智能的关键技术与应用趋势,共探AI大模型在7大领域的应用落地。中国信通院人工智能研究所软硬件与生态部主任李论发表了《大模型应用落地趋势与路径》主题演讲,在详述大模型的范式变迁与模型演进的同时,强调了底座支撑作用。她指出,模型的原始创新与大模型训推系统深度耦合,大模型落地时,计算能力决定了大模型性能天花板。

2024产学研融通创新活动

2024产学研融通创新活动

布局重点及建设要点

大模型落地过程中,AI+HPC融合的万卡集群是布局重点,其中蕴藏着众多机遇,也是难点与卡点。针对此,李论提出,面向大模型的智算集群建设有三个要点:

一是软硬高效协同的新型基础设施。整个人工智能产业链的形态正发生变化,早期产业呈现出明显的水平化特征,而今天,主导路线变成了大模型、大数据、大算力,以模型为核心的产业链上下游关联变革,底层的产业链体系架构在向基础设施的方向发展,芯片从单点变成了大规模的集群,平台的集约性等更为凸显,大模型训推需求上下传导至产业链各个环节,新型基础设施体系正在形成。

二是算力效能极致优化提升。在构建底座的过程中,Scale up(纵向优化)和Scale out(水平拓展)相互结合,对软硬件支撑水平和全栈整合能力提出更大挑战。一方面,硬件与软件的协同适配问题仍是重点;另一方面,规模扩展到千卡、万卡时,追求线性集群扩展能力难度较大,依旧是需要工程界和学术界共同解决的问题。

三是支持超大规模扩展的网络架构。这需要基于自身需求、结合大模型训练特点推出定制化组网方案,并为更大集群拓展做好准备。当前,面向大语言模型的定制化、国产化、规模化的架构体系也在不断出现。

中国信通院人工智能研究所软硬件与生态部主任李论

中国信通院人工智能研究所软硬件与生态部主任李论

挑战与调整建议

对于底座支撑整体,李论认为挑战包括三个方面:如何准确度量智算集群系统的实际算力?软硬件协同不深,如何增强智算生态韧性?智算建设浪潮后,如何可持续运营与服务?

面对这些问题,李论给出了调整建议:一是提升智算基础设施规划水平,对产品技术选型、应用场景需求、市场竞争格局、投资收益等进行充分调研、精准测算;二是加快推动国产软硬件厂商兼容适配,推动面向大模型的人工智能训推集群建设的标准化和规范化;三是引导鼓励智算集群差异化发展运营,重视智算生态运营,结合区域特点制定差异化智算生态发展策略。

对于大模型的未来发展,李论也提出了展望:“未来一段时间,模型水平发展仍将遵循规模定律,计算在一定情况下决定了大模型规模的天花板。底层是软硬高效协同的大系统,中间层是以Transformer架构为核心驱动通用智能探索的大算法,上层模型平台是以模型为中心的大生态。”