东数西算热潮下，云原生如何发挥 AI 算力澎湃动能？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 982 天前的主题，其中的信息可能已经有所发展或是发生改变。

今年二月，东数西算工程全面启动，在各界掀起了一股热潮，资本、媒体、行业，乃至民众都纷纷加入了话题讨论。

如今，算力不仅仅是数字经济时代的新生产力，更是成为与 “水、电、气” 并驾齐驱的国家级资源，是国民经济发展的重要基础。

01 AI 算力的核心地位日益凸显

工信部《新型数据中心发展三年行动计划（ 2021-2023 年）》提出，到 2023 年底，全国总算力超过 200 EFLOPS ，高性能算力占比达到 10%，国家枢纽节点算力规模占比超过 70%。[1] 随着人工智能应用的蓬勃兴起和大规模发展，对智能算力和超算算力的需求与日俱增。

由 IDC 浪潮信息和清华大学全球产业研究院最新联合发布的《 2021-2022 全球计算力指数报告》指出，AI 计算能力反映一国最前沿的计算能力。综合评估 15 个国家来看，AI 算力支出占总算力支出从 2016 年的 9% 增加到 12%，预计到 2025 年将达到 25%。中国 AI 算力发展领跑全球，AI 服务器支出规模同比大幅增长 44.5%，并首次超过美国位列全球第一。在 15 个国家 AI 算力支出的增长中，近 60% 来自中国。[2]

02 云原生成为主流 AI 计算框架最佳拍档

随着 AI 应用在各个行业的不断深入，数据规模、算法复杂度、企业业务场景多样性都呈几何倍数增加，这带来了一系列问题：突飞猛进的机器学习算法和日益捉襟见肘的 AI 算力引发供需不平衡，如雨后春笋般涌现的 xPU 、ASIC 、FPGA 等异构 AI 算力芯片带来算力基础设施异构化挑战，各种层出不穷的深度学习框架安装部署相对复杂对算力资源消耗巨大，服务器规模激增但资源利用率低，导致投入产出比低、运维成本高，桎梏了企业 AI 转型进程。

悄然来袭的云原生浪潮，为上述难题的解决带来了希望的曙光。「 DaoCloud 道客」在云原生领域深耕多年，针对 AI 场景，提出了「超道云原生人工智能算力平台」解决方案，实现了异构算力基础设施统一纳管、容器标准化的算力池化调度、AI 模型的开发运营一体化、AI 应用的云原生编排及企业级多租户管理等，可满足企业 4 个层次的需求：

打造弹性扩展、高效统一的算力基础设施： 统一管控和调度分散的、异构的计算资源，进行动态资源分配，负载均衡，提升算力基础设施整体利用率，降低各种算力的使用门槛。
适配多种算法模型与主流框架： 内置优化多种主流深度学习框架和组件，基于云原生的模式实现了分布式训练框架的运行调度，简化配置与操作；还支持对接算法 ISV (Independent Software Vendors ，独立软件开发商) 持续扩展平台能力。
实现 AI 模型端到端全生命周期管理，加速人工智能应用创新： 提供从数据准备、模型构建、模型训练、模型调优及模型运营的 AI 模型全生命周期管理能力，大幅缩短企业 AI 模型创作和更新周期，提升企业 AI 生产力。结合底层平台提供的云原生应用编排调度能力，加速 AI 算法能力支撑企业实际业务场景的进程。
企业级多租户管理： 平台内置多租户管理，按需适配企业组织管理要求，实现多团队共享算力资源，同时支持多维度的资源监控与告警，结合可视化看板能力，轻松实现运营管理。

超道云原生人工智能算力平台，提供多元异构算力服务和基于异构算力之上的 AI 模型全生命周期管理服务。一方面通过平台可以更方便、更快捷地获取多元算力，另一方面也加速了人工智能科学家们，从算法研发到模型发布的效率，提升企业 AI 的整体生产力。

此外，基于数字原生的底座平台同时提供了对计算、存储、网络等基础资源管理和调度的完整解决方案，提升算力利用率。

平台提供 AI 创新生态开放能力，除支持内置 AI 服务以 API 方式对外开放，同时还可集成 ISV 人工智能开发组件，提供第三方算法及模型服务，并与 ISV 形成联合方案。致力于为终端客户提供全链条的场景化服务，覆盖工业、金融、医疗、安防和教育等多种行业场景。

「超道云原生人工智能算力平台」解决方案架构示意图

该平台具有生态兼容、高效稳定、弹性灵活、应用无感迁移、跨云管理等特性，并且用户可根据自身需求定制应用服务，在平台上部署即可运行，有效降低人工智能开发、应用的难度，加快产品或服务的上线速度，减少管理开销，增强企业的竞争力。

03 GPU 资源池化云服务提升 AI 算力效能

为进一步提升算力利用率，「 DaoCloud 道客」联合趋动科技发布了 GPU 资源池化云服务联合解决方案。该方案基于云原生架构全面整合虚拟化、网络、存储、安全等能力，实现了 GPU 资源池化、动态伸缩和灵活调度，在企业级 Kubernetes 平台****「 DaoCloud Enterprise (DCE)」上进行 GPU 资源的细粒度管理和监控，让企业内的 AI 用户可共享数据中心内所有服务器上的 GPU 算力，不必关注底层资源的具体细节，助力企业 AI 应用开发敏捷化和高效化。

同时借助云原生天然的分布式、弹性扩展和轻量虚拟化能力，该方案能够简化异构算力资源的管理，屏蔽硬件基础设施的复杂性，实现池化和弹性算力资源供给，有效缓解计算压力，大幅提升 AI 应用的业务效率并避免供应商锁定，广泛服务于深度学习、模型训练、科学计算、图形图像处理等人工智能场景。

「 DaoCloud 道客」&趋动科技 GPU 资源池化云服务联合解决方案示意图

未来，「 DaoCloud 道客」将继续深化云原生与 AI 在算力基础设施层面的研发及探索，持续打造和优化云原生算力引擎，为企业、开发者提供灵活、高性能以及易用的 AI 应用基础环境，使他们更加专注于 AI 应用、模型及算法调优等业务领域本身，加快人工智能应用步伐。

参考资料：

[1]https://mp.weixin.qq.com/s/d-xUssZ7PRvOpD0m5y-0vQ

[2]http://www.199it.com/archives/1405895.html

DaoCloud 公司简介

「 DaoCloud 道客」云原生领域的创新领导者，成立于 2014 年底，拥有自主知识产权的核心技术，致力于打造开放的云操作系统为企业数字化转型赋能。产品能力覆盖云原生应用的开发、交付、运维全生命周期，并提供公有云、私有云和混合云等多种交付方式。成立迄今，公司已在金融科技、先进制造、智能汽车、零售网点、城市大脑等多个领域深耕，标杆客户包括交通银行、浦发银行、上汽集团、东风汽车、海尔集团、屈臣氏、金拱门（麦当劳）等。目前，公司已完成了 D 轮超亿元融资，被誉为科技领域准独角兽企业。公司在北京、南京、武汉、深圳、成都设立多家分公司及合资公司，总员工人数超过 400 人，是上海市高新技术企业、上海市 “科技小巨人” 企业和上海市 “专精特新” 企业，并入选了科创板培育企业名单。

网址：www.daocloud.io

邮件： [email protected]

电话：400 002 6898