(资料图)
8月24日,浪潮信息正式发布大模型智算软件栈OGAI。OGAI (Open GenAI Infra)“元脑生智”,是为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力的全栈全流程的智算软件栈。OGAI由浪潮信息基于大模型自身实践与服务客户的专业经验而开发,旨在为大模型研发与应用创新全力打造高效生产力,加速生成式AI产业创新步伐。
大模型是当前通用人工智能产业发展创新的核心技术。目前国内已发布的生成式AI模型超过了100个,“百模争秀”的格局初现。但大模型从研发到应用的各环节中,依然面临诸多挑战,如大模型算力的系统全栈问题、兼容适配问题、性能优化问题等。
OGAI是浪潮信息从当前大模型算力建设、模型开发和应用落地的实际需求出发,秉承全栈全流程、算力充分释放、实战验证提炼的设计原则打造而成。OGAI由5层架构组成,从L0到L4分别对应基础设施层的智算中心OS、系统环境层的PODsys、调度平台层的AIStation、模型工具层的YLink和多模纳管层的MModel。
L0层智算中心OS:面向大模型算力服务的智能算力运管平台,满足多租户以裸金属为主的弹性AI算力运管需求。其中,高效的裸金属服务支持分钟级部署上千规模裸金属节点并按需进行弹性扩展,实现异构计算芯片、IB、RoCE高速网络、高性能存储等环境一键获取,并实现计算、网络、数据隔离以保障业务安全。
L1层PODsys:开源、高效、兼容、易用的智算集群系统环境部署方案。聚焦智算集群部署场景,从OS、驱动到系统监控可视化、资源调度等集群系统环境要素全面覆盖,选用最稳定和广泛兼容的软件版本,通过一系列脚本工具简化部署过程,缩短算力上线周期,并可向企业用户提供实施安装服务和集群性能校准的专家服务。
L2层AIStation:面向大模型开发的商业化人工智能算力调度平台。针对大模型训练中常见的训练中断难题,可实现训练异常快速定位,断点自动续训:通过快速定位芯片、网卡、通讯设备异常或故障,实现全局训练暂停保持,热备算力自动弹性替换,健康节点快速CheckPoint读取,实现断点自动续训。
L3层YLink:面向大模型数据治理、预训练、微调的高效工具链。聚焦于大模型的数据治理、预训练、微调等开发过程,集成了浪潮信息在大模型研发中的自研工具和开源工具,如数据处理工具包(Y-DataKit)、大模型训练工具包(Y-TrainKit)和大模型微调工具包(Y-FTKit)等等,通过这些多样且完善的工程化、自动化工具,加速大模型的训练和开发效率。
L4层MModel:提供多模型接入、服务、评测等功能的纳管平台。核心组件包括数据集管理、模型纳管和评测,可以方便开发者和研究人员更好地管理多版本、多类型的基础大模型与任务模型,并通过多样化的评测数据集与评测任务,对多个模型进行生成准确率、推理延迟、推理稳定性等指标进行全面评估。
浪潮信息高级副总裁、AI&HPC总经理刘军表示:“OGAI提供完善的工程化、自动化工具软件堆栈,将帮助更多企业顺利跨越大模型研发应用门槛,充分释放大模型创新生产力。浪潮信息将通过智算系统软硬件高度协同进行持续创新,持续培育繁荣元脑生态,推动实现‘助百模,智千行’,加速生成式AI产业创新。”
(大众报业·大众日报客户端记者 王健 实习生 仝莎 报道)
关键词: