人工智能算力网络 第6部分:云际管理与调度.pdf

人工智能算力网络 第6部分:云际管理与调度.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

人工智能算力网络第6部分:云际管理与调度

1范围

本文件规定了人工智能算力网络(简称“智算网络”)的云际管理与调度的软件参考架

构,规定了云际资源管理和作业调度的技术要求和调度策略要求。

本文件适用于人工智能算力网络中云际管理与调度相关功能的设计和开发。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期

的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括

所有的修改单)适用于本文件。

GB/T41867-2022信息技术人工智能术语

3术语和定义

GB/T41867-2022界定的以及下列术语和定义适用于本文件。

3.1

数据中心datacenter

一种能够提供容纳、互联和操作的结构,或结构组。它使用信息技术、电信网络设备提

供的数据存储、处理、迁移服务及其它所有功能,并集成能量供应、环境控制和为保证服务

可用性而制定的必要的韧性、安全性级别定义。

注1:数据中心结构一般包含数个楼宇或空间,用以支撑数据中心主要功能。

注2:包含数据中心中信息及通信技术设备及支撑环境控制设备边界或空间,定义于更大的结构或楼宇

中。

[来源:ISO/IEC22237-1:2021,3.1.8]

3.2

计算中心computingcenter

为多用户提供计算服务的设施。用户的操作通过对计算设备及辅助硬件的操作及中心人

员的服务实现。

[来源:ISO/IEC/IEEE24765:2017,3.741]

3.3

人工智能计算中心artificialintelligencecomputingcenter

智算中心

一种能够为多用户提供人工智能计算服务、数据容纳的结构或结构组。使用信息技术、

电信网络设备提供的数据存储、处理、迁移,人工智能计算加速等功能,并集成能量供应、

环境控制和为服务可用性而制定的必要的可靠性组件。

1

注1:人工智能计算中心一般包含数据中心可能涉及的楼宇或空间,用以支撑人工智能计算中心主要功

能。

注2:人工智能计算中心中的服务器,一般包含人工智能服务器和通用服务器等,服务器称为“节点”。

[来源:ISO/IEC22237-1:2021,3.1.8和ISO/IEC/IEEE24765:2017,3.741,有修改]

3.4

算力网络computingnet

一种为用户提供计算资源的设施。通过网络技术将各地的计算中心连接起来,进而统筹

分配和调度计算任务的网络。算力网络基于统一的算网资源视图,为业务和应用提供算力和

网络融合保障和调度。

[来源:ITU-TY.2501,6,有修改]

3.5

人工智能算力网络artificialintelligencecomputingnet

智算网络

一种为多用户提供人工智能计算资源及服务的平台。通过新型网络技术将各地分布的人

工智能计算中心连接起来,构成多个中心间感知算力、数据、算法资源,进而统筹分配和调

度人工智能计算任务的网络。

3.6

云际jointcloud

通过网络将不同云实体进行整合、供应和管理。

[参考:GB/T40690-2021,有修改]

3.7

资源resource

系统具有的有限可用性的组件,常见的资源类型包括:CPU、GPU、内存、显存、磁盘大

小、磁盘带宽、网络带宽、网络延迟、网络端口、I/O操作等。

3.8

作业job

人工智能训练或推理任务的逻辑组合。

注1:一个作业包括一个或多个任务。

[参考:ISO/IEC2382:2015,有修改]

3.9

任务task

被调度的训练/推理对象。

注1:任务用于完成一个相对独立的业务功能。一个任务属于且仅属于一个作业。

[参考:ISO/IEC2382:2015,有修改]

2

3.10

子任务sub-task

根据任务内在逻辑关系拆分形成的较小任务单元。

3.11

作业负载workload

智算中心正在运行的作业数量。

4缩略语

文档评论(0)

**** + 关注
实名认证
内容提供者

资料大多来源网络,仅供交流与学习参考, 如有侵犯版权,请私信删除!

1亿VIP精品文档

相关文档