1+1>2!AI容器云+AI算力池化联合方案,助力业务发展及创新
- +1你赞过了
??在“新基建”时代,为帮助更多人工智能客户优化底层算力,提升整体资源利用率,超益集伦与趋动科技共同认可、达成全方位深入合作,将通过技术、业务、市场资源对接,进一步针对客户诉求与行业痛点,以技术创新降低TCO(Total?Cost?of?Ownership),助力客户的业务发展与科研创新突破。
??人工智能基础设施作为“新基建”的重要组成部分,是赋能产业和经济社会发展的关键载体,近两年来得到了国家的重点关注与大力支持。但随着相关建设的推进与深入,如何提高计算资源的利用率;如何提升计算设备的平均使用时长、效率最大化地完成训练任务量;如何解决项目组间资源抢占、保障资源使用公平合理等一系列问题正逐渐浮现。
GPU资源池化、资源管理与智能调度技术的探索
??为解决这些问题,GPU虚拟化、GPU资源池化、资源管理、智能调度等技术应需而生。目前市面上常见的GPU虚拟化方案,多是将单GPU资源固态切分,分给不同的用户使用。这种解决方案在一定程度上提升了资源的利用效率,但仍存在不能灵活调度、多机资源整合难的问题。
??而GPU资源池化技术不但可以解决以上难点,还能成熟地实现远程调度、GPU性能损耗控制等功能,进一步解决低算力、多并发需求场景下面临的资源分配难题。
??对算力资源的高效管理与智能调度,也是提升整体资源利用率的关键所在。借助可视化技术,资源管理与智能调度软件可以对用户情况、GPU分布及使用情况进行精准监测,实时动态调整CPU、Memory、GPU资源,保障资源的按需分配,最大化提高资源使用效率;同时通过任务最优分布,用户可以实现任务、节点资源优先级设定,避免用户资源抢占等现象。
??*加速比?=?n个OrionX?vGPU运行速度?/?单个OrionX?vGPU运行速度,随着batch?size增大,计算占比增加,则加速比不断增加,计算效率越高
??*超益集伦+趋动科技联合测试结果
??由测试可见,GPU资源池化技术通过软件重新定义算力、划分算力资源的方式,可以实现对AI计算资源的灵活调度、跨域共享、远程调度等目标,是提升整体资源利用率的最佳解决方案之一。
技术整合,生态共赢
??由超益集伦与趋动科技共同发起的AI?Max人工智能容器云平台及OrionX?猎户座AI算力资源池化解决方案的深入融合项目已启动,目前正着手于平台融合下的GPU资源池化与切分、跨节点资源聚合与调用等难点攻克。
??我们旨在联合打造一个集成“服务器硬件?+?软件定义算力资源?+?上层机器学习平台”?的全新软硬件一体化解决方案,以帮助客户实现更高效的资源利用与管控。该融合解决方案预计将于2022年Q1完成整体开发及硬件兼容性测试,并在2022年Q2正式联合发布。
??超益集伦与趋动科技联合解决方案的推出,必将为产业带来更好的加速创新与驱动变革,为双方客户及教育、科研、金融、医疗、能源等行业带来更完善的人工智能解决方案应用服务。
趋动科技OrionX解决方案
??由趋动科技自主研发的OrionX?猎户座AI算力资源池化解决方案,先后荣获“2020新基建与行业创新应用优秀解决方案”、“2020智慧高校解决方案卓越奖”,可为客户打造GPU资源池,方式灵活高效,既能支持推理场景,又能支持训练场景。AI开发人员不必再关心底层资源使用状况,AI应用也无需修改,OrionX让应用开发变得更加便捷和高效。
??1、高利用率
????支持将?GPU?切片为任意大小的?OrionX?vGPU,从而允许多?AI?负载并行运行,提高物理?GPU?利用率。
????提高?GPU?综合利用率多达?3-10?倍,1?张卡相当于起到?n?张的效果,真正做到昂贵算力平民化。
??2、高性能
????相比于物理?GPU,本地?OrionX?vGPU?性能损耗几乎为零;远程?OrionX?vGPU?性能损耗<2%。
????OrionX?vGPU?资源隔离,并行用户无资源互扰。
??3、弹性扩展
????支持从单台到整个数据中心?GPU?服务器纳管,轻松实现?GPU?资源池的横向扩展。
????全分布式部署,通过?RDMA(IB/RoCE)?或?TCP/IP?网络连接各个节点,实现资源池弹性扩展。
??4、灵活调度
????支持?AI?负载与?GPU?资源分离部署,更加高效合理的使用?GPU?资源。
????CPU?与?GPU?资源解耦合,两种服务器分开购买,按需升级,灵活调度,有助于最大化数据中心基础设施价值。
??5、全局管理
????提供?GPU?资源管理调度策略。
????GPU?全局资源池性能监控,为运维人员提供直观的资源利用率等信息。
超益集伦AI?Max解决方案
??由超益集伦自主研发的AI?Max机器学习平台是一款基于Docker+Kubernetes的人工智能容器云平台,曾荣获”2020全球人工智能应用博览会创新产品金奖”?、”第八届中国电子信息博览会创新奖”。
??通过可视化图形操作界面及人工智能环境封装,其可实现异构资源公平、高效、透明的管理、调度、监控及使用。它提供了从模型开发、训练到部署的完整流程和工具,能帮助客户极大地降低人工智能进入门槛,提高人工智能创新和研发效率。
??1、基础资源调度
??按照资源使用情况动态调整资源,保证任务高效分配;支持任务排队机制,任务运行完毕自动释放资源,队列中任务自动运行。
??2、镜像订制
??提供丰富的Caffe,TensorFlow,PyTorch、MxNet等主流框架;允许用户本地环境推送镜像到AI?Max内建立镜像仓库;允许用户通过Docker?Exec连接并配置镜像环境。
??3、分布式训练
??可充分利用物理资源,提高模型训练效率;RDMA协议进行网络通信和数据读写,极大提高网络带宽,保证分布式训练要求的高带宽。
??4、数据存储管理
??基于Gluster的分布式存储架构,存储容量大、容易横向扩展。
??5、交互式开发
??系统内置Jupyter,JupyterLab,PyCharm,Terminal等多种交互式开发方式
最新资讯
热门视频
新品评测