新闻 动态 ·
News Center
关注我们 关注前沿

英特尔助力金山云EPC为地平线提供深度学习基础设施

发表日期:2018-12-06        文章编辑:         阅读次数:

背景
人工智能(Artificial Intelligence, AI)技术的突飞猛进,使其产业规模也获得高速成长,吸引大批优秀团队跻身其中。一项数据表明:“截至2017年12月,全球范围内总计2,075家与AI技术有关公司的融资总额已达65亿美元”。作为其中著名的AI独角兽企业,地平线* (Horizon Robotics*)基于其自主研发的AI芯片和算法软件,以智能驾驶、智慧城市和智慧零售为主要应用场景,致力于为用户提供高效、开放的应用解决方案,为多种终端设备装上智慧“大脑”。

作为一家年轻的创业企业,地平线从成立伊始就因其在AI芯片与算法领域方面的超前研究而备受瞩目,成为投资人眼中的宠儿。2017年,地平线完成了由英特尔旗下英特尔® 投资(Intel® Capital)领投的近亿美金A+轮融资。对于此项投资,英特尔全球副总裁丹尼尔·麦克纳马拉尔(Daniel McNamara)表示:“地平线汇聚了一批经验丰富的人工智能人才,他们在自动驾驶和人机交互界面等应用领域尤为专业。英特尔的FPGA结合地平线的开放式技术融合模式,将为客户提供一个既灵活又低功耗的计算平台。”

“面对即将到来的AI时代,地平线致力于以高性能的AI算法与芯片,为用户提供高效、开放的AI应用解决方案。在我们构建深度学习基础设施的过程中,英特尔与金山云一起,以多种高性能软、硬件产品和技术,为我们的深度学习系统提供了强有力的支撑。尤其是英特尔® 傲腾™ 固态盘的加入,使Ceph分布式存储系统的性能大大提升,帮助地平线兼顾了高性能与大容量的需求。”地平线研究院副院长张健说。

地平线构建深度学习平台面临的挑战
人工智能(Artificial Intelligence, AI)技术的突飞猛进,使其产业规模也获得高速成长,吸引大批优秀团队跻身其中。一项数据表明:“截至2017年12月,全球范围内总计2,075家与AI技术有关公司的融资总额已达65亿美元”。作为其中著名的AI独角兽企业,地平线* (Horizon Robotics*)基于其自主研发的AI芯片和算法软件,以智能驾驶、智慧城市和智慧零售为主要应用场景,致力于为用户提供高效、开放的应用解决方案,为多种终端设备装上智慧“大脑”。

作为一家年轻的创业企业,地平线从成立伊始就因其在AI芯片与算法领域方面的超前研究而备受瞩目,成为投资人眼中的宠儿。2017年,地平线完成了由英特尔旗下英特尔® 投资(Intel® Capital)领投的近亿美金A+轮融资。对于此项投资,英特尔全球副总裁丹尼尔•麦克纳马拉尔(Daniel McNamara)表示:“地平线汇聚了一批经验丰富的人工智能人才,他们在自动驾驶和人机交互界面等应用领域尤为专业。英特尔的FPGA结合地平线的开放式技术融合模式,将为客户提供一个既灵活又低功耗的计算平台。”

“面对即将到来的AI时代,地平线致力于以高性能的AI算法与芯片,为用户提供高效、开放的AI应用解决方案。在我们构建深度学习基础设施的过程中,英特尔与金山云一起,以多种高性能软、硬件产品和技术,为我们的深度学习系统提供了强有力的支撑。尤其是英特尔® 傲腾™ 固态盘的加入,使Ceph分布式存储系统的性能大大提升,帮助地平线兼顾了高性能与大容量的需求。”地平线研究院副院长张健说。

深度学习的动力引擎:金山云EPC
为了应对深度学习系统日益增长的计算力和存储能力需求,除了自建IDC以外,地平线也将目光投向日趋成熟的云服务。通过与金山云开展一系列的沟通与技术交流,地平线认为通用的云服务并不完全契合自身的应用需求。这其中的原因,固然有数据安全性、信息敏感性方面的顾虑,但更重要的是,通用云服务无法为地平线AI应用提供其所需的某些特定性能指标,例如更高的算力和IOPS。

为帮助地平线构建高效的深度学习平台,国内领先的公有云服务提供商金山云* 为之提供了基于高性能云物理主机*(Elastic Physical Cloud,以下简称EPC*)集群的模型训练计算平台。同时,金山云也联手英特尔,借助英特尔领先产品和技术提供的强大计算、存储和网络性能,为这一深度学习平台构建了基于Ceph* 的高性能分布式存储系统。借助英特尔® 傲腾™ 固态盘 DC P4800X与传统HDD硬盘组合构建的分层存储能力,使得地平线深度学习平台存储系统在读写速度、存储容量以及成本控制方面都获得了可观的收益。

金山云提供的EPC云服务显然更适于地平线的要求,如图1所示。EPC是金山云基于裸金属服务器理念构建的创新型云服务产品,其可为地平线提供性能卓越的独享物理服务器,通过安全、稳定、便捷的计算、存储服务帮助地平线快速构建高性能的深度学习应用平台。同时,金山云优秀的云网络架构,也能让地平线可以在云环境中方便地配置和使用物理服务器,既享受独享物理服务器带来的高性能,也能方便地获取负载均衡、弹性IP等各类网络服务,并可进行便捷的网络部署与管理。

图1. 金山云EPC集群构成示意图
除了向地平线深度学习应用提供强有力的计算力支撑,金山云EPC另一个重要任务是为其提供高效、可扩展的存储系统。为应对不断扩展的海量训练数据集,地平线利用金山云EPC提供的弹性、易扩展能力,构建了基于Ceph的高性能分布式存储系统。

作为业界流行的开源分布式存储系统,Ceph可将文件分割后均匀随机地分散在各个OSD节点上,并采用CRUSH算法来确定文件的存储位置。通过解析集群的拓扑结构,地平线深度学习应用可以直接计算出文件的存储位置,直接跟OSD节点通信获取文件,而无需通过询问中心节点来获取文件位置。

这一“去中心化”的设计,不仅大大地提升了数据访问与处理性能,更有效降低了金山云 EPC存储集群的管理复杂性,并显著提高了可用性及可扩展性。同时,其采用存储节点与访问节点分离的设计,也使得地平线深度学习应用的IO请求上升时,可为其单独扩充访问节点来提高读写性能,从而带来良好的弹性扩展能力。另外,Ceph还对固态盘,以及分级存储有着良好支持,这也能够有效地提升数据读写效率。

基于英特尔® 固态盘的分级存储方案
在利用深度学习方法研发AI芯片和算法过程中,地平线面临着海量的数据处理需求。如前所述,以自动驾驶为例,每天的路面数据量高达4 TB,这就需要存储系统具有足够的容量。同时,这些数据通常是以几十KB大小的小文件形式存在。当地平线需要利用这些数据进行深度学习所需的数据处理与训练时,对存储系统的IOPS性能有着非常严苛的要求。

囿于磁盘访问速度的限制,传统HDD机械硬盘的IOPS性能并不理想,在应对地平线深度学习应用所需的小文件高频次读写需求时,往往难以胜任。全固态盘模式固然可以带来高IOPS能力,但目前其相对昂贵的价格也构成了巨大的成本压力,限制了存储系统在容量方面的扩展需求。

分级存储是缓解性能与容量这对矛盾的有效手段。在金山云EPC存储集群采用的分级存储方案中,如图2所示,非活动数据(冷数据)被存放在由12块8 TB容量HDD硬盘组成的存储池中,而活动数据(热数据)则被置放在甶375 GB版本的英特尔® 傲腾™ 固态盘DC P4800X构成的缓存区中。

图2. 英特尔® 傲腾™  固态盘+HDD构建的分级存储模式
来自英特尔® 固态盘数据中心产品家族的英特尔® 傲腾™ 固态盘DC P4800X是基于创新的英特尔® 3D XPoint™ 技术,以及一系列先进系统内存控制器、接口软硬件构建的全新存储产品。与传统NAND介质的固态盘相比,其在IOPS、低延迟以及稳定性方面都有着突破性的提升。一项测试数据表明,英特尔® 傲腾™ 固态盘DC P4800X的IOPS最高可达500,000,同时读取响应时间低于30微秒,并可承受最高2 GB/秒的随机写入压力,因此非常适用于大数据、高并发的应用场景。英特尔® 傲腾™ 固态盘在耐用性上也有出色表现,英特尔® 傲腾™ 固态盘 DC P4800X的每天写入次数(Drive Writes Per Day, DWPD)高达30,有力地保障了地平线深度学习系统的有效生命周期。

当地平线深度学习应用对数据进行访问和操作时,Ceph分布式存储系统的内部处理器将优先读写缓存区中的数据,如果数据不在缓存区中, Ceph会通过请求命中算法、缓存刷写算法、缓存淘汰算法等方式将数据从存储池中“提取”到缓存区中。通过这一方式,既可使热数据被高效地访问和操作,缩短数据的访问时延,也能以更合理的成本承载地平线深度学习应用所需的海量数据。

这一分级存储方案同样也被地平线用于Journal。Journal是Ceph分布式存储系统最重要的安全机制之一,一旦发生停电、宕机或其他意外事件时,Ceph可利用Journal进行系统重建。这样的特性,意味着Ceph会事无巨细地将数据记录到Journal中,因此Journal的IO请求非常密集,而采用英特尔® 傲腾™ 固态盘来承载Journal,无疑将使Ceph的读写性能获得显著提升。

来自地平线的反馈表明,与上一 代 SATA固态盘产品 ,例如英特尔® SATA固态盘S3510 (480 GB规格)相比,英特尔®傲腾™ DC P4800X (375 GB规格)能实现非常可观的性能提升。而与采用了NVMe接口规范的英特尔® 固态盘DC P3700(400 GB规格)相比,其性能提升也很显著,可为地平线深度学习应用带来强劲的存储能力支撑。

结论
数据与算力、算法,并列为AI的三大核心要素,一个高效、强力的存储系统无疑将有利于提升整个AI系统的研发和应用效率,这意味着AI领域的数据科学家、应用幵发者,以及使用者,都需要耗费较多的精力在数据处理上。通过金山云EPC及英特尔® 傲腾™ 固态盘等先进产品与技术的引入,地平线深度学习应用的总体效率获得了大幅提升,有力地推动了地平线基于深度学习的芯片与算法的研发进程。

在本案例中引入了英特尔为提升存储系统缓存性能而开发的专项技术——英特尔® 高速缓存加速软件(Intel® Cache Acceleration Software,英特尔® CAS),该技术已在大量的实践部署中被证明可进一步提升分级存储的效能。同时,金山云EPC在地平线深度学习系统上的成功应用,也为裸金属服务这一新兴的云服务模式在AI研发领域中的落地积累了宝贵的经验,为云服务如何高效地助力AI研发提供了有益的范例。在未来,地平线、金山云和英特尔三方还将继续开展更深层次的技术合作,将更多先进产品与技术纳入到深度学习研发中去。

文章摘自英特尔精英汇

 

想购买及了解更多英特尔产品详情,欢迎咨询以下联系方式!

宝通集团联系方式

咨询热线:0755-88603572

宝通官网:www.ex-channel.com
客户垂询邮箱:cuifang.mo@ex-channel.com

客户垂询QQ1627678462

地址:深圳市福田区深南大道1006号国际创新中心C11

邮编:518026

电话:0755-82964380
邮件:ex-channel@ex-channel.com
地址:深圳市福田区深南大道1006号国际创新中心C座11楼

  • 官方微信

  • 官方微博
  • 服务热线

    0755-83647532

    微信服务号

    [!--page.stats—]