当前位置: 网站首页 技术文章 正文

高通用异构计算和低功耗NPU加速终端AI发展

来源:互联网 发布时间:2024-09-19 20:48:23

9月6日,2024年度全球AI芯片峰会在京隆重开幕。作为国内最具规模与影响力的行业盛会,此次峰会以“智算纪元 共筑芯路”为核心议题,汇聚了50余位来自AI芯片、Chiplet技术、RISC-V架构、智算集群及AI基础设施系统软件等领域的权威专家,共同探讨AI芯片如何构建智能计算的新篇章。

高通用异构计算和低功耗NPU加速终端AI发展

在本次大会上,高通公司的中国区AI产品技术负责人万卫星先生应邀出席,并发表了题为“终端侧AI创新引领智能计算新时代”的精彩演讲。他指出,高通一直致力于AI技术的研发,面对生成式AI迅猛发展的趋势,其领先的SoC解决方案不仅拥有异构计算体系和高性能低功耗的NPU,更能满足各类生成式AI应用场景下的计算需求与能耗挑战。借助于第三代骁龙8移动平台及骁龙X Elite计算平台,高通正推动终端侧生成式AI的应用,标志着这一技术领域的崭新时代已然来临。

演讲内容如下:

各位同仁,上午好!感谢主办方给予的机会,让我有幸代表高通与各位分享我们在生成式AI领域的探索与成果。今天我演讲的主题是“终端侧AI创新引领智能计算新时代”。作为一家专注于AI加速技术的芯片企业,高通开发了高算力且低功耗的NPU,旨在满足AI应用日益增长的需求。

回顾NPU的发展历程,我们可以看到一个由顶层AI应用驱动底层硬件设计演变的过程。早在2015年前后,AI主要应用于语音识别、图片分类等领域,那时的NPU便集成了标量与矢量加速器。进入2016年后,计算摄影技术兴起,NPU的研究方向扩展至图片和视频处理,引入了张量加速器,以应对更复杂模型如Transformer的需求。

2023年以来,大规模语言模型特别是基于Transformer架构的模型成为主流。为此,高通为NPU增加了更多硬件加速模块,并采用独特的微切片推理技术,确保模型在终端设备上的高效运行。今年早些时候,高通在MWC巴塞罗那2024上展示了搭载第三代骁龙8移动平台的设备上运行的多模态大模型(LMM),该模型参数超过70亿,完全能够在本地设备上执行。

展望未来,高通计划支持更大规模的语言模型,有望在年内实现超过100亿参数的大模型本地化运行。在终端侧运行生成式AI模型的优势在于其成本效益、个性化体验以及至关重要的隐私保护。由于终端设备如手机、电脑等往往存储着用户的私人数据,本地处理这些数据可以有效避免数据泄露的风险。

虽然大家熟知的高通Hexagon NPU常与骁龙平台的智能手机联系在一起,但实际上,高通的产品线涵盖了汽车、物联网、PC、可穿戴设备等多个领域。高通不仅提供硬件支持,还有统一的AI软件栈,便于OEM厂商和开发者在不同平台上部署和优化模型。

第三代骁龙8平台的Hexagon NPU采用了张量、矢量、标量三大加速器,配合大容量片上内存,实现了高效的神经网络推理。为了达到最佳性能与能效,高通不断迭代微架构设计,并优化电源管理方案,确保设备在运行AI任务时的稳定性和长续航。

此外,高通还开发了超低功耗的传感器中枢,专为始终在线的任务如手势识别、语音唤醒等提供支持。通过异构计算系统,高通能够满足不同类型AI应用的需求,无论是需要即时响应的任务,还是持续处理的任务,亦或是始终在线的任务。

目前,市场上已有众多搭载第三代骁龙8和骁龙X Elite平台的产品问世,例如支持实时翻译的三星Galaxy S24 Ultra、具备AI消除功能的OPPO Find X7 Ultra以及拥有智慧成片功能的荣耀Magic6系列。这些设备不仅丰富了消费者的娱乐生活,还提高了工作效率。

高通的SoC解决方案集成了多种处理器,能够协同工作,为用户提供全面的AI服务。我们坚信,终端侧生成式AI时代已经到来,并将继续推动该领域的发展。最后,我想预告一下,下一代骁龙移动平台将于10月21日至23日在骁龙峰会上发布,敬请关注。

相关教程