领域:高通追求最快

芝能智芯出品

在芯片和消费电子领域的激烈竞争中,高通一直以来都在不断发力,力求在芯片性能上占据领先地位。高通对其SnapdragonX系列的细节逐步披露,显示出其对于拥有最快NPU(神经处理单元)的强烈渴望。

Part1

NPU的核心

当前,AI算力已成为各厂商关注的核心焦点,英特尔LunarLake的更多细节,其中NPU成为重要一环。当这款处理器于第三季度上市时,将提供超过45个TOPS(每秒万亿次操作),这使得英特尔在这方面与高通持平。

AMD规划的StrixPoint也能达到39 TOPS,三家制造商在这一指标上处于相似水平。

对于所有制造商而言,NPU作为专用硬件,专为特定计算任务设计,旨在实现高效处理。不过,根据具体任务和数据类型的不同,某些计算仍需依靠CPU内核和GPU来完成。

高通SoC的HexagonNPU是芯片的一部分。

相比之下,英特尔的NPU位于SoC模块中,AMD的则位于带有CPU内核的单片芯片上。

回顾高通的发展历程,其NPU已经演进到了第三代。在2004年,它们主要处理音频信号,属于DSP(数字信号处理器)。

而从2014年开始,NPU的速度比DSP快了十倍。如今的NPU更是在速度上实现了又一个十倍的提升,从而能够承担更复杂、更深入的任务。

就NPU的应用领域来说,目前很大程度上还局限于视频会议中的滤镜,以及图像和视频编辑中的部分效果。

为了提高NPU的效率,高通采取了多种措施。

其中,尽快连接到SoC的内存子系统是关键之一。同时,标量和矢量单元具备以不同精度级别进行计算的能力,除了FP16外,还规划了A8W4、A8W8和A16W8等数据类型,精度涵盖4位、8位和16位。

通过多个PTQ(训练后量化)和QAT(量化感知训练)来补充,即使数据格式有所减少,仍能保证准确性。开发人员可以利用HMX(六边形矩阵扩展)和HVX(六边形矢量扩展)来优化计算,借助微平铺划分张量处理器中的计算单元,实现多个计算的同时进行。

HexagonNPU能够同时运行六个线程。

相关数据理想状态下位于NPU的L1和L2缓存中,但必要时也可以使用连接的LPDDR内存,只是这样会导致额外的延迟,应尽量避免。

在ProcyonAI基准测试中,SnapdragonXEliteX1E-80-100的NPU速度几乎是MacBookPro中M3的两倍,IntelCoreUltra7155H则明显落后。

同时,高通的SoC功耗仅为7.6W,而M3为9.7W,英特尔的CoreUltra处理器更是达到11W。

Part2

高通的测试表现

高通在进行比较时,只能使用已有的基准测试硬件,与英特尔的MeteorLake、AMD的Ryzen7000和苹果的M3等进行对比。而当相关笔记本电脑上市后,新的继任产品也会很快出现。从纸面上看,高通所提供的技术数据和性能值表现出色。

尽管一些新闻代表已经被允许运行部分基准测试,但这些参考系统是在高通定义的环境中提供的,且只允许运行制造商选定的基准测试,所以不能称之为独立的价值评估。

高通终于逐步揭开了其技术的神秘面纱,对于很多用户来说,领域:高通追求最快NPU的份额在一开始可能并非关键因素。PU的强大性能可能意味着在处理特效和滤镜时能够极大地提高工作效率,节省时间。但对于普通消费者,可能更关注的是整体的使用体验、电池续航等方面。

小结

高通在追求最快NPU的道路上不断努力,但在市场接受和实际应用效果方面,仍有待时间和更多独立测试的检验。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文

楚惟

这家伙太懒。。。

  • 暂无未发布任何投稿。