剖析英特尔Core Ultra处理器关键特色

2023-10-29 06:10:15 字數 3254 閱讀 8683

英特尔在**core ultra处理器芯片中,不只内置cpu、gpu,还集成了一个可用于推论加速的ai引擎npu,来提高这款处理器对于生成式ai的处理能力,还采用了许多创新的设计方式,提升其性能和降低功耗。

在core ultra处理器所内置的这个npu神经处理单元的前身,来自英特尔旗下movidius公司所设计的视觉运算单元(vpu),英特尔将其集成到core ultra处理器中,并以npu为名,以提高行动pc的ai推论处理能力。在9月举办的年度创新日上,英特尔也首度披露关于这个npu更多技术细节和架构。

新处理器内置npu,在ai加速推论和节电表现优于cpu,功耗也远低于gpu

英特尔表示,内置npu的core ultrae处理器,能够以更省电方式提供低功耗的ai推论能力,相较于前一代处理器,当执行ai工作负载时,可以获得高达8倍功耗效率的改进,特别适用于处理需要持续性的ai应用或ai卸载任务。

尽管目前英特尔尚未公布这颗npu的确切ai算力,但从英特尔公布的测试数据,能够一窥这个npu在ai任务方面的表现。

根据英特尔的内部测试,在使用core ultra笔记本处理stable diffusion图像生成模型推论,进行20次迭代的图像生成任务时,分别在cpu、gpu、npu执行,结果显示不论在处理时间或功耗方面,npu的表现都优于cpu,甚至功耗也远低于gpu。例如npu上执行所有任务需要20.7秒,仅是cpu处理时间的不到一半,同时功耗更降低了75%,只有10瓦,大大提高了能源效率,甚至优于37瓦的gpu,整体效率更提升了7.8倍。若将npu与gpu结合使用,处理时间还能进一步缩短,仅需11.3秒。

实际处理ai任务时,英特尔表示,npu除了将与cpu、gpu协同合作,以加速ai工作负载,还能根据任务的类型来分配适合的硬件资源处理,满足不同应用场景的需求。例如对于执行低延迟的ai应用,需要处理轻量且单一模型的推论任务时,因为不需要复杂运算和大量内存,这些任务将由cpu来执行。若是需要大量并行计算和高吞吐量处理的ai任务,就会使用gpu处理。至于需要持续处理的ai任务,例如**生成等,可以利用低功耗的npu来完成。借由这种协同工作的方式,在不同ai任务之间达到性能和能耗优化。

翻新行动pc处理器架构,采用模块化、多晶砖设计

相较以往的行动pc处理器,core ultra处理器采用了许多创新的设计方式,例如这款处理器采用了新的系统单芯片(soc)架构,也就是模块化、多晶砖(tile)架构,由soc、运算、绘图、i/o等多个晶砖组合而成,同时将不同功能的cpu、gpu、npu集成到单一的soc芯片中。此外,还能通过一组带宽高达128gb/s的scalable fabric高速信道与内部各组件,包括npu、绘图、**和**组件及i/o晶砖等进行连接,借此缩短数据交换的时间。

core ultra处理器采用intel 4制程(相当于台积7纳米制程),并且使用了性能核心(p-core)和效率核心(e-core)的性能混合架构来设计cpu,最高配置可达14核心(6个p-core和8个e-core),兼具有高性能和省电的特性。此外,还改善核心调度方式,达到更高cpu利用率。还搭配性能更强的gpu,每瓦的性能比前一代iris xe gpu高出2倍。

在这系列处理器中,还采用了foveros先进封装技术,通过3d堆栈,实现不同功能的芯片堆栈,不论是芯片连接密度、能源效率和传输速度都大幅提升不少。

电源管理采用模块及弹性架构,实现能源使用效率优化

在电力管理上,英特尔在这款处理器中创建了模块化和可扩展的pm电源管理架构,可提高带宽和能源效率。在i/o接口设计上,英特尔采用新做法,取代过去仅靠**的ring fabric信道进行数据交换的做法,改直接通过soc内的soc fabric信道来与内存控制器、**等不同组件连接,让数据传输过程减少拥塞的情况。此外,也支持了最新pcie 5.0与thunderbolt 4 。

core ultra处理器将在12月14日推出,宏碁将率先推出该处理器的行动pc。

英特尔ceo:不只行动pc,未来服务器cpu设计得有新变革,应对生成式ai应用需求

摄影_余至浩。

生成式ai在今年掀起一股新的ai风潮,不少大型云计算企业、科技公司都在今年大规模部署gpu服务器,用来训练自己的llm模型,然而,如今的芯片设计主要是针对云计算需求而非专门为llm模型训练而设计,这导致llm模型的训练成本非常庞大。以openai的gpt-3模型为例,该模型拥有1,750亿个参数,需要庞大算力,训练成本高达165万美元。使用gpt-3开发的chatgpt在推论方面的成本更高,每月烧掉4千万美元。这不仅大大增加了企业成本,对地球资源、环境可持续发展性也可能产生影响。

在9月英特尔创新日会后一场记者会上,英特尔首席执行官pat gelsinger明白表示,未来服务器芯片发展需要新变革,来应对生成式ai的应用需求,集成更多先进技术,包括先进晶体管技术、先进封装技术、先进通信及先进内存技术等。尤其,他特别点出,如今的芯片封装技术是阻碍ai发展的一大瓶颈,得加以解决。

经过一段时间的研发,英特尔近日发布可用于下一代先进封装的玻璃基板,与传统的基板相比,这种新型基板可以大幅提升半导体封装的晶体管数量,而且具备有省电和更好的散热特性,可用于封装生成式ai芯片。这项技术最快3年后开始量产。

又以先进内存技术为例,英特尔开始支持mcr dimm规格的内存,如明年将推出的granite rapids处理器,就已导入这项技术,借以增加服务器平台的内存带宽,以满足数据密集型的的工作负载,如llm模型参数训练所需的内存。在硅(silicon)架构上,英特尔引进3d硅堆栈设计,以提供更高的处理性能,来满足llm模型的运算需求。

近年来,许多企业应用程序中都开始结合ai功能,这也使处理器中提供ai支持能力变得越来越重要,pat gelsinger表示,这是英特尔决定要构建ai产品线的原因,除了将ai技术带来行动pc之外,英特尔还有两大人工智能产品,分别是xeon可扩展处理器和ai训练加速器gaudi。

英特尔在第4代xeon可扩展处理器中开始内置了amx高端矩阵延伸功能,使得它能够针对在cpu上执行的ai算法进行加速,尤其在处理大型语言模型等工作负载时,搭配xeon max系列可提供高达20倍的加速性能。英特尔明年还将有一款主打高性能的granite rapids服务器处理器将推出,将进一步提升其ai处理性能。

针对ai模型训练,英特尔则是推出了ai训练加速器gaudi,目前已发展到了第二代产品,搭载更多张量处理器核心与hbm。根据测试结果,在执行多模态的bridgetower模型的性能表现上,gaudi2性能表现优于去年发布的nvidia h100 gpu,有高达1.4倍。此外,下一代gaudi3很快将在明年推出,甚至还有一款支持双精度浮点运算(fp64)的falcon shores gpu未来将问世。

英国税务问题剖析 全球企业在英国开展业务的税务指南

英国对其居民的全球收入和收益征收企业和个人所得税以及资本利得税。在英国开展业务 有权获得来自英国的收入或持有英国土地或建筑物权益的非居民也可能需要缴纳英国税款。尽管英国没有完全的联邦制 但某些税务事务的权限已从英国议会下放至苏格兰和威尔士的权力下放 英国对从英国收取某些利息 租金或特许权使用费的非居...

英特尔第14代处理器助力DDR5内存以5809 2 MHz打破频率世界纪录

英特尔的第代 raptor lake refresh 处理器自问世以来,就在全球范围内引起了一场技术革新的热潮。这一全新的处理器不仅在性能上实现了卓越的突破,更在超频领域留下了浓厚的一笔。借助于新一代ddr内存技术,超频达人纷纷展现出令人惊叹的超频技巧,将ddr内存的频率推向了前所未有的高度。在众多...

英特尔CEO 芯片战争处于危险时刻

赚赚训练营 英特尔首席执行官表示,芯片霸主之战正处于危险时刻。他对美国能够获胜持乐观态度,但这需要行业和 之间采取协调一致的计划。英特尔首席执行官帕特 基辛格表示 石油储备决定了过去五年的政策和世界地缘政治,如今技术 链是关键。未来五年,制造和研发更加重要。因此,让我们将它们构建在我们想要的地方。基...