英特尔 Arc
高性能显卡

英特尔 Arc Alchemist:发布日期、规格和我们所知道的一切

CgZQajVM7asdWse8XNDLde-320-80
英特尔,作为“世界上最流行的 GPU”的低性能集成 GPU 的供应商,可能希望参与竞争吗?是的,实际上,它可以。仍有很多问题,但在英特尔在2021 年英特尔架构日透露其 Arc Alchemist GPU 架构的更多细节之后,我们谨慎地希望最终结果会比之前的尝试更好。英特尔还一直在为其驱动程序团队做准备,以解决现有图形解决方案的兼容性和性能问题。坦率地说,除了向上,无处可去。

英特尔在开拓专用 GPU 市场方面面临的困难不容小觑。AMD 的Big Navi/RDNA 2架构与英伟达的 Ampere 架构竞争自 2020 年底以来。 虽然第一批 Xe GPU 于 2020 年以Tiger Lake 移动处理器的形式出现,而 Xe DG1 于 2021 年年中出现,但没有人希望与几代之前的 GPU 竞争。总体而言,Xe DG1 的性能与Nvidia 的 GT 1030 GDDR5大致相同,后者是2017 年 5 月推出的弱汁 GPU。尽管内存是 2016 年的 GTX 1050 2GB,但它的性能也比2016 年的一半好一点。

所以是的,如果英特尔想要在专用 GPU 领域受到重视,它有一座陡峭的山峰需要攀登。以下是 Arc Alchemist 架构的细分,让我们一窥英特尔希望如何登顶。实际上,我们只是希望英特尔能够进入大本营,为未来的 Battlemage、Celestial 和 Druid 架构留下实际的顶峰。但我们将把这些留待以后讨论。

英特尔 ARC ALCHEMIST 概览

规格:高达 512 个矢量单元/4096 个着色器核心
内存:可能高达 16GB GDDR6
工艺: TSMC N6(精制 N7)
性能: RTX 3070 / RX 6800 级别,可能
发布日期: 2022 年第一季度
价格:英特尔需要有竞争力

英特尔的 Xe Graphics 愿望在 2018 年初成为焦点,首先是从 AMD聘请 Raja Koduri,然后是芯片架构师 Jim Keller图形营销人员 Chris Hook,仅举几例。拉贾是背后的驱动力AMD的Radeon科技集团在2015年11月创建的,与沿维加和Navi架构。显然,希望他能帮助带领英特尔的 GPU 部门进入新的领域。很明显,Arc Alchemist代表了数年的劳动成果。

并不是说英特尔以前没有尝试过。除了 1998 年的 i740,Larrabee 和 Xeon Phi 在 2009 年也有类似的目标,尽管 GPU 方面从未真正实现。此外,英特尔在过去几十年中稳步提高了其集成图形解决方案的性能和功能(尽管速度缓慢而稳定)。所以,第三次是魅力,对吧?

当然,打造一款优秀的GPU 远不止是说你想做,而且英特尔还有很多东西需要证明。以下是我们对即将推出的 Intel Arc Alchemist 的了解,包括规格、性能预期、发布日期等。

潜在的 Intel Arc Alchemist 规格和价格

英特尔 Xe Graphics 的这种概念渲染是对更大显卡外观的合理猜测,但绝对不是最终产品。 (图片来源:英特尔)

我们将在下面详细介绍 Arc Alchemist 架构,但让我们从高级概述开始。我们知道英特尔至少为 Arc Alchemist 计划了两个不同的 GPU 芯片,我们预计中间空间将有第三个 GPU,它使用带有更大芯片的收获芯片。配置可能多于三个,但这是我们期望看到的最少配置。这是我们期望在规格方面看到的内容。

Intel Arc Alchemist 预期规格
电弧高端 弧中档 入弧
图形处理器 弧00071 弧00071? 弧00329
工艺(纳米) 台积电 N6 台积电 N6 台积电 N6
晶体管(十亿个) ~20 ~20(部分) ~8
模具尺寸 (mm^2) ~396mm2 (24×16.5) ~396mm2 (24×16.5) ~153mm2 (12.4×12.4)
矢量引擎 512 384 128
GPU 核心 (ALU) 4096 3072 1024
时钟 (GHz) 2.0–2.3 2.0–2.3 2.0–2.3
显存速度 (Gbps) 16? 14–16 14–16
显存 (GB) 16 GDDR6 12 6 GDDR6
总线宽度 256 192 96
ROP 128? 96? 32?
TMU 256? 192? 64?
TFLOPS 16.4-18.4? 12.3-14.1? 4.1-4.7?
带宽 (GB/s) 512? 336-384? 168-192?
TBP(瓦) 300? 225? 75?
发射日期 2022 年第一季度 2022 年第一季度 2022 年第一季度
推出价格 599 美元? 399 美元? 199 美元?

随着我们在本文中深入挖掘,我们将讨论上述一些信息的来源,但我们对完整的大型和小型 Arc Alchemist 芯片的许多核心规格相当有信心。根据晶圆和芯片截图以及其他信息,我们预计英特尔将进入专用 GPU 市场(不包括 DG1),其产品涵盖整个预算到高端范围。

我们预计将使用两个芯片构建三个产品,但这可能会改变。例如,英特尔在其 CPU 内核上只有一些变体,但最终销售了数十种不同的产品。但英特尔几十年来一直统治着 CPU 世界,而其在 GPU 方面的努力却远远落后于竞争对手。因此,在我们看来,消除繁琐并专注于三个核心产品会更有意义。

实际的产品名称尚未公布,但将使用 Intel Arc 品牌。我们可以看到 Arc 1800、Arc 1600 和 Arc 1200 之类的东西大致对应于 i7、i5 和 i3 CPU 品牌,或者我们可以看到完全不同的东西。不过,现在迷失在杂草中是没有意义的,因为英特尔最终将决定并透露实际名称。

价格和一些更精细的细节是基于预期表现和市场条件的估计。当然,实际的实际性能将在确定英特尔可以为各种显卡型号收取多少费用方面发挥重要作用,但如果——这是一个非常大的假设!- 高端卡可以与 AMD 的 RX 6800 和 Nvidia 的 RTX 3070 Ti 竞争,我们预计英特尔会相应地定价。

还有另一种观点。英特尔可以降低定价,并希望在专用显卡市场上引起轰动。考虑到当前 AMD 和 Nvidia GPU 的短缺以及我们在网上商店看到的极端定价——它通常并不比我们在GPU 价格指数中跟踪的 eBay 黄牛价格好多少— 如果英特尔 GPU 的价格仅为竞争对手的一半,即使它们速度较慢,许多游戏玩家可能更愿意尝试一下。这可能有点太一厢情愿了,因为英特尔想要盈利,而对 GPU 的极端需求意味着英特尔可能不必以如此之低的价格削弱其竞争对手。

这涉及高级概述。现在让我们深入研究更精细的点并讨论这些估计值的来源。

Arc Alchemist:超越集成图形障碍

在过去的十年中,我们已经看到英特尔的集成 GPU 的理论性能基本上翻了一番。尽管有所改进,但英特尔坦率地承认,集成图形解决方案受到许多因素的限制:内存带宽和容量、芯片尺寸和总功率要求都在起作用。

虽然存在消耗高达 250W 功率的CPU——英特尔的酷睿 i9-10900K酷睿 i9-11900K都属于这一类——但最高功率约为 145W 的竞争 CPU 更为常见(例如,AMD 的 Ryzen 5000 系列)。此外,集成显卡必须与 CPU 共享所有这些资源,这意味着它通常仅限于总功耗预算的一半左右。相比之下,专用图形解决方案的限制要少得多。

考虑在Tiger Lake (TGL) 中发现的第一代 Xe-LP 图形。大多数芯片的 TDP 为 15W,即使是后一代 8 核 TGL-H 芯片也仅使用最高 45W(65W 可配置 TDP)。除了 TGL-H 还将 GPU 预算削减至 32 个 EU(执行单元),其中低功耗 TGL 芯片有 96 个 EU。

相比之下,诸如Radeon RX 6900 XTGeForce RTX 3080 Ti等顶级 AMD 和 Nvidia 专用显卡的参考设计功率预算为 300W 至 350W,定制显卡的功率预算高达 400W。

我们不知道英特尔计划在 Arc Alchemist(又名 Xe HPG)上使用多高的功率,但我们预计它会与 AMD 和 Nvidia GPU 处于同一水平——大约 300W。使用 20 倍以上的可用功率,英特尔 GPU 可以做什么?我们将知道英特尔 Arc Alchemist GPU 何时发布。

英特尔 Arc Alchemist 架构

英特尔可能是专用显卡市场的新手,但它在制造 GPU 方面绝不是新手。当前的 Rocket Lake 和 Tiger Lake CPU 使用 Xe 图形架构,这是第 12 代图形更新。早在 1998-2000 年,第一代英特尔显卡就出现在用于 370 插槽的 i740 和 810/815 芯片组中。Arc Alchemist,从某种意义上说,是第二代Xe Graphics(即整体的Gen13),每一代GPU都在以前的架构上构建,增加各种改进和增强是很常见的。Arc Alchemist 架构的变化显然足够大,英特尔已经放弃了以前架构的执行单元命名,主要构建块现在称为 Xe-core。

首先,Arc Alchemist 将支持完整的DirectX 12 Ultimate功能集。这意味着增加了几项关键技术。标题项是光线追踪支持,尽管这在实践中可能不是最重要的。还需要可变速率着色、网格着色器和采样器反馈——如果您想知道,Nvidia 2018 年的 RTX 20 系列图灵架构也支持所有这些。采样器反馈有助于优化着色器处理数据的方式,并且可以在不降低图像质量的情况下提高性能。

Xe 核心包含 16 个向量引擎(以前称为执行单元),每个引擎都在 256 位 SIMD 块(单指令多数据)上运行。矢量引擎可以同时处理 8 条 FP32 指令,在 AMD 和 Nvidia 架构中,每条指令传统上都称为“GPU 核心”,尽管这是用词不当。目前尚不清楚矢量引擎(可能是 FP16 和 DP4a)支持哪些其他数据类型,但它加入了第二个新管道,即 XMX 引擎(Xe Matrix eXtensions)。

每个 XMX 管道对 1024 位数据块进行操作,其中可以包含 64 个单独的 FP16 数据块。矩阵引擎实际上相当于英特尔的 Nvidia 的 Tensor 内核,它们也被用于类似的用途。它们提供了大量潜在的 FP16 计算性能,并且在 AI 和机器学习工作负载中应该证明非常有能力。更多关于这个下面。

Xe-core 只是用于英特尔 Arc GPU 的构建块之一。与之前的设计一样,Xe 核心的下一个级别称为渲染切片(类似于 Nvidia GPC),其中包含四个 Xe 核心块。一个渲染切片总共包含 64 个矢量和矩阵引擎,以及额外的硬件。额外的硬件包括四个光线追踪单元(每个 Xe 核心一个)、几何和光栅化管道、采样器(TMU,又名纹理映射单元)和像素后端 (ROP)。

上面的框图可能会也可能不会完全准确到单个块级别。例如,查看图表,似乎每个渲染切片包含 32 个 TMU 和 16 个 ROP。这是有道理的,但英特尔尚未确认这些数字(即使这是我们在上面的规格表中使用的数字)。

光线追踪单元可能是最有趣的补充,但除了它们的存在和它们的功能——它们可以进行光线遍历、边界框交叉和三角形交叉——我们没有任何关于 RT 单元与 AMD 射线的比较的详细信息加速器或 Nvidia 的 RT 内核。它们的整体性能是更快、更慢还是相似?我们将不得不等待硬件到手才能确定。

英特尔确实提供了 Alchemist 运行使用光线追踪的虚幻引擎演示的演示,但它用于未知游戏,在未知设置下运行……并且运行相当糟糕,坦率地说。希望这是因为这是早期的硬件和驱动程序,但请跳到来自 Intel 的Arc Alchemist 视频中的 4:57 标记以查看其实际效果。根据那里显示的内容,我们怀疑英特尔的光线追踪单元将类似于 AMD 的光线加速器,这意味着即使是顶级 Arc Alchemist GPU 也只能与 AMD 的Radeon RX 6600 XT大致媲美——这不是一个很好的起点,但随后RT 性能和采用率仍然不是大多数游戏玩家的主要因素。

英特尔使用多个渲染切片来创建整个 GPU,其中 L2 缓存和内存结构将所有内容捆绑在一起。也没有显示视频处理块和输出硬件,它们占用了 GPU 上的额外空间。Arc Alchemist 初始启动的最大 Xe HPG 配置将具有多达八个渲染切片。忽略从 EU 到 Vector Engine 的命名变化,这仍然提供了与传闻一年多的 512 EU/Vector 引擎相同的最大配置。

英特尔没有为每个渲染切片或整个 GPU 引用特定数量的 L2 缓存。不过,我们确实知道会有多个 Arc 配置。到目前为止,英特尔已经展示了一个带有两个渲染切片的芯片和一个在上面的框图中使用的带有八个渲染切片的更大的芯片。英特尔还透露,其 Xe HPC GPU(又名Ponte Vecchio)每个 Xe 核心将有 512KB 的 L1 缓存,每个堆栈有高达 144MB 的 L2“Rambo 缓存”,但这是一个完全不同的部分,Xe HPG GPU 将可能有较少的 L1 和 L2 缓存。尽管如此,考虑到 AMD 从其 Infinity Cache 中看到的好处,我们不会惊讶地看到最大的 Arc GPU 上的总缓存达到 32MB 或更多。

虽然与 Gen11/Gen12 解决方案中的 EU 相比,Intel 听起来并没有特别提高 Vector Engines 的吞吐量,但这并不意味着性能没有提高。DX12 Ultimate 包含一些也有助于提高性能的新功能,但最大的变化来自提高的时钟速度。英特尔没有提供任何具体数字,但确实表示 Arc Alchemist 的运行频率是 Xe LP 的 1.5 倍,并且还表示 Alchemist (Xe HPG) 的每瓦性能提高了 1.5 倍。总之,我们正在研究 Arc GPU 的 2.0-2.3GHz 的潜在时钟速度,这将产生大量的原始计算。

Arc Alchemist 的最高配置将有多达 8 个渲染切片,每个切片有 4 个 Xe-core,每个 Xe-core 有 16 个 Vector Engine,每个 Vector Engine 每个时钟可以做 8 个 FP32 操作。将 FMA 运算(Fused Multiply Add,图形工作负载中使用的常见矩阵运算)的两倍,然后乘以潜在的 2.0-2.3GHz 时钟速度,我们得到 GFLOPS 的理论性能:

8 (RS) * 4 (Xe-核心) *16 (VE) * 8 (FP32) * 2 (FMA) * 2.0–2.3 (GHz) = 16,384–18,841.6 GFLOPS

显然,GFLOPS(或 TFLOPS)本身并不能告诉我们一切,但顶级配置的 16-19 TFLOPS 肯定没什么值得嘲笑的。Nvidia 的 Ampere GPU 理论上具有更多的计算能力——例如,RTX 3080 的最大计算能力为 29.8 TFLOPS——但其中一些与 INT32 计算共享。AMD 的 RX 6800 XT 相比之下“仅”有 20.7 TFLOPS,但在许多游戏中,它提供了与 RTX 3080 相似的性能。换句话说,原始理论计算绝对不能说明全部问题;Arc Alchemist 可以在上方或下方出击!— 其理论重量等级。

不过,让我们暂时让英特尔受益。根据最终时钟速度,Arc Alchemist 低于当前顶级 AMD 和 Nvidia GPU 的理论水平,但相差不大。至少在纸面上,英特尔似乎可以在 RTX 3070/3070 Ti 和 RX 6800 附近着陆——假设驱动程序和其他一切都没有阻止它。

XMX:XeSS 的矩阵引擎和深度学习 4cf165f421995dcb90fec3696fdf9e2b

我们在上面简要提到了 XMX 块。它们可能与 Nvidia 的 Tensor 核心一样有用,后者不仅用于DLSS,还用于其他 AI 应用程序,包括 Nvidia Broadcast。英特尔还宣布了一种新的升级和图像增强算法,它称之为 XeSS:Xe Superscaling。

英特尔没有深入细节,但值得一提的是,英特尔最近聘请了 Anton Kaplanyan。在前往 Facebook 从事 VR 工作之前,他曾在 Nvidia 工作并在创建 DLSS 方面发挥了重要作用。无需过多阅读就可以得出结论,他现在可能正在为 XeSS 做很多基础工作,而且 DLSS 和 XeSS 之间有许多相似之处。

XeSS 使用当前渲染的帧、运动向量和来自前一帧的数据,并将所有这些输入到一个训练有素的神经网络中,该网络处理放大和增强以生成最终图像。这听起来与 DLSS 2.0 基本相同,但细节在这里很重要,我们假设神经网络最终会得到不同的结果。

英特尔确实提供了一个使用虚幻引擎的演示,展示了 XeSS 的运行情况(见下文),将通过 XeSS 升级到4K 的1080p与原生 4K 渲染进行比较时看起来不错。不过,那是在一个演示中,我们必须在实际发布的游戏中看到 XeSS 的运行情况,然后才能做出任何判决。

比它如何工作更重要的是有多少游戏开发者选择使用 XeSS。他们已经可以访问 DLSS 和AMD FSR,它们针对的是提高性能和图像质量的相同问题。添加第三个选项,从新手到专用 GPU 市场同样如此,对开发人员来说似乎是一种延伸。但是,英特尔确实提供了优于 DLSS 的潜在优势。

XeSS 被设计为在两种模式下工作。最高性能模式利用 XMX 硬件进行升级和增强,当然,这只适用于 Intel 的 Arc GPU。这与 DLSS 存在相同的问题,只是现有安装基础为零,这在开发人员支持方面将是一个难题。但英特尔有一个解决方案:XeSS 也可以使用 DP4a 指令在较低性能模式下工作。

DP4a 得到其他 GPU 的广泛支持,包括 Intel 的上一代 Xe LP 以及多代 AMD 和 Nvidia GPU(Nvidia Pascal 及更高版本,或 AMD Vega 20 及更高版本),这意味着 DP4a 模式下的 XeSS 几乎可以在任何现代 GPU 上运行。支持可能不像 AMD 的 FSR 那样普遍,据我们所知,它在着色器中运行并且基本上适用于任何支持 DirectX 11 或更高版本的 GPU,但质量也可能比 FSR 好。如果英特尔通过 DirectML 或类似的库支持 Nvidia 的 Tensor 内核,那也会有趣,但这并没有讨论。

最大的问题仍然是开发人员的接受度。我们很乐意看到与 DLSS 2.x 类似的质量,支持涵盖所有竞争对手的各种显卡。这绝对是英伟达在 DLSS 中仍然缺少的东西,因为它需要 RTX 卡。但是 RTX 卡已经占据了高端游戏 PC 市场的很大一部分,可能约占 80% 或更多(取决于您如何量化高端)。因此,英特尔基本上必须从头开始使用 XeSS,这需要漫长的上坡路。从好的方面来说,它将在本月提供 XeSS 开发人员工具包,使其有足够的时间来开展工作。因此,在第一批 Arc GPU 进入零售市场之前,我们甚至有可能(尽管不太可能)看到实现 XeSS 的游戏。

Arc Alchemist 和 GDDR6

英特尔尚未评论它将用于各种 Arc Alchemist GPU 的内存类型。有传言说它将是 GDDR6,可能以 16Gbps 的速度运行……但这只是猜测。同时,很难想象任何其他有意义的解决方案。GDDR5 内存仍然用于一些预算解决方案,但最快的芯片最高可达 8Gbps 左右——是 GDDR6 提供的一半。

还有HBM2e作为一个潜在的解决方案,但同时可以对内存带宽提供大幅增加的同时,也会显著增加成本。数据中心 Xe HPC 将使用 HBM2e,但 Xe HPG 的芯片截图都没有显示 HBM 内存堆栈,这又让我们回到 GDDR6。

将有多种 Xe HPG / Arc Alchemist 解决方案,具有不同的功能。到目前为止,我们关注的更大的芯片似乎有 8 个 32 位 GDDR6 通道,从而提供了 256 位接口。这意味着它在顶级型号上可能有 8GB 或 16GB 的内存,我们可能会看到在低端卡上缩减了 192 位和 128 位接口。英特尔展示的第二个 Arc GPU 似乎只有 96 位接口,可能是 6GB 的 GDDR6。

Intel Xe DG1 卡走完全不同的路线,使用 128 位 LPDDR4X 接口和 4GB VRAM,但这是一个特例。它只适用于特定的英特尔主板,坦率地说,它的性能并没有给人留下深刻印象。我们不希望英特尔在 Arc Alchemist 上犯同样的错误。

Arc Alchemist 模具射击和分析

我们所说的大部分内容都不是全新的信息,但英特尔确实提供了一些图像和视频证据,可以很好地表明英特尔将在何处落地。所以让我们从我们肯定知道的开始。

英特尔将与台积电合作,为 Arc Alchemist 和 Xe HPG 使用 N6 工艺(N7 的优化变体)。这意味着它在技术上不会与 AMD 用于 Zen 2、Zen 3、RDNA 和 RDNA 2 GPU 的相同晶圆竞争。同时,AMD和Nvidia也可以使用N6——它的设计与N7兼容,所以英特尔使用台积电当然对AMD或Nvidia的产能没有帮助。

台积电可能有很多工具在 N6 和 N7 之间也有重叠,这意味着它可以运行批次的 N6,然后批次和 N7,来回切换。这意味着这有可能削弱台积电向其他合作伙伴提供晶圆的能力。说到晶圆……

Raja 在英特尔架构日展示了 Arc Alchemist 芯片的晶圆。通过截取视频快照并放大晶圆,晶圆上的各种芯片都相当清晰。我们已经根据我们的计算绘制了线条来显示芯片有多大;看起来较大的 Arc 芯片将约为 24×16.5 毫米(~396 毫米 ^ 2),在每个维度上给予或收取 5-10%。我们还计算了晶圆上的裸片,似乎有 144 个完整的裸片,这也与大约 396mm^2 的裸片尺寸相关。

这不是一个巨大的 GPU——例如,Nvidia 的 GA102 尺寸为 628mm^2,而 AMD 的 Navi 21 尺寸为 520mm^2——但它也不小。AMD 的 Navi 22 尺寸为 335mm^2,而 Nvidia 的 GA104 为 393mm^2,因此 Xe HPG 将比 AMD 的芯片大,尺寸与 GA104 相似——但制造工艺更小。不过,坦率地说:尺寸很重要。

这可能是英特尔自 90 年代后期 i740 以来的第一个读取专用 GPU,但多年来它已经做出了许多集成解决方案,并且在过去几年中建立了一个更大的专用 GPU 团队。裸片尺寸本身并不能决定性能,但它可以很好地表明设计中可以塞进多少东西。尺寸约为 400mm^2 的芯片表明英特尔打算至少与 RTX 3070 和 RX 6800 竞争,这可能高于某些人的预期。

除了晶圆镜头,英特尔还为 Xe HPG 提供了这两个芯片镜头。是的,这显然是两种不同的 GPU 芯片,较大芯片上的编号为 00071,较小芯片上的编号为 00329。它们是艺术效果图而不是实际的模具镜头,但它们确实有一些现实基础。

较大的芯片在中心区域有八个簇,这些簇与八个渲染切片相关。内存接口沿底部边缘和左右边缘的下半部分,有四个64位接口,总共256位。然后还有一堆其他的东西有点模糊,用于视频编码和解码、显示输出等。

256 位接口使英特尔的 Arc GPU 处于一个有趣的位置。这与 Nvidia 的 GA104 (RTX 3060 Ti/3070/3070 Ti) 和 AMD 的 Navi 21 的接口宽度相同。 Intel 会跟随 AMD 的领先地位并使用 16Gbps 内存,还是会像 Nvidia 一样选择更保守的 14Gbps 内存?英特尔能否从 AMD 的 Infinity Cache 中汲取灵感?我们还不知道。

较小的芯片看起来有两个渲染切片,只有 128 个矢量引擎。它看起来也只有一个 96 位内存接口(芯片右下边缘的块),这可能使它相对于其他卡处于劣势。然后是其他“杂项”零碎。显然,性能将大大低于更大的芯片,这将更像是一个入门级的部分。

虽然较小的芯片应该比当前所有的 RX 6000 和 RTX 30 系列 GPU 慢,但它确实让英特尔处于一个有趣的位置。根据时钟速度,一个渲染切片应该相当于大约 4.1-4.9 TFLOPS 的计算。这仍然可以匹配或超过 GTX 1650 Super,具有 GTX 16 系列 GPU 缺乏的附加功能,并且希望英特尔能够为 GPU 提供至少 6GB 的内存。基本上,Nvidia 和 AMD 还没有在入门级市场宣布任何新的 GPU,所以这将是一个很好的补充。

 英特尔 Arc 会擅长挖掘加密货币吗?

由于目前 AMD 和 Nvidia 方面的 GPU 短缺,部分原因是加密货币矿工,人们将不可避免地想知道英特尔的 Arc GPU 是否会面临类似的困难。在公开场合,英特尔对挖掘潜力和 Xe Graphics 一无所知。然而,鉴于 Xe HP/HPC(机器学习、高性能计算等)的数据中心根源,英特尔可能至少已经研究了挖掘的可能性。尽管如此,它肯定不会就架构或 GPU 用于挖矿的适用性做出任何营销声明。但是还有上面的图片(用于整个英特尔架构日演示),带有物理比特币和文本“加密货币”,您开始怀疑。

一般来说,Xe 可能适合挖矿,但最流行的 GPU 挖矿算法(主要是 Ethash,但也有 Octopus 和 Kawpow)的性能几乎完全取决于 GPU 有多少内存带宽。例如,英特尔最快的 Arc GPU 可能会使用 16GB(可能是 8GB)的 GDDR6 和 256 位接口。这将产生与 AMD 的 RX 6800/6800 XT/6900 XT 以及 Nvidia 的 RTX 3060 Ti/3070 相似的带宽,从而使以太坊挖矿的性能达到约 60 MH/s。

英特尔可能不会使用 GDDR6X,但它可能还有一些其他功能也可以提高挖掘性能——如果是这样,它还没有溢出豆子。Nvidia 在 RTX 3060 Ti 和 RTX 3070 上的内存时钟频率为 14Gbps,并且(在 LHR 型号出现之前)它可以达到大约 61–62 MH/s。AMD 拥有更快的 16Gbps 内存,经过调整,最终接近 65 MH/s。这实际上是关于我们期望最快的 Arc GPU 降落的地方,而且前提是软件在卡上正常运行。

考虑到 Arc GPU 甚至要到 2022 年初才会出现,而且鉴于加密货币的波动性,在设计阶段,挖掘性能不太可能成为英特尔的首要关注点。迄今为止,以太坊是目前用于 GPU 挖矿的最佳代币,大多数估计都表示它代表了用于挖矿的 GPU 算力的 90% 以上。以太坊 2.0 计划在 12 月从工作量证明挖掘转向股权证明,这意味着不再对该代币进行 GPU 挖掘。这意味着现在围绕以太坊挖矿构建 GPU 将是一个坏主意。不过,这仍然并不意味着 Arc Alchemist 会在采矿方面表现不佳或擅长。

在最好的情况下(或最坏的情况,取决于您的观点),我们预计挖矿性能将大致与 AMD 的 Navi 21 和 Nvidia 的 GA104 GPU 相匹配。不过,挖矿软件可能需要重大更新和驱动程序修复才能在未来的 GPU 上正常工作。我确实使用 Xe DG1 进行了挖矿,但它未能通过所有 NiceHashMiner 基准测试,但这并不能说明什么,因为大多数软件甚至没有检测到“兼容”GPU。在发布时,我希望 Arc GPU 处于类似的情况,但我们必须看看随着时间的推移事情会如何发展。

Arc Alchemist 发布日期和未来 GPU 计划

Arc Alchemist 的核心规格正在形成,使用 TSMC N6 和潜在的具有 256 位内存接口的 400mm^2 芯片都表明该卡应该可以与 AMD 和当前的高端 GPU 竞争。英伟达——但落后于顶级性能模型。作为新人,英特尔需要第一批 Arc Alchemist GPU 才能大展拳脚。然而,正如我们在英特尔 Xe DG1 中所讨论的,构建一个好的显卡比硬件要多得多——这可能是 DG1 存在的原因,为 Arc 准备驱动程序和软件。

Alchemist 代表了英特尔专用 GPU 计划的第一阶段,未来还有更多。除了 Alchemist 代号外,英特尔还公布了未来三代专用 GPU 的代号:Battlemage、Celestial 和 Druid。现在我们知道了我们的 ABC,下次你会不会和我一起构建一个 GPU?这些可能不是最令人敬畏的代号,但我们欣赏按字母顺序排列的逻辑。

试探性地,随着 Alchemist 使用 TSMC N6,我们可能会看到 Battlemage 的相对较快的周转。它可以使用台积电的 N5 工艺并在 2022 年底前出货——考虑到我们预计明年会看到 Nvidia 的 Lovelace RTX 40 系列 GPU,以及 AMD 的 RDNA 3 架构,这可能是明智的。缩小流程,添加更多内核,调整一些东西以提高吞吐量,Battlemage 可以让英特尔与 AMD 和 Nvidia 保持平衡。或者它可能会晚到很晚并提供较低的性能。

如果英特尔希望对 AMD 和 Nvidia 施加压力,它需要对未来的架构进行迭代,并尽早将它们推出。目前,我们终于有了一个相对艰难的 2022 年第一季度发布日期——我们希望我们能在 2022 年国际消费电子展上看到和了解更多,看到 Arc Alchemist 在 1 月而不是 3 月发布会很棒。

英特尔的蒸汽朋克 Oblivion 概念显卡,将于 2035 年或 1865 年推出。(于 2020 年初在 CES 上展示。) 

关于英特尔 Arc Alchemist 的最终想法

最重要的是,英特尔已经为它做好了工作。它可能是 CPU 世界中重达 800 磅的大猩猩,但在过去几年中,它甚至在那里跌跌撞撞,步履蹒跚。AMD 的 Ryzen 已经取得了进展,缩小了差距,现在在大多数指标上都领先于英特尔,而且英特尔的制造困境显然已经够糟糕了,它需要求助于台积电来实现其专用 GPU 的梦想。

作为图形方面的弱者,英特尔需要拿出激进的性能和定价,然后快速迭代和改进。并且请不要谈论英特尔如何比 AMD 和 Nvidia 销售更多的 GPU。从技术上讲,这是真的,但前提是您计算速度非常慢的集成图形解决方案,这些解决方案充其量只能用于轻度游戏和办公室工作。再说一次,大量 PC 和笔记本电脑仅用于办公室工作,这就是英特尔一再坚持 GPU 性能不佳的原因。

Arc Alchemist 有很多我们不知道的方面,比如最终的产品名称和卡片设计。例如,Arc 卡是否有鼓风机、双风扇或三风扇?这并不重要,因为任何具有正确卡片设计的人就足够了。我们还希望英特尔与华硕、技嘉和微星等其他公司合作,帮助制造显卡,尽管这些公司愿意在多大程度上追求 Arc 最终归结为最重要的因素:价格、可用性和性能.

与 AMD 和 Nvidia 相比,我们对真实世界的光线追踪性能很好奇,但这不是关键因素。当前的设计最多有 32 个光线追踪单元 (RTU),但我们对这些单元可以做什么几乎一无所知。每一个都可能与 AMD 的光线加速器的功能相似,在这种情况下,英特尔在光线跟踪啄食顺序上的排名会非常低。或者,每个 RTU 可能相当于几个 AMD 射线加速器,甚至可能比 Nvidia 的 Ampere RT 内核更快。虽然它可能是其中任何一个,但我们怀疑它可能会降低 RT 性能而不是更高,从而为未来的迭代留出增长空间。

赞(0)
未经允许不得转载:Intel Arc中文网 » 英特尔 Arc Alchemist:发布日期、规格和我们所知道的一切

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址