机器智能芯片 10 大新秀！华为抢占一席，Google 占比最多！

2019-10-09 06:18:33

[转载出处：www.ii77.com]

整顿 | 胡巍巍

出品 | CSDN（ID：CSDNnews）

昔时，阿基米德爷爷说出“给我一个支点，我就能撬动地球”这句话时，估量没少蒙受嘲讽。 [原创文章：www.ii77.com]

然尔后来的我们，都曾在物理教材上学过这句话。

事实证实，小，也能够很有力量。

芯片，就是小体积、大能量的典型代表之一。

近日，一位外国科技作者，总结了10个用于机械智能的新型硅芯片的具体信息，从这10个硅芯片来看，谷歌占比最多，国内仅有华为一个。

一路来看看，这10个硅芯片的完整信息吧！

当当当当！先PO出一张图，来一个总览！

Cerebras晶圆级引擎芯片（Cerebras Wafer-Scale Engine）

Cerebras晶圆级引擎（WSE）芯片，无疑是比来显现的最勇敢和立异的设计。晶圆级集成并不是一个新主意，然则与产量、功率传输和热膨胀有关的集成问题，使其难以贸易化。
Cerebras使用这种方式将84个芯片与高速互连集成在一路，从而将基于2D网格的互连按比例缩放到很大比例。
如许能够为机械供应大量内存（18 GB）分布在大量较量中（3.3 Peta FLOP峰值）。
今朝，尚不清楚该架构若何扩展到单个WSE之外。当前神经收集的趋势是拥稀有十亿权重的大型收集，这将需要进行如许的缩放。
该芯片细节：
公布于2019年8月。
TSMC 16 nm的46,225 mm 2晶圆级集成系统（215 mm x 215 mm）。
1.2T晶体管。
很多零丁的筹码：总共84（12宽乘7高）。
总共18 GB的SRAM存储器，分布在内核之间。
426,384个简洁较量焦点。
硅缺陷能够经由使用冗余内核和链路绕过故障区域来修复。
推想的时钟速度约为1 GHz，功耗为15 kW。
互连和IO：
跨越划线的芯片之间的互连，以及在常规晶圆制造后的后处理步伐中添加的布线。
IO在晶圆的器材边缘带出，这受每个边缘的焊盘密度限制。弗成能有高速SerDes，因为这些高速SerDes需要集成在每个芯片中，从而使晶圆区域中相当大的一部门与外围具有边缘的芯片成为多余。
基于2D网格的互连，支撑单字新闻。据官方白皮书透露：“ Cerebras软件将WSE上的所有焦点设置为支撑所需的正确通信”。
互连需要静态设置以支撑特定的通信模式。
未在互连上传输零以优化稀少性。
每个焦点：
是〜0.1 mm 2的硅。
具有47 kB SRAM存储器。
零未从内存中加载，零未相乘。
假定FP32精度和标量执行（无法使用SIMD从内存中过滤零）。
FMAC数据路径（每个周期8个峰值把持）。
张量掌握单元向FMAC数据路径供应来自内存的跨步接见或来自链接的入站数据。
有四个与其邻人相邻的8 GB / s双向链接。
每个骰子：
是17毫米x 30毫米= 510毫米2的硅。
具有225 MB SRAM 内存。
具有54 x 94 = 5,076个焦点（因为修复方案而剩下4,888个可用焦点，每行/列两个焦点或者未使用）。
FP32的峰值FP32机能达到40 Tera FLOP。

Google TPU v3

今朝因为没有关于Google TPU v3规格的具体信息，它或者是对TPU v2的增量改善：将机能提高一倍，添加HBM2内存以使容量和带宽增加一倍。
该芯片细节：
2018年5月公布。
或者是16nm或12nm。
估计TDP为 200W 。
BFloat16的105个TFLOP，或者是将MXU加倍到四个。
每个MXU都具有对8 GB内存的专用接见权限。
集成在四芯片模块（如图）中，峰值机能达420个TFLOP。
IO：
32 GB HBM2集成内存，接见带宽为1200 GBps（假定）。
假定PCIe-3 x8为8 GBps。

Google TPU v2

Google TPU V2是专为练习和推理而生的芯片。它经由浮点算法改善了TPU v1，并经由HBM集成存储器增加了存储容量和带宽。
该芯片细节：
2017年5月公布。
或者是20nm。
估计TDP为 200-250W 。
45 TFLOP的BFloat16。
具有标量和矩阵单元的两个焦点。
还支撑FP32。
集成在四芯片模块（如图）中，具有180个TFLOP峰值机能。
每个焦点：
具有BFloat16乘法和FP32累加的128x128x32b脉动矩阵单元（MXU）。
8GB专用HBM，接见带宽为300 GBps。
BFloat16的峰值吞吐量为22.5 TFLOP。
IO：
16 GB HBM集成内存，带宽为600 GBps（假定）。
PCIe-3 x8（8 GBps）。

Google TPU v1

Google的第一代TPU仅用于推理，而且仅支撑整数运算。
它经由在PCIe-3上发送指令来为主机CPU供应加快，以执行矩阵乘法和应用激活功能。这是一个光鲜的简化，能够节约好多设计和验证时间。
该芯片细节：
在2016年公布。
331 mm 2在28nm工艺上灭亡。
时钟频率为700 MHz，TDP为 28-40W 。
28 MB片上SRAM存储器：24 MB用于激活，4 MB用于累加器。
芯单方面积的比例：35％的内存，24％的矩阵乘法单元，41％的逻辑剩余空间。
256x256x8b脉动矩阵乘法单元（64K MAC /周期）。
INT8和INT16算术（离别为峰值92和23 TOPs / s）。
IO：
可经由两个端口以34 GB / s的速度接见8 GB DDR3 -2133 DRAM。
PCIe-3 x 16（14 GBps）。

Graphcore IPU

Graphcore IPU架构与大量带有小内存的简洁处理器的高度并行，并经由高带宽的所有“交流”互连进行保持。
该系统构造在体同步并行（BSP）模型下运行，由此法式的执行按一系列较量和交流阶段进行。
该BSP模型是一个壮大的编程抽象，因为它清扫并发风险，BSP执行许可较量和交流阶段充裕行使芯片的电力资源。经由保持10个IPU间，能够构建更大的IPU芯片系统链接。
该芯片细节：
16 nm，236亿个晶体管，〜800mm 2芯片尺寸。
1216个处理器块。
具有FP32累加功能的125个TFLOP峰值FP16算法。
300 MB的总片上内存分布在处理器内核之间，供应45 TBps的总接见带宽。
所有模型状况都留存在芯片上，没有直接保持的DRAM。
150 W TDP（300 W PCIe卡）。
IO：
2个PCIe-4主机IO链接。
10x卡间“ IPU 链接”。
总共384 GBps IO带宽。
每个焦点：
夹杂精度浮点随机算法。
最多运行六个法式线程。

哈瓦那实验室高迪（Habana Labs Gaudi）

哈瓦那的Gaudi AI..处理器与现代GPU具有相似之处，稀奇是普遍的SIMD并行性和HBM2内存。
该芯片集成了十个100G以太网链路，这些链路支撑长途直接内存接见（RDMA）。
与Nvidia的NVLink或OpenCAPI比拟，这种 IO功能使大型系统能够使用商用收集设备构建。
该芯片细节：
2019年6月公布。
采用CoWoS的TSMC 16 nm，假定管芯尺寸为〜500mm 2。
异构架构，具有：
一个GEMM把持引擎;
8个Tensor处理焦点（TPC）；
共享的SRAM存储器（可经由RDMA治理和接见的软件）。
PCIe卡为200W TDP，夹层卡为300W TDP。
未知的总片上存储器。
芯片之间的显式内存治理（无一致性）。
TPC焦点：
VLIW SIMD并行性和内陆SRAM 存储器。
夹杂精度：FP32，BF16以及整数花样（INT32，INT16，INT8，UINT32，UINT8）。
随机数生成。
超越函数：Sigmoid，Tanh，高斯误差线性单元单子（GeLU）。
张量寻址和跨步接见。
每个TPC未知的内陆内存。
IO：
4个HBM2 -2000 DRAM客栈，以1 TBps的速度供应32 GB。
片上集成了10个100GbE接口，支撑基于融合以太网（RoCE v2）的RDMA。
IO使用20个56 Gbps PAM4 Tx / Rx SerDes实现，也能够设置为20个50 GbE。如许最多可保持64个芯片，而且吞吐量无壅塞。
PCIe-4 x16主机接口。

华为Ascend 910

华为的Ascend与具有宽SIMD算术和3D矩阵单元的最新GPU相似。该芯片包罗用于H.264 / 265的128通道视频解码引擎的附加逻辑。
在华为官方的Hot Chips演示中，华为描述了将多维数据集和向量把持重叠以获得高效率以及内存条理构造的挑战，个中L1高速缓存（焦点）的带宽与吞吐量之比降低10倍，L2高速缓存降低100倍（共享焦点）和2000x用于外部DRAM。
该芯片细节：
公布于2019年8月。
456 mm 2逻辑芯片在7+ nm EUV工艺长进行。
与四个96 mm 2 HBM2客栈和“ Nimbus” IO处理器芯片配合封装。
32个达芬奇焦点。
峰值256个TFLOP（32 x 4096 x 2）FP16机能，是INT8的两倍。
32 MB共享片上SRAM（二级缓存）。
350W TDP。
互连和IO：
内核在6 x 4 2D网状分组交流收集中互连，每个内核供应128 GBps的双向带宽。
对L2缓存的接见速度为4 TBps。
1.2 TBps HBM2接见带宽。
3个30 GBps的芯片间IO。
2个25 GBps RoCE收集接口。
每个达芬奇焦点：
3D 16x16x16矩阵乘法单元，供应4,096个FP16 MAC和8,192个INT8 MAC。
FP32（x64），FP16（x128）和INT8 （x256）的2,048位SIMD矢量把持。
支撑标量运算。

英特尔NNP -T

继至强融核之后，该芯片是英特尔针对机械进修加快器的第二次测验。像Habana Gaudi芯片一般，它集成了少量的宽矢量核，HBM2集成存储器和雷同的100 Gbit IO 链接。
该芯片细节：
270亿个晶体管。
在带有CoWoS的TSMC 16FF + TSMC上，688 mm 2模具。
四个8 GB客栈中的32 GB HBM2 -2400 集成在1200 mm 2的无源硅中介层上。
60 MB的片上SRAM存储器分布在内核之间，并受ECC珍爱。
最高1.1 GHz焦点时钟。
150-250W TDP。
24个Tensor处理群集（TCP）内核。
TPC以2D网状收集拓扑保持。
用于分歧类型数据的自力收集：掌握，存储器和芯片间通信。
支撑多播。
119个最佳机能峰值。
IO：
HBM2带宽为1.22TBps 。
芯片间IO的64个SerDes通道的峰值带宽为3.58Tbps（每个通道的每个偏向28 Gbps）。
x16 PCIe-4主机接口（还支撑OAM和Open Compute）。
TPC焦点：
2个32x32 BFloat16乘法器阵列，支撑FMAC把持和FP32累加。
向量FP32和BFloat16把持。
支撑先验功能，随机数生成，削减和累积。
可编程FP32查找表。
用于非MAC较量的自力卷积引擎。
2.5 MB的两头口专用内存，具有1.4 TBps的读/写带宽。
内存支撑张量转置把持。
通信接口支撑网状收集上的动态数据包路由（虚拟通道，靠得住的传输）。
缩放比例：
多达1024个具有直接互连的芯片，供应沟通的分布式内存编程模型（显式内存治理，同步原语，新闻传递）。
扩展展示了以环形拓扑保持的多达32个芯片。

Nvidia Volta

据认识，Volta从Pascal架构引入Tensor Cores、HBM2和NVLink 2.0 。
该芯片细节：
2017年5月公布。
815毫米2上TSMC 12海里FFN，21.1 BN晶体管。
300 W TDP（SXM2尺寸）。
6 MB二级缓存。
84个SM，每个SM包含：64个FP32 CUDA内核，32个FP64 CUDA内核和8个Tensor内核（5376 FP32内核，2688 FP64内核，672个TC）。
Tensor Core执行4x4 FMA，实现64 FMA运算/周期和128 FLOP。
每个SM 128 KB L1数据高速缓存/共享内存和四个16K 32位寄放器。
IO：
32 GB HBM2 DRAM，900 GBps带宽
NVLink 2.0（300 GBps）。

Nvidia图灵

Turing是Volta的系统构造修订版，采用沟通的16 nm工艺制造，但具有更少的CUDA和Tensor内核。
是以，它具有更小的管芯尺寸和更低的功率局限。除ML义务外，它还设计用于执行实时射线追踪，为此它还使用了Tensor Core。
该芯片细节：
2018年9月公布。
台积电12nm FFN，754 mm 2芯片，186亿个晶体管。
260瓦TDP。
72个SM，每个SM包含：64个FP32内核和64个INT32内核，8个Tensor内核（4608 FP32内核，4608 INT32内核和576个TC）。
带有升压时钟的峰值机能：16.3 TFLOPs FP32、130.5 TFLOPs FP16、261 TFLOPs INT8、522 TFLOPs INT4。
24.5 MB片上存储器，介于6 MB L2高速缓存和256 KB SM寄放器文件之间。
1455 MHz根基时钟。
IO：
12个32位GDDR6内存，可供应672 GBps的聚合带宽。
2个NVLink x8链接，每个链接供应高达26 GBps的双向速度。
以上10个芯片，你认为哪个最有前景？连忙在谈论区留言吧！
参考：https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html#google-tpu-1
【END】
热文推荐
☞蚂蚁金服数据库机能超甲骨文引热议；三大运营商 5G 预约用户接近 930 万；苹果发布新版 Mac 系统| 极客头条
☞法式员的代码行数越少越好？
☞硅谷法式员的回来能拯救印度“芯”吗？
☞若何破解焦虑成为手艺大牛？资深手艺 Leader 肺腑忠言
☞【小白鸠合】详解办事器内存和显存根蒂常识
☞快手王华彦：端上视觉手艺的极致效率及其短视频应用实践 | AI ProCon 2019
☞每个新手法式员都应该知道的Python斥地技能
☞5G来了，智妙手机们还能拼什么？
点击阅读原文，输入要害词，即可搜刮您想要的 CSDN 文章。
你点的每个“在看”，我都卖力当成了喜欢

上一篇：你离5G，只差一部手机的距离
下一篇：5G手机太贵买不起？教你三招不换机也能上高速

机器智能芯片 10 大新秀！华为抢占一席，Google 占比最多！

热门文章

小编推荐

推荐文章