4 月 21 日,英伟达发布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程的性能和软硬件体系加持,为众多科技公司在 AI 推理和训练时带来了新的选择。该公司预计在今年夏季,新款芯片即将会出现在众多公司的云服务器中。对于熟悉机器学习领域的人们来说,每隔一两年推出的新一代 GPU,是他们最为的新动向。英伟达的旗舰芯片算力也总是其它芯片创业公司用来比较的标杆。但对那些希望寻找人工智能最合适算力的研究者们来说,GPU 因为「过于通用」,常常会被认为并非 AI 的最终解决方案。但迄今为止,英伟达 GPU 仍然占据市场的主流。在 GPU 引领深度学习技术爆发之后,AI 芯片领域还会出现新的变化吗?和 AI 算法应该怎么写一样,人们对于芯片应该怎么造的思考其实一直都没有停止,芯片领域里下一个大方向可能在于「特定领域的体系结构(DSA)」。计算机架构传奇人物、2017 年图灵奖获得者 John Hennessy 和 David Patterson 在 2019 年发表于 ACM 杂志上的文章《计算机架构的新黄金时代》中曾提出:当摩尔定律不再适用之后,一种更加以硬件为中心的设计思路——针对特定问题和领域的架构 DSA 将会展现实力。这是一种特定领域的可编程处理器,它仍是图灵完备的,但针对特定类别的应用进行了定制。John L. Hennessy 和 David A. Patterson,两人合著有《计算机体系结构:量化研究方法》一书。从定义上来看,DSA 与专用集成电路 ASIC 不同,后者仅适用于单一功能,运行其上的代码很难进行修改。DSA 板卡通常被称为加速器,因为与在通用 CPU 上执行整个应用程序相比,它们可以加速某些应用程序。此外,DSA 可以实现更好的性能,因为它们更贴近应用的实际需求。DSA 的例子包括最常见的图形加速单元(即 GPU),用于深度学习的神经网络处理器,以及软件定义处理器(SDN)。在特定领域的应用中,DSA 的效率更高,能耗更低。通常,适用于 AI 推理的 DSA 处理器无法应用于高性能通用计算、光线渲染等任务,但又不像 ASIC 那样只能胜任很少的一些固化算法任务。在人工智能的任务上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持计算机视觉和语音的任务处理,还可以通过 TVM 等工具覆盖各种机器学习框架。如果说体系架构大师展望的技术方案是 DSA 成立的充分条件,那么科技公司对于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。目前,想要通过各种方法来构建一块 GPU,与英伟达实现相似的性能仍然非常困难。但在以数据中心为核心的互联网新时代,国内头部互联网公司的规模为整个行业带来了前所未有的 AI 落地场景。如果能够准确找到落地需求,构建高效的 AI 加速器,不仅可以大幅提升机器学习的价值,或许还能催生出潜在的新市场。在这种情况下,能够搞清应用方向就成为了 DSA 能否成功的关键。如今科技公司需要深度学习推断的业务包括推荐系统、内容审核、AI 教育、人工智能客服、图文翻译等各种方面。围绕这些业务,所有互联网厂商都产生了大量算力需求。对于一家半导体公司来说,要想打造一块能够完成这些任务的芯片,其设计要符合客户应用场景、底层需求,具备高效的实现方式,同时也要在交付成本、维护服务、更新迭代的速度、软件友好的程度,甚至销售策略上具备竞争力。体系结构之外,另一个契机在于指令集,RISC-V 兴起也在让芯片领域发生着变化,它的模块化和可扩展性完美地匹配 DSA 灵活高效的技术需求。诞生于 2010 年的 RISC-V 是一个开源的精简指令集架构,适用于创建微处理器和微控制器。最早由美国加州大学伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等开发人员于 2010 年提出,又得到了计算机体系结构大师 David Patterson 的支持。这个架构允许开发者免费开发和使用,包括直接在芯片上进行商业化实现。今年 1 月,外媒报道称顶级芯片设计大师 Jim Keller 加入了初创公司 Tenstorrent,担任 CTO 以及董事会成员。据了解,Tenstorrent 设计的是高性能 AI 训练和推理,异构架构 AI SoC。该公司设计了针对机器学习优化的 Tensix 处理器内核,为了运行传统的工作负载,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 内核,而 X280 是一个 64 位的 RISC-V 内核,集成了 512 位宽的 RISC-V 矢量指令扩展(RVV)。无独有偶,美国的芯片设计公司 Pixilica 已与 RV64X 团队合作,提出了一套新的图形指令集,旨在融合 CPU-GPU ISA,并将其用于 3D 图形和媒体处理,从而为 FPGA 创建了开源参考实现。Europena 工具开发商 Codasip 的高级市场总监 Roddy Urquhart 表示,这是 RISC-V 生态系统的优势之一:「如果要创建特定于领域的处理器,关键任务之一就是选择符合软件需求的指令集架构(ISA)。」「有些公司选择从头开始创建指令集,但是如果你有这样的 ISA,则可能要付出移植软件的代价。现在,RISC-V 开放式的 ISA 可以提供一个很好的起点和一个软件生态系统,」Urquhart 表示。RISC-V ISA 以模块化的方式设计,使处理器设计人员不仅可以添加任何标准扩展,还可以创建自己的自定义指令,同时保持完整的 RISC-V 兼容性。「为特定领域的处理器选择了起点,然后有必要弄清楚需要哪些特殊指令来满足你的计算要求。这需要仔细分析你需要在处理器核心上运行的软件。概要分析工具可以识别计算热点,一旦了解,设计人员就可以创建自定义指令来解决这些热点。」虽然基于 Arm 架构设计的处理器已出现在几乎所有智能手机及数十亿电子设备中,但越来越多人在将目光转向 RISC-V。Linux 的主要开发者 Arnd Bermann 就认为,到 2030 年我们将看到三种体系结构:Arm、RISC-V 和 X86 占据市场大部分份额。然而对于 DSA 而言,显然 RISC-V 拥有巨大的优势。科技公司自造芯片是不是最合理的方式?一些公司已经提出了深度结合自身业务,并与软件体系绑定,可以进行 AI 模型训练的芯片,包括亚马逊的 Inferentia 和 Trainium、谷歌 TPU 等等。但这些算力仅限于对于各家公司自有业务体系进行特化,面向的范围有限。从一些大厂最近的行动中,我们可以看出人们的思考变化:百度等公司的 AI 芯片业务已经独立,而腾讯、字节跳动等公司则选择了投资创业公司的方式,希望能够培养出面向广泛市场的新体系。自 2010 年左右深度学习技术大发展至今,我们见证过寒武纪、昇腾等芯片横空出世,又被谷歌、亚马逊的技术能力所惊艳,但在无尽的算力需求下,国内 AI 芯片爆发的时代似乎依然还没有到来。但在最近,指令集、体系架构和人工智能应用的落地已经让情况发生了变化。随着字节跳动等投资 AI 芯片创业公司快速流片成功,专属推理芯片的应用获得良好效果,在科技领域里发展 DSA 芯片的新风向正在出现。在芯片产品生命的周期中,如果有一家创业公司可以更加理解场景,定义出最合适的方案,最快地做出实现,就可以获得相对领先的位置。同时,如果这种新的机制催生出了足够高效的算力,科技公司的开发者们也可以创造出更多的 AI 应用。根据目前的估算,国内市场每年会出现 20-30 万片的 AI 推理计算版卡需求。对于国内的创业者来说,这或许会是一个前所未有的发展机会,实力强大的工程师团队将会在新的竞争过程中脱颖而出。©THE END
转载请联系本gongzhong号获得授权
投稿或寻求报道:content@jiqizhixin.com
相关资源