+-
国产芯撼动英伟达?燧原科技创始人:梦都不敢这么做


8月9日,拜登签署《2022年芯片与科学法案》,让全球芯片企业在中美之间“二选一”。对于该法案的热议,自然也被带入2022世界人工智能大会“芯片主题论坛”。
然而论坛氛围却透着一股自信从容,恰如上海市经信委不久前宣布的好消息——2021年以来,上海已有17块AI芯片成功点亮,集中为推理芯片、训练芯片和车载智能芯片。
论坛来的大咖,既有寒武纪、百度、地平线、壁仞科技、燧原科技、天数智芯、瀚博半导体等中国芯代表,也有来自高通、AMD(美国超威半导体)等海外巨头的高管。这就注定了论坛绝不是关起门来的“自吹自擂”,而要接受代表业内最高水准的行业主流的检验与评价。
芯片难是共识。但同样有目共睹的,是中国芯尤其是中国AI芯片近年来的崛起速度。人工智能所开辟的赛道,为我国“追芯”路留出了机会,提供了加速度。

壁仞科技首款通用GPU芯片BR100。

唯快不破

论坛上,上海集成电路行业协会秘书长郭奕武列举了“上海芯”的新速度——
壁仞科技成立仅3年,其首款通用GPU芯片BR100今年一次点亮成功;
瀚博半导体成立不到4年,即将推出首款国产7纳米云端GPU芯片SG100,其超高吞吐、超高质量、低延时编码能力令人期待;
燧原科技成立仅4年,就已推出两代云端AI训练芯片及相应的推理产品,且已量产;
成立于2015年的天数智芯,其天垓100已实现订单销售2亿元,已落地200多个应用场景……
“上海AI芯片欣欣向荣,令人鼓舞。”郭奕武说。
即便在今年上海静默期,上海芯也未停下奔跑的脚步。3月31日晚,壁仞科技位于闵行临港浦江国际科技城的公司总部,留守闭环管理的员工们,见证了一个里程碑的诞生——BR100点亮成功。
这颗芯片的过人之处,在于16位浮点算力达1000T以上,8位定点算力达2000T以上,打破了此前一直由国际巨头保持的通用GPU全球算力纪录。
BR100之所以能实现“每秒千万亿次”算力,在于芯片最底层支撑来自我国原创架构——壁立仞。壁立仞架构,以数据流为中心,对数据流进行深度优化,较完整地解决了数据搬移的瓶颈和并行度不足问题。
而BR100流片成功,距离壁仞科技成立,仅两年半时间。这几乎是让业内惊掉下巴的速度。

燧原科技同样神速。燧原于2018年3月成立,创纪录地仅用18个月时间,即发布“邃思1.0”,将技术门槛极高的AI训练芯片一次性流片成功。去年7月,燧原又发布“邃思2.0”,成为我国最大的计算芯片。5个月后,燧原再次一鼓作气,对外发布基于“邃思”的云端训练加速卡“云燧T10”,直接单挑在这一领域处于垄断地位的英伟达Tesla V100。

邃思2.0。

还有成立于2018年底的瀚博半导体,在此次世界人工智能大会上,曾是AMD高管的瀚博CEO钱军,即将发布首款国产7纳米云端GPU芯片SG100。这款芯片具备业界领先的图形渲染性能,可为云游戏、云手机、云桌面、云计算等元宇宙关键性应用场景提供深度优化。SG100的推出,让瀚博正式迈入高门槛的GPU公司行列。

中国机会

为何这么快?因为在时代的机会面前,中国芯必须抓住“窗口期”。
燧原科技创始人赵立东早年毕业于清华,在硅谷工作多年,曾就职于AMD、紫光集团等。2017年,全球人工智能机会涌动,赵立东发现,人工智能三要素即数据、算法、算力中,中国不缺数据,算法亦有优势,最需追赶的是算力,而算力的核心就是高性能的大芯片。2018年,他创立燧原科技,这一年也是上海首次举办世界人工智能大会之年。公司一创立,燧原就向技术门槛极高的人工智能训练芯片发起挑战。

国产芯弯道加速的机会,赵立东想到了,张文等更多同道中人也发觉了。
2019年5月,华为被列实体名单,多家美国芯片断供华为,张文心中燃起创业火苗。当然,这不能光凭一腔爱国情,而是要靠眼光。张文拥有哈佛大学法学博士履历,管理经验丰富,曾担任商汤科技总裁。他判断,AI芯片在中国有独特机会。这基于两个原因。其一,AI芯片的理论架构正被不断突破。其二,中国有数据优势和场景优势,而AI芯片最需要场景和数据迭代。
2019年9月,在第二届世界人工智能大会上,张文邂逅了海思GPU大咖洪洲,他成功说服洪洲加盟。几天后,张文创立壁仞科技。

壁仞科技创始人张文(左)和壁仞CTO洪洲(右)。

赵立东和张文不约而同地选择在上海创业,是在正确的时间做的最正确的事。作为国内集成电路产业链最完整、技术水平最高、综合竞争力最强地区,上海集聚了超过1200家行业重点企业、全国40%的产业人才和50%的行业创新资源。自2014年起,上海集成电路产业始终保持两位数增长。今年尽管遭遇疫情困境,但1至7月,上海集成电路产业销售额同比增速仍超过18%,全年规模很可能突破3000亿元。
在上海,集成电路人才、资源不缺,若选对赛道,更不愁资本。至2021年1月,不到两年时间,燧原科技的融资额就超过30亿元,其中腾讯一家连续投了四轮;壁仞科技更是刷新业内融资纪录,成立18个月内即融资超过47亿元。充足的“炮弹”,是燧原作为初创公司敢于“一步登天”挑战AI训练芯片的底气。
郭奕武告诉记者,坦率讲,在集成电路整体性领域,我国与欧美差距不小。但在局部细分领域,如汽车视觉智能芯片领域等,我国已达全球领先水平。“集成电路是一个高度全球化、分工高度细分的行业,这也就意味着,没有一地、一家企业可独揽全产业链。因此,我国在集成电路局部领域集中突破并快速形成优势的可能性很大。”

缩短差距

但自信并不意味着自大。
即便不少国产芯片在技术性能上已局部接近甚至超越国际巨头,但后者在知名度、客户导入、销售网络、软件和生态方面的成熟度仍是巨大的护城河。
赵立东就在论坛上说: “国际巨头用几代人、数十年的巨大技术与时间投入积攒下的实力,我们想靠着一两代和几十名工程师就超越?梦都不敢这么做。”
要缩短与巨头间的差距,除了靠资金、人才、资源的高密集和超常规投入外,更快的更迭也非常必要。
如此次世界人工智能大会上荣膺SAIL之星奖的“地平线征程5全场景整车智能中央计算芯片”就很奋进。“征程5”系地平线第三代车规级AI芯片,采用16纳米工艺,单颗芯片AI算力最高为128TOPS,功耗30W,支持16路摄像头感知计算,可覆盖L4级自动驾驶需求,是国内首款可量产的百TOPS级大算力AI芯片。

“征程5”对标的是英伟达于2019年发布的7纳米自动驾驶芯片Orin。Orin单颗芯片算力可达254TOPS,功耗45W。可见“征程5”与国际巨头差距确在缩小。但英伟达去年4月又发布新一代自动驾驶芯片Atlan。Atlan采用5纳米制程,单颗芯片的算力能达1000TOPS,将于2023年向开发者提供样品。因此,留给地平线的时间真的不多了。大力压缩芯片核心技术指标与主流产品的差距,实现性能的快速迭代追近,实现“五年三代”甚至“一年一代”,或是国产芯的出路之一。
对于追芯路,赵立东的见解有四条。其一,架构创新。“国际巨头的生态与软件战,其实是基于硬件架构的,因为软件架构与硬件架构是相互匹配的。所以,要打破巨头独大,我们芯片的硬件架构必须创新。唯有架构实现原始创新,才能真正拥抱开放生态,产业才能得到健康长期的发展。”
赵立东的第二条支招在于“算尽其用”。当下,全国各地都在布局算力中心建设,但他认为,必须以价值创造来驱动算力中心建设,而非一堆板卡、算力硬件的简单堆砌。“在把服务器、硬件搬入算力中心前,一定要考虑上面的应用是什么。燧原正在与国内一座城市的地方政府合作,联合我们的算法模型合作伙伴,一起将应用及未来使用率一同设计进当地的算力中心。”赵立东还认为,高性能计算这条路尽管非常艰难,但必须要走,国产芯片应合作共赢、优势互补,实现多元化的产品形态和合作模式。另外,他也非常希望政府和行业协会能发挥牵引作用,建设相关标准和测试平台。“如果没有标准、各自为政,那就谈不上通用、生态。所谓生态,一定是大家在一起共用的东西。燧原科技愿意尽作为行业一员的责任。”