为什么昇腾要在门头沟共建一座智算中心?|甲子光年
作者 | 甲子光年2023-09-25
作者|刘杨楠

编辑|王博


2020年,北京市最后一座煤矿——隶属京煤集团的大台煤矿正式关闭。

鼎盛时期,京煤集团在北京拥有10座煤矿,为北京市民提供日常烧火、取暖用煤。2007年之前,北京煤炭年平均消费总量的60%来自京西的门头沟。

大台煤矿的关闭,标志着门头沟近千年来“乌金遍地下,百宝满山川”的历史画上句号。

在“大炮一响,黄金万两”的资源型产业逐步退出后,门头沟区经过漫长艰辛的产业转型探索,最终将转型重点锁定在“人工智能”“超高清数字视听”“心血管领域医疗器械”三大细分领域,并集聚起近百家专精特新企业,昔日的“矿山”经济已经蝶变为高精尖的“智慧”经济。

作为门头沟区的三大产业之首,人工智能产业是门头沟区探索高质量发展的缩影,“京西智谷”成为了门头沟区的新名片。

打造“京西智谷”,离不开算力的支持。今年6月,京西智谷人工智能计算中心(以下简称“智算中心”)正式上线。7月,科技部正式批复京西智谷人工智能计算中心为“国家新一代人工智能公共算力开放创新平台”,这标志着该中心作为华北地区首个获批“国智牌照”的人工智能公共算力开放平台,被纳入全国人工智能算力发展战略体系。9月14日,依托智算中心的算力支撑,北京算法交易服务中心正式成立。

门头沟一直在为北京的发展提供动力——过去是煤,现在是算力。

而算力技术,来自昇腾。借助昇腾计算底座的技术能力,智算中心首批算力规模已达到100P(1P约等于每秒1000万亿次的计算速度),今年算力规模将达到400P,并将持续扩容至1000P。

北京各区并不缺科创的沃土,为什么昇腾会选择门头沟?

「甲子光年」近期走进了“京西智谷”,采访了产业相关方,试图揭开这座“北方算力枢纽”的神秘面纱。

图片

京西智谷,图片来源:「甲子光年」拍摄


1.破局点:智能算力

近年来,门头沟区关闭了区属全部270多家乡镇煤矿,500多家非煤矿山、砂石厂,但随之而来的是,京西地区经济总量和财政收入大幅下降,填补产业空心化迫在眉睫。

如何破局?

尽管现在人们已经知道答案是“三大产业”,但翻看过往的规划,「甲子光年」发现门头沟区在人工智能领域早有布局。

在2019年获批的门头沟区分区规划(2017年—2035年)中,新城南部片区就被定义为“创新发展轴”,位于这里的中关村门头沟园,其主导产业就有人工智能。

图片

门头沟分区规划(国土空间规划)(2017年—2035年),门头沟区政府官网

中关村门头沟园管委会相关负责人表示,在人工智能产业发展热潮中,算力跟基础设施是一样的,大企业有自己的算力,而对于中小企业来说,算力非常宝贵,为中小企业提供普惠的算力服务,在北京市范围内,门头沟区是第一个破题的。“我们破解了这个难题,同时也解决了门头沟自身发展的难题,找到了破局点。”

「甲子光年」智库管理分析师刘瑶认为,在现代人工智能领域,算力扮演着推动创新、实现突破的核心驱动力。算力、算法、数据和系统架构等多个方面的综合优化对于大模型训练至关重要。

去年11月底,ChatGPT在人工智能领域点亮全新的科技树。仅半年后,北京便推出《北京市促进通用人工智能创新发展的若干措施》(以下简称《措施》),《措施》的第一项便是“提升算力资源统筹供给能力”。

全球各国的科技巨头都为英伟达的H100抢破了头,算力告急。对中国AI企业而言,由于众所周知的原因,获取算力资源面临重重限制。但无论如何,国内的大模型研发不能停,找到英伟达“平替”是整个产业链上下游都为之努力的事。

IDC预测2021年到2026年期间中国智能算力规模年复合增长率为52.3%,远高于同期预测的基础算力的增长率。《2022—2023全球计算力指数评估报告》显示,计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。

「甲子光年」智库在《中国AIGC产业算力发展报告》中指出,智能算力持续增长,未来需求增加,进一步加快了智算中心建设及相关设备增长。

图片

《中国AIGC产业算力发展报告》,图片来源:「甲子光年」智库

由此看来,门头沟区以智算中心为抓手,布局人工智能产业,其背后有着深入的行业洞察。

京西智谷人工智能计算中心目前已与50多家单位开展商务合作,对接了300多家北京市人工智能相关机构。从三个层面来看:

基础算力层,智算中心将不断扩大算力规模。100P算力集群内置320张卡,400P算力集群将有1200多张卡,1000P集群卡数达3200张;

框架层,智算中心正在引入华为、百度等国产开源框架生态,同时也拥抱国际主流使用的Pytorch、Tensorflow;

模型层,智算中心支持开源大模型的服务,帮助企业在大模型时代加快业务创新,已适配并提供ChatGLM-6B、华为开源盘古、Baichuan-7B/13B等多个开源大模型。同时还适配多个业界主流开源模型,包含自然语言处理、计算机视觉等多个领域,已有几十家人工智能企业在此孵化基础大模型、行业大模型和应用模型。

这一切成果,都来自于一场双向奔赴。

2.昇腾和门头沟的双向奔赴

当前人工智能技术快速发展,对产业影响逐步加深,为了抓住这一历史性战略机遇,华为提出全面智能化(All Intelligence)战略。华为副董事长、轮值董事长、CFO孟晚舟9月20日在华为全联接大会2023上表示,“华为致力于打造中国坚实的算力底座,为世界构建第二选择。我们将持续提升‘软硬芯边端云’的融合能力,做厚‘黑土地’,满足各行各业多样性的AI算力需求。”

图片

华为副董事长、轮值董事长、CFO 孟晚舟发表主题演讲,图片来源:华为

在全国算力基础设施领域,昇腾是一个不可忽视的存在。此前,昇腾人工智能计算中心已经在深圳、武汉、西安、许昌、广州、青岛等城市落地。

为什么昇腾会选择在北京门头沟“落下一子”?

对于人工智能这样的高精尖产业而言,门头沟其实有一定区位优势。

很多人印象中的门头沟是山区,但其实门头沟新城距离天安门以及海淀区的高校开车仅需30-40分钟,且快速路免费通行;作为长安街延长线区域,门头沟区有充沛的产业空间,可承载足够多的人工智能初创企业;由于近几年内门头沟重点建设生态,没有工业聚集,使得门头沟的土地成本及生活成本较低,比较宜居;另外,生态建设也为门头沟积累了充分的能耗指标,足以支持智算中心的运作。

不过,除了本身的区位优势外,昇腾来到门头沟还有着某种“历史必然性”。

建设智算中心是一个需要消耗人力、物力、财力的大工程,政府通常先要算一笔“经济账”,严格考量智算中心给区域带来的产业价值。对于一些人工智能产业集群成熟的地区而言,区域内头部企业可以用自有资金建设人工智能计算中心,政府便不会再出资建设集中化的智算中心。

作为历史悠久的资源依赖型地区,门头沟区的产业结构十分单一,缺少发展各类工业的制造基础。也正因如此,面对颠覆性的技术浪潮,门头沟区没有太多沉重的包袱,能够更加专注地投入人工智能这样对制造基础没有过高要求的高精尖产业。

这种“力出一孔”的笃定,让门头沟区能够更加包容中小企业。

“人工智能企业早期是很烧钱的,可能很长时间才能看到成果,通用大模型慢慢走向行业大模型,形成集成化应用后才能变现。一些产业集群比较成熟的大区,对这些人员规模不大、无法产生上量税收的中小型企业可能关注比较少。”北京昇腾人工智能生态创新中心COO李天哲告诉「甲子光年」,“但他们来到门头沟会很受重视,门头沟区政府非常亲民,给了企业大量支持。”

昇腾也被这种氛围所感染。“我们是被门头沟区领导的激情给点燃的,我说的是‘激情’,而不是‘热情’。他们发展人工智能产业的决心点燃了我们。”回忆起当初合作的过程,华为北京战略与Marketing部部长刘海涛依然很激动。这种决心,让昇腾落地门头沟,与各方共同打造“京西智谷”,成为了水到渠成之事。

或许有人会疑惑,在算力基础设施方面,已经有传统IDC、公有云IDC等模式,为什么各地还要建设人工智能计算中心?

对此,北京昇腾人工智能生态创新中心CTO杨光解释,相比于传统IDC,智算中心的液冷设计使得其PUE值(能量使用效率)等能耗指标更低,从而提高机柜整体的算力密度;相比于公有云,智算中心的服务更加敏捷,智算中心由政府投资建设并由区属国企运营,相对于飘忽不定的云节点,智算中心也更能保障数据安全。

目前,全新的大模型技术范式给智算中心提出了更高的要求。

训练大模型所需的算力集群已经达到千卡、万卡级别,这个数字还会随着模型规模的扩大而继续扩大。智算中心需要每天24小时不间断运行,算力集群的能耗将随之暴涨。

此外,如果大模型训练已经完成99%,智算中心突然断电或死机,前期努力将付之东流。因此,运作如此大规模的算力,智算中心的能耗和稳定性都直接影响着其可用性。

昇腾人工智能计算中心已经在全国多地的实践中积累了许多经验。

能耗方面,智算中心已经实现全液冷设计。近年来,传统IDC单机柜功率达到8千瓦,一些高端计算甚至达到20、30千瓦,但液冷技术加持的服务器单机柜密度已经超过100千瓦。单机柜密度越大,占地面积越小,设备管理成本越低。

也正因如此,京西智谷人工智能计算中心才能在仅50平方米的房间内,“装下”100P的算力。100P大约相当于五万台高性能电脑的算力集合。实际置身北京机房,几乎听不到太大噪声,这里只有一台Atlas 900 AI 集群( Atlas 900 PoD )。

图片

京西智谷人工智能计算中心机房,图片来源:受访者提供

在系统可用性方面,昇腾智算中心不仅在硬件上不断优化,也相应地对软件进行调优升级,从而保证机器的高可用性。

这些经验已经被带入“京西智谷”。

昇腾与门头沟区、中关村发展集团合作打造的京西智谷人工智能计算中心,正是瞄准了中小企业训练行业大模型对算力的渴求。

对于还在起步阶段的中小企业而言,算力无疑是稀缺资源。他们没有足够的财力和大厂争夺GPU或自建算力中心,但同时又希望抓住大模型浪潮大干一场。寻求政府扶持并与大企业合作无疑是一条性价比最高的路。

“京西智谷”联合北京市知识产权局打造的专利中心,让中小企业的模型训练过程更加可售、可管、可控。“整个智算中心的数据就全部保存在京西智谷人工智能科技园中,园区企业使用智算中心的速率会更快也更安全。”杨光表示。

同时,本地化部署算力也能帮中小企业节省大量时间成本,中小企业使用模型算法会更便利。“我们依托门头沟的智算中心建立了一个无形的技术交流圈。园区企业或是京西人才培养基地的开发者在做算法或技术迁移的过程中遇到任何问题,都能随时到我们办公室一起讨论。”杨光分享道。很多时候,把握时间优势,是决定初创企业成败的重要因素。

不过,要发展人工智能产业,只有算力显然不够。模型算法设计上的工程创新,很大程度上成为点亮大模型魔法的最后一把火。

要繁荣算法,就要有强势的人才储备。

3.人才是算法的“源动力”

从DeepMind的Alpha系列,到OpenAI的GPT系列,再到Meta的Llama系列,每一个点亮AI魔法树的模型背后,都有一个足够硬核的研发团队。

过去半年,在“扑朔迷离”的大模型刷榜热潮中,投资者或普通用户要判断大模型的能力,很重要的一个侧面也是看大模型研发团队的构成。

今年5月,北京市门头沟区颁布首个人工智能算法领域专门人才政策——《关于实施算法人才集聚行动 打造“京西智谷”的若干支持措施》。目前北京人工智能领域核心技术人才超4万人,人工智能论文发表量居全国第一。在专利授权数量全球排名前100的机构中,北京总部机构30家。

「甲子光年」梳理发现,这份人才政策最大的亮点在于,将算法人才支持拓展到产业细分领域关键要素上,在创业空间、算力支持、算法交易、融资保障等10个方面为人工智能算法人才创新创业提供精准支持。

比如,对算法人才创办企业的,前3年免费入驻“算法创客空间”,并提供算力补贴;建立“算法交易所”“京西智谷融资服务平台”,支持算法人才将算法产品上市交易,并为算法人才在创办企业、科学研发等方面提供便捷的融资服务;对在科研平台建设、科研成果研发等方面有突出贡献的人才,最高奖励500万元;同时为算法人才提供引进落户、人才租赁住房、就诊绿色通道、适龄子女入学入园等方面的服务保障。

“作为北京人工智能重点布局地区,门头沟区将结合此次人才政策的出台,进一步贯彻重才、爱才、用才、兴才的理念,不断优化‘京西智谷’人才发展生态体系,形成创新创业的独特优势。”门头沟区委组织部相关负责人表示。

要培养人才离不开高校的参与,但门头沟所在的京西地区整体不具备人才优势,唯一一所高校是位于石景山区的北方工业大学。为盘活人才资源,门头沟区决定联动周边高校资源。

那么,如何吸引高校与门头沟合作呢?

在今年8月举办的中国计算机学会(CCF)人工智能会议上,多所高校提到的算力需求问题。“对高校而言,算力存在非常大的约束。”在西安电子科技大学教授苗启广看来,面对算力不足的现状,如何充分利用好外界提供的算力,是高校需要思考的问题。烟台大学计算机与控制学院教授王莹洁也表示,对高校来说,使用算力是一件需要“砸钱”的事。

如何更好地利用算力平台为科研服务,也是高校的需求。

据了解,教育部、华为在2020年底就联合发起“智能基座”产教融合协同育人基地,首批布局72所高校。旨在深化信息技术领域人才培养模式改革和协同创新,构建以信息技术领域关键核心技术为基础的产业与人才生态。

看到这一契机,今年2月,门头沟区便开始于北京市教委接触,商讨合作。5月,双方达成共识,开始在北京各大高校推广昇腾的教学课程。上文提到的首个人工智能算法领域专门人才政策便在此基础上逐渐成型。

目前,北京航空航天大学、北方工业大学、北京工商大学等高校均已参与到这轮人才培养计划中。具体的合作形式和内容则根据学校自身教学特色有所差异。

其中,北京航空航天大学与昇腾的合作更多建立在其自研的根技术之上。2020年,北航与华为签订战略合作协议。目前,双方已经完成四期合作培养,每一期教学都会有华为的技术专家到场授课,课后还会有华为的工程师团队指导学生的实践项目。

北方工业大学则以培养应用型人才为主。去年,北方工业大学成立了“数字产业学院”,希望建立一个产教融合的平台,并为此设立了相应的产业教育项目,面向所有专业同学开放。

北方工业大学数字产业学院副院长徐继宁对「甲子光年」说:“我们在京西,也要服务京西,我们和门头沟人工智能园区的合作是全方位的,我们自己的老师也和华为在自主创新技术方面进行了科研方面的合作。”

北京工商大学与门头沟的合作节奏也很快——今年4月开始与门头沟区接触,5月便签订校企合作协议,7月便有7名教师参加了昇腾组织的培训课程,学习昇腾AI的软硬件平台。今年10月,学校将与昇腾共建新的课程体系,在机器学习、深度学习、图像处理、模式识别等方向与昇腾密切合作。同时,北京工商大学也购买了部分昇腾算力用于教学和科研。

事实上,无论是校企合作,还是建设人才实训基地,都不同程度服务于一个共同目的——为产业园区“聚人气”。依托智能算力的支持,各方希望在门头沟共同建立一个人工智能算法领域的“黄埔军校”,而算法的发展和迭代又能拉动算力的需求。

图片

《中国AIGC产业算力发展报告》,图片来源:「甲子光年」智库

计算是个生态型产业。在英伟达创立之初,工程师们更多会扮演“学生”的角色,奔波于各地,联合高校、企业共同创新。建立技术壁垒后,英伟达才逐步向高端算力发展。这个进化过程中,英伟达也逐步形成了自己的生态。

“我们积极与北京各大高校开展科研联创和人才培养活动。希望从培养学生开始,让更多开发者会用昇腾和昇思,并逐渐围绕昇腾技术路线培养一批技术骨干,这些技术人才未来进入产业界,能够更好地支持企业基于昇腾和昇思打造有行业竞争力的AI解决方案。”说这句话时,杨光的眼中闪着光。

未来,门头沟区也将持续与北京各大高校建立合作,后续或将与20多所高校陆续建立合作。同时,高校学生可以在门头沟区内的实训基地切身感受到昇腾技术底座的迭代,也将与园区内企业对接,为高校学生提供更多实训、实习机会。

4.“黑煤”已成“黑土”

在人工智能产业发展过程中,算力和算法是必不可少的技术“骨架”,而多元的应用生态则真正为人工智能产业注入“血肉”。

目前,京西智谷人工智能计算中心已经与多家企业在应用层展开合作。

中科视语(北京)科技有限公司是中国科学院自动化研究所科技成果转化企业,2018年就来到了门头沟。可以说,中科视语一路见证了“京西智谷”从无到有的蜕变。

Transformer时代开启后,中科视语便开始探索人工智能大模型的基础建设。“自建算力中心成本对我们来讲非常巨大,”中科视语联合创始人张腊说,“智算中心建成后,中科视语成为了第一批享受到红利的企业。”中科视语的“视语坤川”通用视觉大模型就是在昇腾910和智算中心算力的加持下所训练而出的专门针对道路病害识别的大模型。

图片

全自动多功能无人驾驶道面病害检测车,图片来源:受访者提供

目前,双方的合作模式也比较灵活。智算中心会根据中科视语的实际需求签订月租或年包服务,合作过程中,也会根据实际需求灵活调配算力。除提供算力外,智算中心也会提供昇腾配套的工具链,支持行业模型的训练部署和调试,降低了企业适配整体计算环境的时间成本。

格灵深瞳也正在与智算中心洽谈合作。

格灵深瞳副总经理周瑞介绍,公司内部原本有一个小型机房,但公司并不希望管理大规模的固定资产,机房运维、升级等工作十分繁杂。

因此,面对当前大模型所迫切需要的大规模算力支持,格灵深瞳更希望寻求成熟算力系统的支持。“每次我们内部聊起这个机房的时候,我总说能不能把这个机房‘处理掉’。”周瑞开玩笑道。

目前,格灵深瞳的智慧体育、人机交互、轨道交通等业务线所涉及到的机器识别、三维重建算法,均来自于对内部图像预训练大模型的蒸馏和量化。公司会根据大模型设计下游任务,并生产规模更小的行业模型,应用在实际场景中。

图片

格灵深瞳智能列车巡检机器人,图片来源:「甲子光年」拍摄

可以看到,从算力、算法、数据到应用生态的建设,门头沟联合各方几乎在倾尽所能发展人工智能产业,打造“京西智谷”。目前,已有几十家人工智能企业在此孵化基础大模型、行业大模型和应用模型,这里成为了人工智能产业的“黑土地”。

现在只是通用人工智能时代的序幕,“京西智谷”最终能在通用人工智能时代扮演什么样的角色,还需要时间来证明。

但对于门头沟而言,它注定已经成为区域产业转型中浓墨重彩的一笔。

(封面图来源:受访者提供)

没有关键词
热门文章
“新皇”登基!英伟达正式取代高通:登上全球IC设计龙头根据TrendForce集邦咨询最新报告,AI刺激相关供应链备货热潮,不仅激励第二季全球前十大IC设计公司营收达381亿美元,环比增长12.5%,
2023-09-25
X