详情
搜索

如何破解大模型时代的算力困局?

来源:人民邮电报 时间:2023-06-19

ChatGPT爆火引发全球AIGC发展的新一轮热潮,而事实上,ChatGPT之所以能够成为火遍全球的顶流模型,离不开强大计算力,其背后是耗资数亿美元用了英伟达数万颗A100的微软超级计算机。目前,打造出ChatGPT的OpenAI公司依然巨额亏损,但提供核心算力芯片的英伟达公司已经实现了万亿美元的市值。全球大模型之争,同样是算力之争,算力正成为全球新一轮科技革命的竞争焦点。


全球算力产业正因AI大规模应用产生新的变化,新一轮的算力变革正在到来,智能计算正在重塑云、软件、芯片产业,还在影响其他产业的智能化转型。


AI算力选择和中国面临的挑战


AIGC大模型无论是训练还是推理,都是吃算力的“老虎机”。正因为如此,众多科技公司都在积极探索新的算力基础架构,以应对AI大规模的计算需求。


算力的核心是芯片,目前有几种芯片是大模型训练和推理的主流选择:一是GPU(图形处理器),二是ASIC(专用集成电路),三是FPGA(可编程逻辑器件)。


从当下全球AI大模型对于算力芯片的选择来看,GPU仍是主流的AI算力支撑。目前,GPU芯片被英伟达垄断,市场研究机构Jon Peddie Research数据显示,截至2022年第四季度,英伟达占全球GPU市场份额为82%,英特尔为9%,AMD为9%。


自从英伟达高端GPU对中国限售,中国AI市场的高端GPU就捉襟见肘,中国用户就只能使用英伟达针对中国市场的降维产品,这些降维GPU与国外的原版芯片存在一定的差距,虽然性能没有受到影响,但是数据传输速度受限、功耗增加,相应的电费以及训练成本必然增加。


GPU行业人士表示,互联网企业在计算数据中心整体成本支出时,高端产品一次性购买成本、机架占位/人工服务费(运维)、电费三者所占比重大约为3∶3∶4。如果英伟达A100、H100被禁用,只能采用12nm的V100产品,考虑到电费、机架费用的增加,整体成本支出将超过3倍。


即便是成本增加,英伟达的降维GPU在中国仍然一片难求。这几年国产GPU芯片快速成长,但与英伟达的高端芯片相比依然有一定的差距,这进一步加剧了中国在智能算力发展上面临的挑战。


随着大模型时代的到来,中国AI用户对智能算力提出更多的需求。业内相关人士透露,目前在一些智算中心,要想租用A800的算力,需要排队。国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》显示,当前我国超过30个城市正在建设或提出建设智算中心,但仍然无法满足相关的需求。


《2022—2023中国人工智能计算力发展评估报告》显示,中国人工智能计算力继续保持快速增长,2022年智能算力规模为268百亿亿次/秒(EFLOPS),超过通用算力规模。预计到2026年中国智能算力规模会达到1271.4EFLOPS,未来五年的年复合增长率达52.3%,同期通用算力规模的年复合增长率为18.5%。


用新思路加速AI算力发展


一方面中国AI算力需求呈现出高速增长的态势,另一方面,支撑AI核心算力的高端GPU芯片面临短缺,该如何破解中国AI发展的算力困局?


一是用新思路加快中国AI芯片产业的发展。应该说无论是在GPU还是ASIC、FPGA或是类脑AI芯片等赛道上,中国企业都在加快发展,呈现出百花齐放的局面,但在性能上与国外高端芯片还存在一定差距,加之工具与生态上的短板,发展高端AI芯片依然任重道远。


对于国内AI芯片产业的发展,我们除了要在“人有我有”的技术路线上加力,更需要在“人未有”的技术路线上进行更多探索。事实上,面对大模型庞大而多元的算力需求,国外芯片巨头都在寻求新的发展思路。


随着多模态成为大模型时代的大势所趋,未来的AI芯片需要同时处理文本、语音、图像、视频等多类数据,如何提高单芯片算力,如何提升算力利用率,实现更高的效能比,已成为大模型向AI算力基础设施提出的核心诉求。存算一体、先进互联技术、超异构集成等正成为AI芯片发展的主流技术。


存算一体、超异构集成的“系统级创新”正成为英伟达、AMD、英特尔等众多芯片巨头面对大模型的解题思路之一,综合考虑跨计算、跨通信、跨内存等元素,从而推动系统级性能和效能的提升,同样为中国企业在AI芯片上“换道超车”提供了机会。


二是推动基础软件与平台软件的创新。大模型时代的到来,不仅对底层芯片提出了更多挑战,基础软件同样面临更多的挑战,软硬协同创新是大势所趋。尤其是在中国,由于底层芯片存在短板,更需要软件与架构的创新,进一步提升底层算力能力,提升效率,降低成本。


应该说,基础软件是人工智能的底座,基础软件的发展水平决定了人工智能发展的深度、高度和广度。人工智能的发展离不开高质量的基础软件,算力的释放离不开高质量的基础软件,尤其是基础软件的工程化、易用性、完备性都是影响AI落地与发展的关键。


英伟达的GPU之所以在人工智能算力市场成为最大的赢家,其CUDA软件平台功不可没。所以当我们大力推动AI算力变革时,不可忽略基础软件和平台软件的同步变革。


事实上,未来随着算力性能逐渐同质化和标准化,数据的差异性和企业需求的个性化将逐渐加大,AI基础软件就成为提升模型训练效率和算力使用效率的决定性因素。随着多模态大模型的发展,操作系统、数据库都将发生深刻的变革,眼下向量数据库在成为数据库技术演变的下一个重要方向。


三是推进供需对接,加速算力网络变革。今年2月,中共中央、国务院印发的《数字中国建设整体布局规划》明确提出,系统优化算力基础设施布局,促进东西部算力高效互补和协同联动。这对跨域、异构算网资源的感知整合、灵活分配、智能调度提出了更高要求。与此同时,随着“东数西算”的推进,数据与算力之间的调度与整合也出现了一系列的问题,比如在应用端出现了“东数西渲”“东数西训”两个典型应用,对存力的跨区域调度提出了新的挑战。


破解这些难题,需要加速算力网络的技术与架构创新。比如最近浪潮推出算力网络操作系统,解决了传统分离式作业模式难以匹配端到端的需求场景等问题,实现算力、算效的全方位智能优化。又比如,针对“东数西算”“东数西存”,曙光存储推出了跨区域的自动数据迁移技术,能够智能识别东部数据中心的温冷数据并自动迁移到西部数据中心,最大限度利用西部数据中心在能源成本和海量存力、算力资源方面的优势。


大模型时代的到来,AI算力升级已是大势所趋,这给整个IT产业从芯片、软件到系统、云、应用等全产业链都提出了新的挑战,也带来重塑的巨大机会,我们需要解放思想、大胆探索,迎接新的AI算力时代的到来。


作者:北京鸿雪信息科技有限公司CEO 郑乃东