第1章 人工智能发展的前沿 趋势与挑战(代序)
- 对话时代:铸造新质生产力的强国之路
- 朱嘉明 陶虎 沈阳等
- 17241字
- 2025-03-20 17:00:17
这不是未来,这一切都正在发生。
——黄仁勋
人工智能是新质生产力的重要组成部分。人工智能是涉及思想、科技、经济和社会领域的综合性技术。人工智能技术不同于人类历史上的农业技术、工业技术和信息技术,它发源于自古希腊直至近现代知识精英的一种信仰、一种观念、一种精神,即智能并非仅仅为人类所有,人类所制造的机器也可能产生智能,因为智能最终是可以被计算的。1936年,图灵机的诞生,无疑是人工智能史上里程碑式的事件。80多年以来,对人类社会而言,人工智能已不仅仅意味着某种科学、技术,而且意味着思想、经济和社会的颠覆性变革。经过不断迭代、演化,人工智能已经并将继续证明长期主义和加速主义相互作用的历史意义。本文所讨论的是2022年以来全球人工智能发展的前沿、趋势与挑战。
2022—2024:不断加速推进的人工智能前沿
1.大语言模型(或称大模型)
人工智能的发展历史可以分为不同的阶段。2022年11月,OpenAI发布ChatGPT,生成式人工智能(Generative Artificial Intelligence, GenAI)开始蓬勃发展。生成式人工智能是基于模仿人类的神经网络的机器学习技术,通过文本、图像、音乐、视频等形式创造全新内容。
GenAI的集中代表就是大语言模型(Large Language Model, LLM)。所谓大语言模型,就是基于大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。也可以说,大语言模型是以深度学习为基础,通过模拟人脑处理信息的方式,使用多层神经网络来识别数据中的复杂模式。
在现阶段,人工智能的核心所在就是大语言模型。世界主要国家和主要公司主导了大语言模型的开发,呈现井喷式增长,形成不断膨胀的大语言模型集群。影响大语言模型性能的主要变量是训练数据、模型规模(即参数数量)、生成算法和优化技术。大语言模型的特点包括:(1)参数大。大语言模型的参数数量通常可以达到数十亿甚至数千亿。(2)具有图像识别和预测分析能力。(3)具有数据的理解和泛化能力。能够学习并执行多种复杂的任务,在自然语言处理(NLP)中,实现机器翻译、情感分析和智能问答的精准和高效。
ChatGPT与谷歌的Gopher、LaMDA,以及Meta的Llama是大语言模型的全球代表。其中,2023年,OpenAI发布的GPT-4是一个系列的模型总称,而不是一个单独的模型。2024年5月,OpenAI推出的GPT-4o模型在文本、语音和图像的理解方面,展现出处理数百种语言的卓越能力,且能进行实时语音对话,准确捕捉和表达人类情感。同年6月,Anthropic公司正式推出的Claude 3.5 Sonnet模型,在编码能力、视觉能力和互动新方式方面超越了Claude 3 Opus和GPT-4o。更令人兴奋的是,Claude 3.5 Sonnet引入创新的“Artifacts”功能,允许用户在动态工作空间实时编辑和构建AI生成的内容,将对话式AI转变为一个协作伙伴,无缝集成到用户的项目和工作流程中。特别是Claude 3.5 Sonnet还以其两倍于前代的速度和1/5的成本,重新定义了智能模型的性价比。
同样在这个6月,大语言模型领域出现突破性进展:OpenAI发布基于GPT-4模型的CriticGPT,用于捕捉ChatGPT代码输出中的错误。也就是说,CriticGPT就是一个通过GPT-4查找GPT-4错误的模型,不仅可以撰写使用者对ChatGPT响应结果的评论,而且可以帮助人类训练者更好地理解和满足人类的意图,发现和纠正基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)的错误,表明人工智能在评估高级AI系统输出的目标方面迈出关键一步。
2.AI平台
伴随AI覆盖人类生产和生活的方方面面,构建AI平台成为大势所趋。AI平台提供的是全球领先的语音、图像、NLP等多项人工智能的多模态技术,以及开放对话式人工智能系统和生态。目前,全球有谷歌、TensorFlow、微软Azure、OpenAI、英伟达、H2O.ai、亚马逊网络服务(Amazon Web Services,AWS)、DataRobot和Fotor所提供的九大AI平台。其中,英伟达Omniverse是专为虚拟协作和实时逼真模拟打造的开放式平台,借助GPU和CUDA-X AI软件等强大的生态系统,提供业界领先的解决方案,包括机器学习、深度学习和数据分析。
AI平台的发展趋势主要是垂直化和专业化。例如,AI美术平台是通过人工智能技术进行图像处理和创作的平台,帮助艺术家和非专业人员以人工智能绘画形式快速生成有趣、具有美学价值的绘画作品,从中形成创作灵感和艺术体验,给艺术界带来更多的创新和可能性。Midjourney、Stable Diffusion属于影响力不断扩展的AI美术平台。又如,Suno v3.5作为AI音乐生成工具,生成的音乐长度由原来的2分钟变成了4分钟,音乐结构显著优化。AI音乐生成平台对于很难用语言描述清楚的听觉艺术的内行程度,展现出具有超越人类的创作潜力。Suno宣布还将推出一项全新的功能,允许用户用任何声音创作歌曲。这项新功能可以将日常生活中的各种声音转化为音乐,为音乐创作带来了新的可能性。
3.AI堆栈
从硬件的角度看,AI堆栈(AI stack)的基础是GPU、CPU和TPU。生成式AI堆栈中最重要的是GPU。但是,AI堆栈还包括AI软件体系,最终构建的AI堆栈是一个系统和生态。
深入分析可知,AI堆栈是一个结构化框架,包含了开发和部署AI系统所需的各种层次和组件。AI堆栈的关键组件包括数据管理、计算资源、机器学习框架和机器学习运维(MLOps)平台。生成式AI的堆栈包含三个层级:顶层、中层和底层。顶层涉及特定领域的知识和专业知识,中层提供可用于构建AI模型的数据和基础设施,底层则是云计算资源和服务。在每个层级中取得进展对于推动AI的发展至关重要。AI堆栈的基础支柱包括:数据、计算和模型。其中,生成式AI需要大量的计算资源和大型数据集,这些资源在高性能数据中心进行处理和存储生成式AI推动了全栈的重塑。
一般来说,基于AI堆栈,可以构建具有快捷搜索、快捷翻译、智能识别、智能操控等特征的人工智能应用程序。
4.物理世界模拟器
对于当代人类而言,存在三个世界:现实的经验世界、虚拟世界与超越人类时空感知的物理世界。人工智能直接影响了人类与以上三个世界的关系。在现实的经验世界,人工智能和自然智能的平行和互动,改变了现实世界存在的方式;在虚拟世界,人工智能和现实虚拟技术可以引导人类进入非真实的沉浸式体验状态,元宇宙就是其中的一种方式;在超越人类时空感知的物理世界,人工智能可以帮助人类突破感官的局限性,认知以百亿光年为尺度的宇宙和以纳米为衡量单位的微观场景。在科学实验领域,人工智能技术不再仅仅是工具,而且是前提。
2024年年初,Sora出现的根本意义是:通过自身的物理世界模拟器(world simulator)功能,展现了一个人类可能没有感知的物理世界,一个很可能比人类眼睛看到的更真实的物理世界。人类一旦感知和融入因为AI物理引擎所创造的世界,将会体验更加多样的物理规则。
Sora在进行视频生成任务时,基于感知、记忆、控制模块的支持,生成的视频一定程度上能够遵循现实世界的物理规律,这使得其模拟现实世界中的人物、动物、环境等,拥有了更广阔的想象空间,基本实现了空间一致性、时间一致性和因果一致性。Sora是一个可读懂世界模型,其现阶段做得如何,并非问题的本质。Open-Sora 1.1发布后,视频生成质量和时长大幅提升。优化后的Causal Video VAE架构极大地提升了Sora的性能和推理效率。
英伟达的重要贡献之一是完成了Earth-2数字孪生地球模型。Earth-2结合了生成式AI模型CorrDiff,基于WRF数值模拟进行训练,能以12倍解析度(从25公里范围提高到2公里)精确预测天气信息。Earth-2的下一步是将预测精度从2公里提升到数十米。解析度更高,相比物理模拟的运行速度提高了1000倍,能源效率提高了3000倍,也就是说可以实时预测。
前景是非常清楚的:人类将构造作为感知/记忆/控制综合体、具有构建逼真和物理正确的“世界模型”。正是在这样的意义上,微软科学家塞巴斯蒂安·布贝克(Sébastien Bubeck)提出了“AI物理学”概念和研究方向。英伟达CEO黄仁勋也提出:AI的下一波浪潮将是物理AI。所以,英伟达的数字孪生目标不只是地球,还有整个物理世界。
5.具身智能和智能机器人
人工智能的发展,必然导致人工智能生态的形成。而具身智能(Embodied Artificial Intelligence, EAI)或者智能机器人就成为人工智能生态中的主体。
具身智能是人工智能在物理世界的进一步延伸,是能够理解、推理并与物理世界互动的智能系统,具有人机交互与自然语言理解的能力,实现思考、感知、行动。进一步说,智能机器人会模拟人的思维路径去学习,作出人类期待的行为反馈,在多模态AI的驱动下,自我学习、感知世界、理解并执行人类指令,完成个性化任务和协作要求,持续进化。即在真实的物理环境下,执行可以被检验和测量的各种各样的任务。简言之,具身智能的特质就是能够以主人公的视角去自主感知物理世界。
至于各种不同形态的智能机器人,是具身智能的物理存在方式,其整体架构由感知层、交互层、运动层组成。特斯拉旗下人形机器人“擎天柱”从一代发展到二代、美国人形机器人初创公司Figure AI今年2月获得巨额投资,以及英伟达2024年全球技术大会(GTC)上展出25款人形机器人,都显示了人形机器人领域的快速发展。
2024年3月,英伟达推出了世界首款人形机器人通用基础模型——Project GR00T。该模型驱动的机器人能够理解自然语言,并通过观察人类行为来模仿动作,用户可以在此基础上教会其快速学习协调各种技能,以适应现实世界并与之互动。Project GR00T的出现预示着真正的机器人时代可能要来了。这也是AI的最终极应用:让人工智能具象成为“人”。
具身智能的兴起,标志着机器人技术从传统的以控制为主,转向了学习、操作的新范式。大模型技术的爆发和硬件成本的降低,使得旨在开发出能与物理世界交互的智能机器人的具身智能企业如雨后春笋般涌现。
2024年5月,作为机器人领域最具影响力的国际学术会议之一的国际机器人与自动化会议(IEEE ICRA)在日本横滨举行。今年的会议主题“CONNECT+”,不仅展示了机器人技术的最新进展,而且是一场“具身智能”和“学习”的革命。从长远看,具身智能对人工智能产业发展意义重大,对通用人工智能(Artificial General Intelligence,AGI)具有不可忽视的价值。
6.空间智能
现在存在两种空间智能(Spatial Intelligence):一种是自然进化形成的空间智能。大自然花费了数百万年时间,让人类进化出空间智能,眼睛捕捉光线,将2D图像投射到视网膜上,再由大脑将这些数据转换成3D信息。另一种是以人工智能技术为基础的空间智能,即机器模拟人类的复杂视觉推理和行动,在多种传感器辅助的情况下,通过视觉信息直接理解和操作3D世界。
比较自然进化形成的空间智能和以人工智能技术为基础的空间智能,差异是显著的:自然进化形成的空间智能在空间维度上是有限的,突破3D空间是困难的,甚至是不可能的。但是,以人工智能技术为基础的空间智能可以突破空间维度。这样的空间打破了地理界限,处于流动的、无边无际和自由开放状态。不仅如此,这样的空间不再受制于牛顿的时间限制,实现了及时性和时间优化。例如,谷歌研究人员开发出一种算法,只需要一组照片,就能将数据转化为3D形状或场景。
在这方面,李飞飞有过以下深刻的思考:“把视觉敏锐度和百科全书式的知识深度结合,可以带来一种全新的能力。这种新能力是什么尚不可知,但我相信,它绝不仅仅是机器版的人眼。它是一种全新的存在,是一种更深入、更精细的透视,能够从我们从未想象的角度揭示这个世界。”[1]也就是说,建立在人工智能技术基础之上的空间智能将突破自然进化形成的空间智能,展现一个人类无法依赖大脑想象的空间状态。例如,量子力学所描述的量子空间指的是由一些离散的或者连续的态组成的、具有拓扑特征的空间。人类自然进化而来的空间智能没有可能感受和认知量子空间,人工智能技术支持的空间智能则是可能的。
总之,基于人工智能大模型的空间智能引导人类进入“一种全新的存在”,而具身智能很可能是这里的“原住民”。
人工智能的产业化
1.AI产业的软硬一体化基础设施
追溯过往,人工智能的发展始终伴随着硬件性能的突破。早期,AI算法受限于通用处理器的计算能力,中央处理器(CPU)发挥关键性作用。之后,随着机器学习和深度学习的崛起,图形处理器(GPU)扮演越来越重要的角色。不论是CPU还是GPU,其物理形态都是芯片。人工智能产业是对芯片具有依赖性的产业,而大语言模型更是高度依芯片。
20世纪90年代初期,GPU的功能集中在提高计算机图形性能方面。进入21世纪后,GPU架构迭代频繁,从按照固定方式工作转变为可以编程的智能芯片,从专用图形处理器发展为高效的通用计算平台,向外扩展到人工智能、高性能计算等领域,适用于渲染图形和执行复杂的计算任务。GPU的优势包括高数据吞吐量,因为它包含大量内核,可同时处理同一任务的不同部分;通过并行计算执行大量计算;适用于数据科学领域的分析程序,有助于生成深度学习算法时在机器学习中的应用。未来GPU可能的发展方向包括更高程度的并行化、更低功耗设计、更强大的AI计算能力等。目前,在全球范围内,英伟达是最大的GPU生产厂商。近年来,大语言模型对于GPU无可遏制的巨大需求,推动GPU成为一个全新的产业。2024年GPU市场大爆发:AI将推动GPU产值破千亿美元,在这其中英伟达独占鳌头。英伟达的NVLink是世界上最先进的GPU互连技术,可以将不同的GPU连接在一起,从而能够让十万亿参数的大语言模型运行起来。
在定制化的AI芯片中,除了CPU和GPU,还有张量处理器(Tensor Processing Unit,TPU)、神经网络处理器(Neural Network Processing Unit, NPU)。TPU专注于高效执行张量计算,其中包括矩阵乘法、卷积等常见的神经网络操作。TPU通过特定的硬件结构和优化指令集,能够提供比传统CPU和GPU更高效的机器学习性能。2024年,谷歌将专为生成式人工智能模型推出第六代TPU芯片“Trillium ”。Trillium高带宽内存(HBM)容量和带宽将增加一倍,以处理更大的模型,提升能效和内存吞吐量,从而改善大模型的训练时间和服务延迟。CPU、GPU和TPU的交互运行,预示着AI+硬件协同进化,有助于形成异构计算,使架构设计、计算性能、适应性、功耗和效能比、使用成本等更为合理。
在AI产业的软硬一体化基础设施中,AI网络和AI云是重要组成部分。亚马逊网络服务(AWS)、微软Azure和谷歌Cloud等云平台提供可扩展的资源和GPU,用于训练和部署生成式AI模型,推动智算时代向云网一体,实现通信行业智能化转型。
2.多模态和AI多模态搜索
大语言模型的进化,不可避免地要与多模态基础模型融合。大语言模型加持的多模态大模型,最终形成多模态大语言模型(Multimodal Large Language Model, MLLM),从而推进大脑进行多模态研究。MLLM显现了不可低估的和持续不断的涌现能力。
在多模态大语言模型中,语言处理继续处于核心地位。它通过整合多种感知输入,在更广泛的上下文中锚定决策来增强推理,类似于人类大脑如何整合丰富的感官输入以形成更全面的知识基础。与此同时,它通过图像生成,以及视频、3D点云图等方式形成的视觉生成的功能,合成训练数据,帮助人们实现多模态内容理解和生成闭环。
多模态搜索是一种基于多模态大语言模型的搜索技术,允许用户通过多种类型的数据(模态)进行搜索查询,支持推理和复杂任务,提供更加丰富和准确的搜索结果,实现搜索生成的目标。目前,能将文本、图片、音频、脑图等多模态答案集成在一起,为用户提供图文并茂的搜索体验的厂商还是有限的。
多模态同样需要代理。所谓多模态代理,就是一种将不同的多模态专家与大语言模型联系起来解决复杂多模态理解问题的办法。从长程发展看,语言和文字是人类对世界理解和认知的符号,存在诸如信息过长、数据过大,以至于提炼过程会发生损失、冗余甚至错误等问题。或者说,很难避免出现基于自然语言的语义理解、逻辑推理、不确定性知识等问题,以及通用性和泛化性等局限性。所以,多模态打破自然语言作为核心媒介的格局,以最原始的视觉、声音、空间等方式直接连接世界和重塑世界。
在多模态AI浪潮中,OpenAI的GPT-4o和Meta的“变色龙”(Chameleon)都属于多模态的代表性模型,它们的出现,产生了多模态模型发展的新范式。OpenAI称,GPT-4o是首个实现了“端到端”训练,跨越文本、视觉和音频的模型,所有的输入和输出都由单个神经网络处理。所以,GPT-4o是“首个‘原生’多模态”模型。“变色龙”与GPT-4o一样,也采用Transformer架构,使用文本、图像和代码混合模态完成训练。不论是GPT-4o还是“变色龙”,都是新一代“原生”端到端的多模态基础模型早期探索。
3.AI终端
过去两年,人工智能加速进步,兴起了人工智能技术终端化浪潮。AI终端可以理解为:集成人工智能技术,执行复杂任务、提供智能化服务和交互体验的电子设备。按照设备类型,AI终端可以分为智能手机、个人电脑、智能穿戴设备、智能家居设备、车载信息系统等。AI终端产业生态图谱展现了该产业的三个核心层次:核心层、平台层和应用层,构成一个完整的生态系统。
目前,市场渗透率最快的AI终端包括:(1)AI电脑。鉴于AI大模型当前所涵盖的应用领域与PC的使用场景高度契合,AI PC被誉为“大模型的理想载体”。有机构预计,2024年AI笔记本电脑出货量达到1300万台,2027年AI PC的市场渗透率将逼近80%。(2)AI手机。AI手机是通过端侧部署AI大模型(如GPT),实现多模态人机交互,展现为非单一应用智能化的手机终端。与传统智能手机各个智能化功能分散在不同应用程序上的做法不同,AI手机通过智能助手等统一入口,以AI代理的形态整合并联动各种功能应用,从而更高效地完成用户的目标。这种设计方式简化了操作,还为用户提供了更加自然、便捷的多模态人机交互体验。(3)扩展现实和可穿戴设备。扩展现实和可穿戴设备由于具备多种视觉、听觉交互能力和手势、眼动追踪功能,也将是重要的AI终端。
2024年6月,苹果确定和OpenAI达成合作,接入ChatGPT,使用GPT-4o模型,加持Siri,使AI深入所有应用程序,实现iPhone人机交互模式重构。“Apple Intelligence”成了AI的全新代名词。
总之,这些终端通过内置的AI算法和硬件支持,实现了语音识别、图像处理、自然语言理解、预测分析等功能,从而提升了用户体验和设备的性能,有望极大释放多模态AI的潜力,催生更多终端用户的流行应用。最终,AI终端将与人工智能物联网(Artificial Intellligence of Things, AIoT)融合,完成AIoT的最后一公里。
4.AI核心产品:token
在计算机科学中,代表执行某些操作权利的对象是“token ”。“token”的中文可以翻译为“令牌”或者“代币”。在机器学习领域,token被用于处理文本数据。在Stable Diffusion等模型中,token指的是在处理文本时拆分成的最小单位,用于模型的输入和处理。自然语言处理(NLP)的token,则专指文本中的最小语义单元。因为不是所有的语言都可以用空格来划分单词,需要使用更复杂的分词(tokenization)方法。GPT系列模型都是基于子词(subword)来进行分词的。子词是指比单词更小的语言单位,可以根据语料库中的词频和共现频率来自动划分,保证语言覆盖度和计算效率之间达致平衡。
为了适应人工智能的发展,单词之外的其他一些符号,包括标点符号、数字、表情符号都可以被视为token。这些符号也可以传达一些信息或者情感。进一步而言,图片、音频、视频,只要可以实现分词,也可以被视为token。简言之,token可以是一个单词、一个词组、一个标点符号、一个子词、一个字符、一个图像、一个视频。分词的最终目标是帮助模型理解和生成文本。
如何提高处理token的速度成为人工智能发展的一个挑战性的课题。最近,硅谷公司Groq公司的产品基于自研芯片可以做到在大模型推理时每秒处理将近500个token。这相当于一句话的响应时间只需要不到2秒。而AI驱动的代码生成工具Cursor团队将Llama3进行微调并引入加速算法后,Llama3 70B模型秒出1000个token,不仅快,在代码重写任务上的表现甚至超越了GPT-4o。
此外,token的生产是可以用能源消耗进行衡量的。目前,GPT-4生成一个单词,大概需要3个token。每个token可以只使用0.4焦耳。也就是说,消耗少量能量可以产生相当数量的token,因而token是具有价值的。目前很多大模型无论展示能力还是收费定价,都是以token为单位,如OpenAI的收费标准为:GPT-4o,100万个token收费5美元。
值得注意的是,在加密数字货币领域,token基于区块链的代币概念,代表着不同形式的数字资产。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,本质上是一种分布式实时更新的账本。区块链好比是大家的手机,而作为区块链代币的token,则是其中的一个App。
19世纪末,尼古拉·特斯拉(Nikola Tesla)发明了交流发电机(AC Generator),创造的是电。现在,数据中心成为“AI工厂”,生成式AI的核心产品是token。信息数据化,而数据token化。AI Generator,创造和输出的是token。
人工智能和宏观经济
1.核心生产要素和人工智能计算
从数字时代过渡到智能时代,数据不仅是生产要素,而且成为核心生产要素。数据增长模式的基本特征是指数增长。
在2024中关村论坛——数据安全治理与发展论坛上,新加坡资讯通信媒体发展局局长表示,预计2024年全球将产生147泽字节(ZettaByte,ZB)的数据。美国市场研究机构国际数据公司预测,到2025年,全世界将产生175ZB的数据。以中国为例,全国数据资源调查工作组发布的《全国数据资源调查报告(2023年)》显示,2023年,全国数据生产总量达到32.85ZB,同比增长22.44%;全国数据存储总量为1.73ZB,新增数据存储量为0.95ZB,生产总量中2.9%的数据被保存;全国2200多个算力中心的算力规模约为0.23十万亿亿次浮点运算/秒(ZFLOPS),同比增长约为30%;全国数据存储总空间为2.93ZB。在存储的数据中,一年未使用的数据占比约4成,数据加工能力不足导致大量数据价值被低估、难以挖掘复用。
数据生产的总量如此巨大,但是有效供给不足,所以需要AI算力和算法。衡量AI算力的标准是计算的数量级。算力的常用计量单位是每秒执行的浮点运算次数,即FLOPS。例如,P是一个数量级,代表10的15次方,1000P就是100亿亿,1000PFLOPS算力就意味着每秒有100亿亿次的浮点运算能力。一个由华为Atlas 800训练服务器组成的AI算力集群,以1000P算力为例,一个时钟周期可以进行100亿亿次计算。1000P算力有多强?1000P的算力相当于50万台电脑的算力之和。
2.智能制造业
在机械工业时代,制造业是指综合利用物料、能源、设备、工具、资金、技术、信息和人力等资源,通过生产制造过程,转化为大型工具、其他生产性和消费性产品的行业。制造业是国民经济的核心组成部分。
在智能时代,智能制造业继续构成经济结构体系的核心部门。智能制造业包括两个部分:制造业的智能化和智能化的制造业。前者是指通过人工智能技术所改造的传统制造业,后者是指人工智能技术发展所形成的全新制造业。例如,无人汽车、无人飞机、无人舰艇就属于全新的智能化制造业。
人工智能与制造业的深度结合,特别是将各类大模型纳入制造业,实现生产过程的数字化、网络化和智能化,极大地提升了制造业的效率和质量,预示着智能制造,特别是机器和器械等的彻底革新。
在现阶段,世界工业发达国家都在关注和推动智能制造业。其中,德国以其“工业4.0”战略引领智能制造业的发展,注重智能工厂、智能物流和智能生产,通过标准化和创新驱动,使德国保持在全球制造业中的领先地位。欧盟通过发布《欧洲新工业战略》等政策文件,推动工业的数字化和智能化转型,强调绿色、数字化和智能化作为工业转型的关键驱动因素。美国强调了人工智能在制造过程中的作用,包括改进制造过程调度、增强制造过程的柔性、改进产品质量并降低成本。日本在机器人技术和自动化方面一直处于世界领先地位,其智能制造战略聚焦于机器人新战略和互联工业战略,推动工业互联网和物联网在制造业中的应用,实现协同制造。中国智能制造业得益于《中国制造2025 》所提出的发展战略和政策体系,在维系产业规模全球领先前提下,正在努力解决智能制造标准、软件、网络安全等基础薄弱问题,改变高端装备依赖进口的状况,提高智能技术自主化水平,以实现制造业的高质量发展。
3.人工智能的创新和产业扩散
工业时代的创新呈现周期性特征,创新有其明显的节奏。约瑟夫·熊彼特(Joseph Schumpeter)对工业时代的创新作了深刻的理论分析。他认为,创新就是建立一种新的生产函数,从来没有过生产要素和生产条件的“新组合”就是自变量,引发的创新就是因变量。熊彼特创新理论的前提是创新发生在原本存在的“生产体系”之中。但是,进入后工业时代,特别是进入信息、数字和智能的混合时代,创新的模式发生了一系列根本性改变。人工智能范畴的创新的特点是:(1)AI创新是从0到1,是原本没有的“横空出世”。例如,GPU芯片就是典型的从0到1。今天所有的人工智能之所以能完成根本性的跳跃,往前追溯,是从2012年AlexNet团队利用英伟达GPU训练模型赢得ImageNet大规模视觉识别挑战赛开始的。(2)AI创新根源于观念。AI在国际象棋和围棋上的决定性胜利就是典型案例。(3)AI创新是不间断的,是涌现的,是叠加的和自我演进的。大语言模型一旦进入特定拐点,一发不可收拾。(4)AI创新存在短周期和中长周期交互作用。特别是,短周期的“溢出效应”会直接影响中长周期结构。(5)AI创新专利呈现增长加速趋势。从2021年到2022年,全球AI专利授权量大幅增长了62.7%。需要指出的是,2022年,世界上61.1%的人工智能专利来源于中国。
因为人工智能技术的涌现性作用,人工智能的产业扩散是发散的和非中性化的。人工智能全方位彻底颠覆和改造原来的产业体系和产业构造。在这个过程中,人工智能通过改造老产业和构造新产业的扩散模式,最终催生了从来没有过的产业形态和经济形态。
4.人工智能成本和收益
人工智能成本主要包括技术研发成本、硬件设备成本、软件开发成本、人力成本,以及市场推广成本等。有研究机构估算,2024年企业将在数据中心的建设和装备上投入2940亿美元,高于2020年的1930亿美元。
根据美国斯坦福大学发布的《2024年人工智能指数报告》,2017年最初发布的Transformer模型、2019年推出的RoBERTa Large模型的训练成本分别为900美元和16万美元。因为大语言模型变得越来越大,AI模型训练的成本持续攀升。OpenAI的GPT-4等前沿模型系统的训练成本预估在7800万美元,谷歌的Gemini Ultra的计算成本花费预估为1.91亿美元。特别是,训练大语言模型,AI企业要依赖于可以高速处理大量数据的GPU。这些芯片不仅供应短缺,而且价格极其昂贵。英伟达的H100 GPU是训练AI模型的主要工具,售价约为3万美元。训练一个1.8万亿参数的AI大模型,大约需要2000个英伟达的Blackwell GPU。
未来AI技术发展将高度依赖于能源。2024年4月,芯片巨头Arm公司CEO表示,包括ChatGPT在内的AI大模型需要大量算力。公开数据显示,目前ChatGPT每天需要处理超过2亿次请求,其电量消耗高达每天50万千瓦时。一年时间,ChatGPT光电费就要花2亿元人民币。预计到2030年,AI数据中心将消耗美国20%—25%的电力需求,相比今天的4%大幅增加。据荷兰国家银行数据专家亚历克斯·德弗里斯(Alex de Vries)预计,到2027年,AI行业每年将消耗850亿—1340亿千瓦时的电力,相当于瑞典或荷兰一个欧洲国家一年的总用电量。这些都预示着,AI很可能会引爆全球新一轮的“能源战争”。
在看到人工智能高成本现实的同时,我们还要看到问题的另一面:因为人工智能算力提高,不仅人工智能训练成本会显著下降,劳动生产率也会提高。例如,英伟达首创异构计算,让CPU和GPU并行运行,将过去的100个时间单位,加速到仅需要1个时间单位。也就是说,实现了100倍速率提升,功耗仅增加3倍,成本仅为原来的1.5倍。2024年3月,摩根士丹利在AI报告中表示,由于GPU技术的不断进步,生成式人工智能的算力成本正快速降低。数据中心模型显示,从Hopper GPU数据中心升级到Blackwell GPU数据中心,成本将从每teraFLOPS(每秒万亿次浮点运算)的14.26美元下降到7.48美元,下降约50%。此外还要看到,因为使用更多光伏和储能产品,能源成本本身也会下降,对人工智能生产的能源成本具有正面作用。
高盛经济学家约瑟夫·布里格斯(Joseph Briggs)和德韦什·科地纳尼(Devesh Kodnani)在一份报告中指出:生成式AI具有巨大的经济潜力,预计在未来十年内广泛应用后,每年可提高全球劳动生产率超过1个百分点以上。OpenAI CEO山姆·奥特曼(Sam Altman)甚至坚信:AI智能的成本即将变得非常低廉,高质量AI智能的成本终将趋近于零。
5.人工智能市场的特征和规模
在过去十年,全球人工智能市场形成了一系列特征:(1)人工智能市场是当代市场体系中规模膨胀最快的市场。可以预见,未来人工智能市场将继续保持快速增长的态势。(2)人工智能市场是科学技术驱动的市场,呈现出快速增长的趋势。人工智能市场的快速膨胀与指数级速度增长、积累、开发和利用存在强烈的相关性。(3)人工智能广泛应用于各个领域,导致人工智能市场高度多样化。例如,人工智能已经与金融、医疗、教育、智能制造融合,有效地改造了传统市场结构。(4)人工智能市场呈现日趋激烈竞争的态势。特别是,全球性的人工智能市场竞争和垄断的博弈不断升级,呈现国际合作和竞争并存的趋势。(5)人工智能市场需要跨界、跨行业、跨领域和跨国的多方面合作。单一企业或国家很难独立完成人工智能技术的发展和应用。(6)人工智能市场结构复杂。生成式人工智能行业可以说是目前同比增长最快的市场。此外,人工智能系统基础设施软件、硬件和服务增长贡献显著。(7)人工智能市场对企业转型形成压力和动力。世界级科技企业和初创企业都在加大人工智能研发和应用力度。人工智能研发的领域包括芯片、机器学习、大模型、多模态、数据分析等。(8)人工智能市场涉及伦理和风险。(9)人工智能市场包括军用和民用市场要素。某些人工智能技术关乎军事和国家安全。(10)人工智能市场属于政府通过战略规划、政策法规等方式不断加大干预强度的大市场。人工智能市场不太可能成为所谓纯粹的自由市场。
AI作为新兴产业,正处于成长期,增长速度呈现加速态势。关于全球人工智能市场规模的评估,资料繁多。宏景研究(Grand View Research)发布的分析报告显示,2023年全球人工智能市场规模估计为1966.3亿美元,2024—2030年的复合年增长率预计会达到36.6%。这凸显出人工智能领域的强劲发展势头和巨大潜力。另外,有机构估算,2023年全球生成式人工智能市场价值为137.1亿美元。到2025年,生成式人工智能市场估值预计将达到221.2亿美元。该市场预计将以27.02%的复合年增长率(CAGR)增长。2022年,大规模生成式人工智能采用率为23%。预计到2025年,采用率将达到46%。
中国的人工智能产业规模不断壮大。2023年,中国人工智能核心产业规模已超5000亿元,企业数量超4500家。相关研究机构预测,2035年中国人工智能产业规模有望达1.73万亿元人民币,全球占比达30.6%。
随着人工智能技术的不断进步和突破,近中期人工智能市场显然还处于继续扩张时期。
6.人工智能的区域分布
进入21世纪以来,全球人工智能高速发展主要集中在三个区域:以美国、加拿大为代表的北美洲地区,以德国、英国和法国为代表的欧洲地区,以中国、日本和韩国为代表的亚洲地区。2023年7月,AMiner联合智谱研究发布的全球人工智能创新城市500强分析报告显示,如果从全球人工智能发展的城市分布看,人工智能创新500强的城市分布在57个国家,城市数量在4个及以上的国家有27个。其中,美国有143个城市入围500强的榜单,占城市量的28.6%。同时,根据2023年全球人工智能最具创新力城市榜单,美国旧金山湾区在全球人工智能最具创新力城市评选中排名第一。全球人工智能创新力城市前100的榜单中,美国入围的城市有33个,中国的城市有19个。
总的来说,美国在人工智能领域的发展起步较早,保持在人工智能技术、产业化和商业化的全球领先地位。中国政府高度重视人工智能技术的发展,将其纳入国家发展战略,并出台了一系列支持政策,在人工智能领域的发展速度非常迅猛。
在全球人工智能布局中,北欧国家正逐渐成为新的中心区域,形成了群雄逐鹿局面。2024年5月,谷歌宣布将扩建其在芬兰的数据中心。6月,微软宣布计划在瑞典投资32亿美元,用于人工智能与云服务设施的建设。预计微软将在瑞典现有的3个数据中心新增2万个GPU,以支撑日益增长的数据处理和机器学习需求,确保其在全球云计算市场的领先地位。
总之,影响人工智能区域布局的因素比较复杂。其中,比较重要的因素包括:(1)经济发展水平和工业化基础;(2)人工智能科技的历史发展积累,包括思想、学术和科研成果的积累;(3)研究机构、大学和人才的质量和数量;(4)人工智能的资金支持到位;(5)政府的战略眼光和政策扶持;(6)人工智能技术的应用场景;(7)国际合作的环境。
7.人工智能“资本”
自18世纪至20世纪,全球发生过以机器生产取代手工劳动、电力的广泛应用和电气化,以及自动化、计算机和互联网等信息技术的发展和应用为标志的三次工业革命。每一次工业革命都产生了巨大的资本需求并刺激新产业资本的扩张,导致形成垄断性行业和部门,以及前所未有的超额利润。例如,石油的发现和开发刺激了石油资本的膨胀,石油资本一度造就了具有自然垄断的石油产业。
过去20年间的人工智能革命,在吸纳资本的数量和对经济体系的影响程度方面,都远远超越了前三次工业革命。这是因为,人工智能技术是改造现存一切产业形态和商业模式的技术,并且是创新引发创新的技术,特别是创造与人类并存的智能机器人的技术。一方面,人工智能存在对资本需求的持续增长;另一方面,资本会因人工智能发生倾向性的结构性调整,更多的资本会积聚于人工智能产业,出现人工智能技术、产业和资本的互动局面。现在人工智能领域的投资规模已经超过20世纪“曼哈顿计划”“阿波罗计划”和“星球大战计划”的投入占当时美国GDP的比重。高盛预测,到2025年,全球生成式人工智能投资规模或将达到2000亿美元左右。人工智能相关投资正从相对较低的起点开始攀升,未来几年将会对全球经济产生重大影响。
值得注意的是,人工智能资本已经和继续流入少数具有自然垄断的人工智能头部企业。所谓具有自然垄断的人工智能企业,也就是处于人工智能技术前沿,引导人工智能发展方向的企业。这样的企业在吸纳巨大资本资源的同时,还会产生比较稳定的超额利润。例如,OpenAI就是拥有自然垄断和超额利润的典型企业。所以,2024年6月,美国联邦政府的两家监管机构已达成协议,将针对微软、OpenAI和英伟达在人工智能领域的主导地位展开反垄断调查。几乎同时,欧盟委员会执行副主席兼竞争事务主管玛格丽特·维斯塔格(Margrethe Vestager)表示,微软与OpenAI的合作伙伴关系可能面临欧盟反垄断调查。
在人工智能技术和资本的一体化背后是人才问题。人工智能资本的投入方向,与其说是基于项目,不如说是基于人才和人才组合的团队。最近,美国硅谷人工智能的工程技术人才和管理人才的市场价格一再出现了飙升。
基于人工智能和资本的这种关联性,世界上绝大多数贫穷国家,特别是众多的中小企业,都将会被长期排斥于人工智能革命浪潮之外。
8.人工智能和经济周期
工业时代存在着明显的经济和商业周期。经济周期一般分为短周期、中周期与长周期。短周期又称小循环或基钦周期,每个周期的平均长度为3—5年;中周期又称大循环或朱格拉周期,每个周期的平均长度为8年;长周期又称长波循环或康德拉季耶夫周期,每个周期的平均长度为50—60年。其中,对经济运行影响较大且较为明显的是中周期,其循环周期一般与周期性的设备更新换代有直接关系,带动了固定资产投资的周期性变化。
在工业经济社会向信息经济社会和智能经济社会的转型时期,不仅短周期会模糊化,而且中周期也会发生紊乱。2008年世界金融危机之后,人工智能技术进入高速发展期,科技因素影响和改变了工业时代的周期规律。人工智能创新的持续性,或者人工智能的“长创新”特质,使得经济周期呈现出至少不会少于10年的长期化趋势。或者说,经济周期越来越决定于人工智能技术革命的结构性、系统性和集群性创新。自金融危机以来,美国经济增长和繁荣已经维系了15年之久。
改革开放以来的中国经济高速增长,始终伴随着持续的三至四年的周期。从最早的门户网站到之后的电子商务,再到后来的移动互联网、新消费、短视频和直播,基本如此。但是,世界性周期改变正在波及中国。进入2020年代中期之后,中国经济很可能进入以人工智能作为引擎的中长混合周期时代。
简言之,进入2020年代的世界,很可能需要依赖人工智能创新实现繁荣的长周期。
9.人工智能“工厂”和人工智能公司
支持人工智能产业成长的首先是各类物理形态的人工智能“工厂”,包括人工智能和工业4.0结合的工厂、生产人工智能全新产品的生产基地。有人工智能“工厂”,就有人工智能生产线、人工智能的产业链和供应链。在人工智能“工厂”,除了传统的生产工人和工程师之外,机器人正在加速对传统人类资源的替代。
与人工智能“工厂”并存的是人工智能公司。过去10年,在全球范围内,“出生率”最高的公司莫过于人工智能公司。根据毕马威联合中关村产业研究院2023年年末所发布的《人工智能全域变革图景展望:跃迁点来临(2023)》报告,截至2023年6月底,全球人工智能企业共计3.6万家,中美英企业数量名列前茅。根据中国信息通信研究院2024年7月发布的《2024全球数字经济白皮书》,截至2024年第一季度,全球人工智能企业近3万家,美国占全球的34%,中国占全球的15%。
目前,虽然全球人工智能企业呈现出一种多元化和高度活跃的状态,但是世界级的人工智能超级公司具有绝对的垄断地位。这是因为,这些公司拥有技术、资本、人才和市场资源的深厚积累和控制能力。例如,谷歌的TensorFlow框架在全球AI框架市场、英伟达在GPU设计和生产方面,都处于主导地位。此外,人工智能技术的发展和应用是一个长期的过程,需要源源不断的创新动力,包括资本和科研体系所支持的创新。
目前,全球公认的人工智能超级公司有微软、英伟达、Alphabet(谷歌)、OpenAI、亚马逊、Meta(Facebook)、IBM、苹果等。
人工智能的深层演变
1.人工智能和摩尔定律、标度律
人工智能正处在深层演变的历史时刻。摩尔定律(Moore's Law)、标度律(Scaling Law)逐渐发挥着越来越重大的作用。
摩尔定律是英特尔创始人之一戈登·摩尔(Gordon Moore)基于经验所总结的一个规律,即集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。换言之,处理器的性能大约每两年翻一倍。问题是当芯片进入28纳米(nm)时,发生了摩尔定律危机。当芯片进入1纳米制程芯片时,意味着到达摩尔定律极限。现在人工智能以芯片为核心的整个硬件基础正面临摩尔定律危机或者摩尔定律极限。2024年6月,在2024台北国际电脑展(Computex 2024)上,英伟达CEO黄仁勋宣布,其GPU架构的更新频率将从两年一次更新加速到一年一次,但算力增长并未停滞,其AI芯片的算力在过去的8年间实现了惊人的1000倍增长,这说明存在突破摩尔定律危机和摩尔定律极限的技术可能性。
标度律主要涉及临界现象的研究,其核心思想是:随着模型参数量大小、数据集大小和用于训练的浮点数计算量的增加,模型的性能会提高。为了获得最佳性能,上述三个因素必须同时放大。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。
具体到人工智能领域,GPT-4在具体问题上的性能预测,可以通过比GPT-4小1000倍的模型预测得来。也就是说,GPT-4还没开始训练,它在这个问题上的性能就已经知道了。所以,标度律对于大模型的训练而言很重要。可以说,标度律是人工智能深层演变的又一个潜在规律。
不久之前,比尔·盖茨(Bill Gates)在一期The Next Big Idea播客中就标度律发表了比较深刻的看法:“标度律肯定还会接着有效。但与此同时,从今天我们所拥有的简单算法到更像人类的元认知的各种行动将会改变,这是一个更大的前沿。”因为意识可能与元认知相关,而元认知并不是一个可以测量的现象。或者说,元认知导致标度律失效。
2.人工智能和量子科技融合
人工智能和量子科技融合,形成量子人工智能。量子人工智能的特点表现在以下几个方面:(1)利用量子比特的叠加和纠缠的特性进行计算,具有极高的计算速度和处理能力。(2)量子算法能够解决优化问题,如车辆路径规划、资源调度等,通过量子计算可以找到最优解,提高人工智能系统的效率和准确性。(3)量子计算可被用于加速机器学习算法的训练过程,如通过量子支持向量机(Quantum Support Vector Machine)更快速地完成分类任务,提高机器学习的效果。(4)量子算法可以高效地在大规模数据集中搜索、分析和发掘数据,为人工智能系统提供更准确的数据支持。(5)推动现实经验世界发展,模拟物理世界和虚拟世界的相互作用,依据物理定律,最终实现构建精准世界模型的目标。
3.人工智能和生物科学的融合
人工智能和生物科学的融合,形成智能生物学。2024年5月,瑞士领先的生物计算初创公司FinalSpark推出了世界上第一个基于体外生物神经元的在线生物计算平台“Neuroplatform”,研究人员可以远程访问16个人脑类器官。Neuroplatform的运行依赖于一种可归类为湿件的架构,其主要创新之处在于使用四个多电极阵列(MEA)容纳活体组织——类器官,即脑组织的三维细胞团。与传统的处理器相比,Neuroplatform使用的是人体神经元,而不是硅芯片。Neuroplatform的耗电量仅为传统数字处理器的百万分之一。这意味着,如果有一天生物处理器可行,它可以大幅减少能源消耗,减少计算对环境的影响。因此,生物处理器也被称为“下一代数字处理器”。而Neuroplatform的推出,很可能意味着人类正站在下一代数字处理器的门槛上。
根据相关科学的进展,智能生物学还可能有另一个发展方向:开发和创建强大的细胞计算机(cellular computer)。生物系统具有自我维持和自我修复,能处理来自自然界的信号,能源效率更高的优势。通过细胞和分子工程工具利用理论计算机科学和合成生物学之间的协同效应,可以构建超越图灵计算的生物计算机。如今,发展细胞计算机不再是一种想法,它已经进入到实验和初步应用阶段。
所以,不仅硅基机器是实现计算的一种载体,而且其他物质形态,比如生命物质形态,具体如基于实验室培养类器官的“湿件计算”也可以成为计算的物质载体,构成活神经元网络,改变人们处理信息的传统方式。现在,正在兴起的智能生物学将丰富人工智能的深层演变。
人工智能的近中期趋势和立场选择
1.智能大爆发时代
站在2024年的时点上,可以大体看清楚人工智能的近中期趋势:
(1)狭义人工智能(Artificial Narrow Intelligence, ANI)阶段即将结束。在这个阶段,人工智能是能执行特定任务的AI系统,如图像识别或语音识别。这个阶段的高峰是支持生成式人工智能的大模型的出现,以及智能机器走向普及。
(2)通用人工智能阶段正在加速到来。通用人工智能阶段的核心特征是,人工智能可以和人类智能比肩,所以能够处理任何智能性工作;可以适应新的环境和情况,学习新的知识和技能;可以理解语言、符号和抽象概念,并能够将它们关联起来;可以进行逻辑推理,并能够基于已知的事实得出新的结论,最终可以创造新概念和新观念,并彻底改造人类的知识图谱、教育模式,以及经济和社会形态。
(3)超级人工智能(Artificial Super Intelligence,ASI)的“曙光”已经出现在地平线上。超级人工智能具有超越“人类心智”,赶上并迅速超越全人类的集体智慧,比人类智能还要强大的人工智能系统。
2.三个基本立场
面对人工智能近中期的发展趋势,在全球范围内,普遍存在三个基本立场:
(1)危机主义者或者危机主义立场。危机主义者认为,人工智能按照它的内在规律,已经对人类构成威胁,人类社会进入从来没有遇到过的一种困境和危机。大部分政治家持有这样的立场,他们主张要对人工智能采取国际联合行动,甚至要停止一定时间的人工智能技术开发和推进。一些科学家也持有这一立场。
(2)对齐主义立场。对齐主义立场认为,要通过某种技术的、政治的和法律的方法,让人工智能的发展符合人类社会的发展要求,符合现在地缘政治、社会结构的变化和经济发展水平。
(3)有效加速主义立场。有效加速主义的理念很简单,即人工智能产生的问题必须由更快的人工智能发展来解决。奥特曼持有这个立场。该立场认为,所有的科学技术在发展过程中都会产生正面和负面的溢出效应,负面的问题只有更高层次的科技发展水平来加以解决,至少人类近现代科技史证明了这一点。
3.选择
在电影《头号玩家》(Ready Player One)中有这样一句台词:“这是‘绿洲’世界,在这里唯一限制你的是你自己的想象力。”人工智能已经处于每天刷新人们想象力的历史时期。在这个时期,迄今为止的世界主体和参照系会发生改变,知识体系会被重构,人类智能和人工智能开始进入“共智”(Co-Intelligence)状态,传统经济组织、国家体制和法律体系也会发生变化,未来人类文明甚至会被重组。为此,我们要有一种使命感。正如《黑客帝国》(The Matrix)中所言:“没有使命,人类就不会存在,是使命创造了我们,但使命联系着我们、牵连着我们、指引着我们、推动着我们、约束了我们。”
朱嘉明
2024年7月6日
注释
[1]〔美〕李飞飞:《我看见的世界》,赵灿译,中信出版社2024年版,第288页。