量子位 | 公众号 QbitAI
“10年后,机器人将可能比人都多,会陆续进入工厂、社会,最终形态是进入家庭。未来每个人、每个家庭都有机器人。”
这样的预言,来自清华大学智能产业研究院 (AIR)院长张亚勤。
在其新书《智能涌现》中,基于数十年对AI的思考与实践,从他领导下AIR研究院正在推进的三大方向——多模态大模型、自动驾驶和生物智能出发,张亚勤还给出了更多对AI技术演进方向的长期预判,包括:
-
我们经历了“数字化1.0”和“2.0”,目前正经历着向“数字化3.0”的升维跃迁——从“小模型”到“大模型”、从“单模态”到“多模态”、从“数字智能”到“物理智能”。
-
未来的发展方向将是智能+X (AI+X),即把日渐强大的AI能力投射到千行百业。“X”既是无限可能的产业,也是无限产业的可能。
-
这场变革没有旁观者,全球80亿人都已置身其中。
我们经历了“数字化1.0”和“2.0”,目前正经历着向“数字化3.0”的升维跃迁——从“小模型”到“大模型”、从“单模态”到“多模态”、从“数字智能”到“物理智能”。
未来的发展方向将是智能+X (AI+X),即把日渐强大的AI能力投射到千行百业。“X”既是无限可能的产业,也是无限产业的可能。
这场变革没有旁观者,全球80亿人都已置身其中。
……
总结起来,对于AI技术的未来发展方向与突破路径,张亚勤做了以下展望:
-
AI大模型的五大演进趋势
-
AI技术进一步发展的五个观点
-
自动驾驶未来发展的五大趋势
AI大模型的五大演进趋势
AI技术进一步发展的五个观点
自动驾驶未来发展的五大趋势
AI大模型作为数字化3.0的重要基石,其发展将决定未来技术攀升的高度与覆盖的广度。张亚勤眼中,未来AI大模型架构的关键发展方向如下:
-
多模态智能:将带来全面的、具有深度的智能分析。结合语言、文字、图片、视频、激光雷达点云、3D结构信息、4D时空信息及生物信息,实现多尺度、跨模态的智能感知、决策和生成。
-
自主智能:将带来个性化的智能体。将大模型作为一种工具,开发出能够自主规划任务、编写代码、调用插件、优化路径的智能体,实现高度自主智能,可自我迭代、升级和优化。
-
边缘智能:将带来高效率、低功耗、低成本、低延时的边缘计算网络。将大模型部署到边缘设备端,如新一代AI PC (人工智能电脑)、新一代Intelligent Phone (智能电话)、新一代Intelligent Home (智能家庭,包括TV),大幅提升处理速度和相应的效能表现,从而实现边缘智能。
-
物理智能:将带来更加先进的自动驾驶车辆、机器人等。当下大模型正在被应用于无人车、无人机、机器人、工厂、交通、通信、电网和电站以及其他物理基础设施,以提升各类设备、设施的自动化与智能化水平。
-
生物智能:将带来生命健康、脑机交互、医疗机器人的突破,将大模型应用到人脑、生命体、生物体中,实现AI与生物体联结的生物智能,并最终迎来信息智能、物理智能与生物智能的融合。
多模态智能:将带来全面的、具有深度的智能分析。结合语言、文字、图片、视频、激光雷达点云、3D结构信息、4D时空信息及生物信息,实现多尺度、跨模态的智能感知、决策和生成。
自主智能:将带来个性化的智能体。将大模型作为一种工具,开发出能够自主规划任务、编写代码、调用插件、优化路径的智能体,实现高度自主智能,可自我迭代、升级和优化。
边缘智能:将带来高效率、低功耗、低成本、低延时的边缘计算网络。将大模型部署到边缘设备端,如新一代AI PC (人工智能电脑)、新一代Intelligent Phone (智能电话)、新一代Intelligent Home (智能家庭,包括TV),大幅提升处理速度和相应的效能表现,从而实现边缘智能。
物理智能:将带来更加先进的自动驾驶车辆、机器人等。当下大模型正在被应用于无人车、无人机、机器人、工厂、交通、通信、电网和电站以及其他物理基础设施,以提升各类设备、设施的自动化与智能化水平。
生物智能:将带来生命健康、脑机交互、医疗机器人的突破,将大模型应用到人脑、生命体、生物体中,实现AI与生物体联结的生物智能,并最终迎来信息智能、物理智能与生物智能的融合。
1.大模型和生成式人工智能是未来十年的主流技术与产业路线
大模型 (GPT-4o、ChatGPT-o1、BERT等)和生成式人工智能将成为今后10年内的创新主轴与连锁变革的导火索。
2.基础大模型+垂直大模型+边缘模型、开源+商业
基础大模型将是AI时代的技术底座,与垂直产业模型、边缘模型共同孵化出新的产业生态。其生态规模将比个人计算机时代大100 倍,比移动互联网时代大10倍以上。在这个生态中,开源模型将和商业模型并存,为开发者提供灵活的选择。
3.统一标识(Tokenisation)+规模定律(Scaling Law)
大模型最核心的两个要素是统一标识和规模定律。统一标识通过将文本和其他类型的数据统一编码为单元,使模型能够处理不同形式的输入。规模定律则揭示了模型规模与性能之间的关系,表明随着模型参数的增加和数据规模的扩大,模型的表现会显著提升。
4.需要新的算法体系
与人脑相比,现有算法存在效率低、能耗高的问题,因此需要开发出新的算法体系,包括世界模型、DNA记忆、智能体、强化学习、概率系统和决定系统等,以实现100倍的效率提升。未来五年内可能会在AI技术架构上取得重大突破,当前主流的AI技术框架,如Transformer、Diffusion、AR,可能在未来5年内被新技术颠覆。
5.从大模型走向通用人工智能
预计15 ~ 20年内可实现通用人工智能,并通过新图灵测试。更进一步的预测:5年内,在信息智能领域,AI对语言、图像、声音和视频的理解、生成等方面通过新图灵测试;10年内,在物理智能 (具身智能)领域,实现大模型在物理环境中的理解与操作能力的大幅提升,通过新图灵测试;20年内,在生物智能领域,将AI应用于人体、脑机接口、生物体、制药和生命科学,实现大模型与生物体联结的生物智能,通过新图灵测试。
自动驾驶的未来发展
1.自动驾驶是未来五年最重要的物理智能/具身智能应用,有望成为第一个通过新图灵测试的具身智能系统
在安全性方面,实现完全无人操作的自动驾驶的安全性要比人类驾驶的至少高出10倍,达到人类“好司机”的水平;在人性化体验方面,通过模仿学习和自主学习,自动驾驶系统将具备更自然的驾驶风格,结合乘客或车主的驾驶习惯,提供更人性化的体验,达到人类“老司机”的水平。
2.大模型及生成式AI将在提升L4级别自动驾驶系统的泛化能力方面发挥关键作用
一是与数据智能相关,过往自动驾驶系统的边角案例数据不足,大模型及生成式AI可结合真实数据生成高质量的边角案例数据。
二是与长尾问题相关,生成式AI可有效改善边角案例中场景仿真、模拟度不足等问题,解决感知领域的长尾问题。
三是与常识推理相关,大模型的推理能力可助力自动驾驶系统理解并应对道路上的各种突发情况,从而提高自动驾驶系统的能力上限。
3.自动驾驶技术将整合多模态传感器数据,如计算机视觉、激光雷达等,采用端到端的训练方式,实现云端大模型与车端实时精确模型的协同工作
一是多模态融合。相较人类而言,机器具备多模态感知优势,可通过融合计算机视觉、激光雷达和其他传感器数据,使自动驾驶系统更全面细致地感知周围环境。
二是端到端。以前自动驾驶算法由许多专门针对特定任务的小模型组成,这些小模型各自负责不同的任务。现在,这些小模型可能会被一个统一的端到端的大模型取代。
三是云端与车端协同。云端大模型提供通用性泛化能力,车端模型提供实时精确响应与本地优化部署。云端和车端协同能够确保驾驶决策兼具泛化性、及时性与准确性。
4.未来的自动驾驶应用将以单车智能为主,“车-路-云”一体协同工作,从而确保安全冗余,辅助智能交通
一方面,每一辆自动驾驶车辆都必须具备独立且强大的单车智能驾驶能力。
另一方面,通过“车-路-云”一体化,在为自动驾驶提供多重安全冗余保障、提高驾驶安全性的同时,控制、优化交通流量,提升交通效率。
5.2025年,自动驾驶或将迎来“ChatGPT时刻”;2030年,自动驾驶渐成主流
2025年,在一个具备复杂交通环境的大城市,自动驾驶系统将表现出人类“老司机”的水平,这可能极大地激发产业与市场对于自动驾驶的热情。2030年,自动驾驶车辆将逐渐跻身市场主流,预计届时会有10%的新车具备L4级别的自动驾驶能力。