过去几年,自动驾驶行业竞争的焦点经历了多次显著变化。
最初的竞争集中在硬件层面,例如是否采用激光雷达、摄像头数量以及算力(TOPS)的多少。随后,随着大模型时代的到来,竞争焦点转向了端到端、VLA(视觉-语言-行动)和World Model(世界模型)等技术路线。
如今,越来越多的公司认识到,仅仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的,开始转变为模型、数据、算力和芯片之间能否构建一个持续优化的闭环。
这正是车企纷纷走向自研的原因。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的整个链条。在中国,小鹏、蔚来以及理想等品牌也在不断向下游技术环节延伸。
在今年推出的L8和L9车型上,理想已采用了自研的马赫M100芯片。该芯片采用了数据流架构,被理想视为AI领域的重要技术方向。基于马赫M100,理想也运行了自研的马赫VLA模型。
然而,对于整个行业而言,更关键的问题并非“是否自研”,而是这些投入能够实际解决哪些技术挑战。
带着这些疑问,我们采访了理想汽车自动驾驶负责人詹锟和芯片负责人谢炎。他们分享了理想对下一代自动驾驶技术路线的看法,并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下为访谈的精编内容:
问:为了在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面努力?
詹锟: 我认为在追赶FSD方面,需要关注两个层面。
首先是基础体验,具体包括安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感、效率和舒适度方面表现出色,这是其核心优势。即使不处理极端复杂的路况,也能在这些基础体验上达到同等水平。
其次是高级能力,这方面也极具挑战。例如,特斯拉能够识别并礼让特殊车辆,能够在极窄的道路上实现精准感知,并且能识别交警的指挥手势,这些能力都非常强大。
高级能力方面存在架构升级的机会。为什么只有特斯拉拥有这些能力?这可能与以往的范式限制有关,也与数据和架构有关。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一个技术体系,而非单一模型。例如,Mind-Edge是用于智能座舱的端侧模型。那么,当前的智能驾驶模型中是否还包含“L”(Language语言)的部分?
詹锟: 当前的自动驾驶架构普遍趋向于整合VLA(视觉-语言-行为模型)和World Model(世界模型)。
从长远来看,所有技术路线都会朝这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言部分是必然存在的,关键在于如何运用它。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 更加合理,它能更好地理解空间、感知三维环境并服务于环境交互。语言在理解环境、交通规则、指令以及复杂的决策思考方面具有重要价值。
长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
谢炎: 如果要实现L3、L4级别的自动驾驶,解决更广泛的泛化问题,模型需要具备类似人类的思考能力。在这种情况下,语言的重要性会愈发凸显,这也是未来需要巨大算力的原因。
如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有大量数据,在遇到分布外(out-of-distribution)的情况时也会束手无策。就像动物即使学会了所有常见情况,遇到从未见过的情形也会不知所措。
我们认为,随着自动驾驶向L3、L4级别迈进,需要解决的问题越来越趋向于那些“从未见过”的场景(占90%、95%、98%等),这需要模型具备类人的思考能力。而语言模型是实现类人推理和思考能力的重要来源。例如,理解交警的手势并判断其意图,这并非仅靠收集或生成数据就能解决的问题。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?理想是如何定义“价值数据”的?
詹锟: 首先,数据的量需要足够庞大,核心目标是收集更多的Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署高效的神经网络触发器(neural trigger),以识别并区分场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强大的原因之一。
其次,数据的质量至关重要,主要体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),关键在于能够准确理解和执行Action(行为)。因此,行为的质量、干净度和一致性变得尤为重要。
关于数据规模扩大后边际效应是否衰减的问题,只要模型能力在不断提升,并且我们追求100%的完美表现,其增长曲线必然是“对数曲线”,呈现逐渐减缓的趋势,而非线性增长。任何AI公司都面临此情况。尽管后期数据收敛的速度确实会放缓,但我们依然希望通过规模化来加速这一进程。
问:马赫M100芯片可以应用于多种AI场景。从长远来看,五年后或再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?
谢炎: 尽管业界存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,而其他部分的整合并非最关键。座舱系统和AI智能驾驶系统可以完全独立运行,但将AI算力集中处理,可以显著提高效率。
我们的路线图设想是,在车内构建一个统一的AI计算中心,所有AI任务都可以在该中心进行计算。这类似于笔记本电脑运行某些应用时,AI计算并非在本地完成,而是在云端服务器上进行。车内也可能采用类似的模式,设立一个“Token Server”。
这个“Token Server”的优势在于:第一,极高的效率。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是在内存还是带宽方面,都能保证不被其他任务影响。这是软硬件协同设计才能实现的目标。
问:是否因为M100采用了数据流架构,相较于其他厂商的自动驾驶芯片,其对带宽的需求较低,但对片上存储的需求更高?
谢炎: 我们对带宽的要求确实会相对较低,但这并非设计SRAM(静态随机存取存储器)容量(而非显存)的直接原因。目前HBM(高带宽内存)备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本、综合性能等多方面因素权衡的结果。
仅凭一两个指标来简单对比不同架构的设计是不合理也不专业的。这就像拳击比赛,身高和体重各有优势,但最终胜负并非由单一指标决定,而是取决于整个比赛的表现。
问:为何目前大算力芯片方案,如英伟达、小鹏、理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了此尝试?
谢炎: 本质上,座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别发展的智能驾驶,需要一个高确定性的系统,要求内存和计算资源是专用的。在这种情况下,进行融合的意义就大打折扣,因为资源的实时切换会降低系统的确定性。如果系统越来越趋向于资源独占,那么融合的价值就会减小——即使将两个芯片集成在一起,资源仍是分开的,这并不能降低成本,甚至可能影响效率。
目前的舱驾融合系统,仍然是分开的。无法实现不同任务的快速切换。将两个芯片集成到一块,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本节省是可能的,但幅度有限。
我的观点是,随着智能驾驶向更高端的方向发展,舱驾融合的意义将逐渐减弱。如果能将这些芯片设计得更紧凑,集成在同一块电路板上,实现小型化集成方案,这是可行的。但不一定非要集成到一块芯片上,也可以是多块芯片协同工作。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?考虑到自动驾驶迭代速度很快,芯片要持续迭代需要什么样的支持?
谢炎: 芯片的初期投入相当可观,可能每年需要数亿元。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有几十亿到上百亿的资金,才足以支持芯片的研发投入。第二个条件是,通过研发芯片能够显著提升产品的能力。
很多人认为芯片需要巨大的出货量才能摊薄成本。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如Livis采用两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积大约为100平方毫米。因此,一辆车的智能驾驶芯片面积相当于8部高端手机的芯片面积。
这样计算下来,几十万辆车的需求所消耗的晶圆面积非常庞大,足以摊薄成本。因此,成本不能仅以芯片数量来衡量。
问:动态数据流编译器的难点何在?攻克它花费了多长时间?
谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始着手编译器工作,并且在流片前已经完成了许多模型的运行验证。
数据流是一种完全不同的架构,它所要解决的问题类似于超级计算机或大规模计算机集群面临的挑战——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作需要一种全新的调度方式。传统的冯·诺依曼架构的调度方式在这种规模下已不可行,这是一个超大规模并行调度的问题。