自动驾驶的“数模”分离

寒意没有蔓延到每个人,至少蔓延到了每个行业。自动驾驶作为汽车智能化的核心技术,是烧钱的探索和推进,是幸存产品的量产。无论是左还是右,对于自动驾驶行业来说,既是挑...

自动驾驶的“数模”分离

寒意没有蔓延到每个人,至少蔓延到了每个行业。自动驾驶作为汽车智能化的核心技术,是烧钱的探索和推进,是幸存产品的量产。无论是左还是右,对于自动驾驶行业来说,既是挑战,也是机遇。

自动驾驶的发展不是偶然,而是社会发展的必经过程。虽然历史不会再现,但历史发展的规律总是惊人的相似。自1956年达特茅斯提出人工智能概念以来,21世纪初探索的自动驾驶技术,无论是人工智能技术还是汽车形态,都发生了翻天覆地的变化。无论是互联网还是汽车行业,数据、算法和计算能力已经成为智能时代行业的新驱动力。不断增加的数据,不断优化的算法和不断进化的半导体计算能力,导致超级数据中心的应用,大算法模型和计算能力的暴力,似乎在一个无限的空间,那里有一个硅基智能,将超越基于碳基智能的预测功能。不幸的是,这个预测函数是发散的,而不是收敛的。

当大家都解决了一个问题,又会引发一个新的问题。在数据、计算能力和算法的驱动下,智能取得了一定的成果,比如方便快捷的交付、汽车主动安全性能的提升、熄灯工厂的建立、劳动力的解放等。每一个进度点的成本,本质上都是数据处理的成本。有个有趣的问题。数据能代表真实的东西吗?如果不是,那么机器如何识别物理世界?如果机器不能认识人类的物理世界,机器的世界又如何建立?

纵观人工智能的发展,从符号逻辑推理出现,从统计学、机器学习繁荣到现在的深度学习。人工智能的基础研究无非是物理世界的特征数据提取和虚拟世界的模型训练,也就是说不是所有的数据都能用,也不是所有的数据都存在。隐藏在数据、算法和计算能力背后的,是人工智能技术发展的内在变化。作为当前人工智能的新浪潮,深度学习技术及其背后的思维模式已经成为人工智能技术从业者、项目经理和战略规划决策者必备的基本能力和认知模式。深度学习作为第三轮人工智能兴起和繁荣的引擎,处于AI技术发展和产业应用的核心,而自动驾驶,尤其是感知和识别部分,将成为深度学习的应用平台,起到承上启下(底层芯片)的腰部连接作用。

自动驾驶的研究与自然语言处理有着相似的历程。从最初的知识规则驱动到数据驱动,本质上是人类对客观世界认知的改变。数据驱动RD模式是指在方法论确定的情况下,系统的性能优化取决于可用数据量,即系统的优劣与数据规模有很强的相关性。这个数据尺度不仅仅是数据本身,更重要的是数据处理能力,尤其是在地缘政治紧张、法律监管措施异同、文化背景差异的情况下。数据能力不仅是数据处理技术的硬能力,也是企业软实力的体现。目前,无论是业界的自动驾驶算法,还是互联网的推荐、搜索、语音识别算法,都是以提高数据质量和模型参数规模为核心。本质上,他们仍然深挖现有技术路径的发展潜力,借助大规模预训练模型、自生成数据、依托知识图谱和常识关系、使用多源数据等手段,弥补深度学习在泛化、小数据、可解释性和自学习能力等方面的局限,从而不断提升问题解决的水平和深度。

算法的优化依赖于数据,数据在算法模型中凸显其价值。两者既相互联系又相互独立,很容易出现几个问题。

第一个问题是数据规模。规模的大小只是一个相对的概念,数据量的需求并不收敛。软件算法的开发成本转移到数据处理的成本上。随着数据量的增加,数据传输、存储、冷热处理的成本会不断增加。表面上看,半导体的工艺在进步,处理数据的能力在增强,软件算法的效率和成本成反比,但数据的成本在增加。

第二是数据的合规性。一位互联网大佬曾说,“中国人更容易接受自己的面孔、声音和购物选择被记录和数字化,更愿意为了方便而交换个人信息”。我不知道这位大佬是从哪个角度得出这个结论的,但可以看出,数据合规与每个人都息息相关,数据与产品之间有很强的相关性。自动驾驶的权责、道德伦理问题、无法解释的算法等一系列挑战,其实都可以看作是数据合规问题。数据合规是法律法规和产品便利性的平衡关系,是保证产品公平性的措施。因此,这个过程必须是一个动态的过程,具有无止境的数据和持续的合规性。

第三个问题是数据漩涡问题。如今,企业中的每家每户或多或少都在尽一切可能收集数据。自动驾驶公司一般会双管齐下,在积累实际物理场景数据的同时积累虚拟仿真数据。这背后最开心的是云服务提供商和半导体厂商。虽然业内都在鼓吹数据的互联互通,但实际上,老死不相往来。毕竟谁也不想和别人分享资源库的蛋糕;

第四个问题是缺乏基准数据。通常,行业会不断地从物理世界收集数据,用于模型训练。自动驾驶行业不断进行测试和模拟,积累数据里程,普遍存在的问题是缺乏基准数据集,这也导致新模型效果的片面提升,出现既当裁判又当球员的现象。一旦部署到产品端,就会不断出现问题。在高级自动驾驶尚未普及的阶段,偶发事故与其说是软件算法的问题,不如说是训练数据的问题。

针对这种情况,业界采用了一种叫做远程升级的新技术来优化软件算法,实现数据的商业闭环。但是这种方式真的对消费者公平友好吗?这无形中让消费者陷入了一种不确定的盲盒状态。

达尔文的生物进化论告诉我们,物竞天择,适者生存。世界教导我们去适应社会,而不是去改造社会。从半导体行业的发展趋势来看,诞生于20世纪40年代。一开始芯片公司都是设计、制造、封装、测试。随着芯片产业的快速发展,芯片企业开始逐渐分化,向专业化和精益求精的方向深入发展,从而形成了产业的上下游产业链。目前算法模型的体量呈指数级增长。以达摩院的M6模型为例,模型参数达10万亿。单台服务器,以Nvidia V100为例,32GB显存的单卡,125Tera FLOPS的运算能力,很难满足千亿级参数模型的训练需求。模型的体量增长反过来又给数据的读取、写入、存储和训练带来很大的压力。自动驾驶行业,虽然产业链是环形的,但随着产品成熟度的提高,未来会成为链式的稳定产业链。毕竟人脑更擅长信息的串行处理。移动互联网和智能汽车的结合赋予了不同的属性,也是数据和模型分发和应用的中心。因此,高级自动驾驶的数据和模型将被分离,企业将发展成为专业化和精细化的平台。数据处理公司专攻数据问题,数据即服务,模型培训公司专攻模型和工具套件的开发,模型即服务。当业务发展到一定规模,规模是最大的技术壁垒。有人会说,孩子做选择,大人需要所有通用数据和模型。重要的模式在产业发展初期都是可以接受的,产业进入成熟期后,差异化的趋势会成为主流。如果不调整策略,就会陷入顾此失彼的局面,永远处于打补丁的状态,产品的竞争也无从谈起。

从互联网行业来看,数据和模型分离的趋势已经出现。互联网对个人隐私数据的敏感性,从算法层面和数据层面都在不断进化。小数据训练、联邦学习、隐私计算等方法正在走向行业前沿。相对于互联网以个人数据为主,现阶段自动驾驶的数据以B端为主,如场景、道路、区域等。这两者在监管和安全方面有很大的区别。随着未来智能化水平的提高,汽车智能化和用户体验的提升一定会依赖于个人数据,多种数据源的融合将为智能社会的发展奠定基础。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

为您推荐