8月5日,合創資本「VINNO Day」論壇第07期《自動駕駛中的數據戰爭》在燧石星火直播平臺和北大i1898 APP上線。本次分享,合創資本投資企業--MINIEYE創始人劉國清博士,就自動駕駛中的數據戰爭展開精彩分享,直播吸引了3300多位合伙人、被投企業和投資機構在線收看與交流互動。
以下內容為直播整理總結:
今天主要聊一聊自動駕駛數據。
數據閉環
跟很多人工智能的應用一樣,智能駕駛主要涉及三件事,一是算力算法,另外一個就是數據。
算力在人工智能行業里面占據重要地位,是很關鍵的一個角色,所以基本上每家芯片公司都在圍繞算力做非常多的研發投入,持續有一些新的型號產品。算力的峰值出現,不像2014年、2015年的時候可選的車規級計算平臺只有幾家,而且算力非常有限。現在,這種瓶頸已經逐漸被打破。
算法。如果把數據比喻成彈藥的話,算法就是武器。回顧2014年到2018年這個階段,人工智能特別是神經網絡的發展,是算法迭代的黃金時期,從幾十層到上百層的神經網絡層出不窮,在性能上表現的也是越來越好。 這5年左右的發展,趕上可能過去10年甚至20年算法的進展。2019年以后,視覺以及一些融合相關的感知類算法迭代上,進入到一個相對平緩的發展節奏。
2019年以后,突破性的算法較少出現,更多的集中在一些應用,到底怎么把神經網絡的技術神經網絡算法應用到實際場景里去,就是我剛才提到的數據,它是彈藥。
這是一個典型的人工智能系統架構。橙色代表訓練的過程,藍色代表推理過程,訓練的過程相當于處在一個學習階段,去掌握一些技能。這個技能可以是識別車、識別語音,識別中文、西班牙語等等,也可以是推薦可能感興趣的 IC、IT類產品。 它涉及到不同的應用和任務,具體能夠實現什么功能依賴于你的訓練數據。經過這樣一個訓練,我們得到了一個模型,基于這些模型就可以進入到influence推理的過程,去實現一些應用。
比如,基于人臉識別。可以去做上班打卡的一些產品,基于語音識別或者語音的一些合成等,去做一些跟語音相關的專業應用等,這其實就是一個典型的人工智能的架構。
舉一個例子,疫情后大家都養成了帶口罩的習慣。以前上班打卡不戴口罩的時候,可以非常準確地識別到我是誰。但是,當我們戴著口罩有可能就無法識別了。但是過了一段時間,又可以支持戴著口罩進行人臉識別了。 其實是因為考勤機缺少戴口罩的數據,相當于它沒有學習過這個東西,但是后來隨著需求的增長,以及后臺數據針對于帶口罩數據的補充,它又掌握了這個新技能。這一點也體現數據的價值巨大。
與考勤打卡這種相對可控的環境下做出的人工智能應用而言,自動駕駛相關的人工智能技術面臨的挑戰是更大的交通環境和場景。最核心的一個問題是我們要識別和分析,交通環境里的各種目標,它的內差很大。比如說,對于人臉,同樣是這個人臉不論白種人,黃種、黑種、大人、老人還是男人,他都是兩個眼睛一個鼻子一張嘴,結構也是非常穩定的。在這種情況,對于人臉的表達,內差比較小。但是,對于我們要面臨的交通場景里邊的目標。比如說,人體有各種各樣的姿態,站立、蹲著、打傘、穿雨衣的時候,甚至還有一些奇裝異服的行為,所以同樣是行人,區別可能非常大。對于車也是一樣,各種各樣的車型,包括對于光照的影響,天氣的影響等等,這些都造成交通場景下各種目標的內差很大。
數據是戰略資源。從技術角度來看的話,數據的摩爾定律已經被打破了,相信用不了多久,在車載車規級的算力上會有更多像英偉達一樣的企業去滿足新的硬件平臺,甚至到L3、L5的一些增量需求。
而算法,隨著時間的推移其稀缺性呈邊界遞減;而數據它實際可以持續地擴寬我們的護城河,真正形成長期的壁壘。 如果想要公司去共享自己積累下來的核心數據其實是很難接受的,只能靠更多的企業和聯盟自己去積累。
到底怎么去積累?一種方式是進行自行采集。像Waymo部署了幾百臺自動駕駛車輛,在美國幾個州進行路測,受到車隊規模的限制,整個采集的積累過程比較緩慢。積累100億英里數據需要76.1年,而業界普遍認為做L4、L5基本上要做 100億英里以上的里程數據。
另外一種方式,通過用戶生成數據。比如目前特斯拉的用戶已經使用Autopilot系統駕駛了超過10億英里,為他們提供了大量更有針對性的寶貴數據,更好地了解意外事故。我們MINIEYE則與美國GM聯合研發,利用已量產的ADAS產品,自動采集“Corner Cases”數據,幫助L4/L5級自動駕駛的研發。
如何在整個自動駕駛的演進過程中打造競爭力?如何有效構建數據閉環呢?
從量產的產品拿回用戶使用過程中生成的數據,利用這些數據幫助持續迭代技術,然后利用迭代的技術實現產品的進化,進而 OTA或者交付給新的客戶,用數據去驅動整個的研發事情,在自動駕駛的整個版圖上非常重要。
MINIEYE云端數據工廠
我們的定位是做自動駕駛體系里面的感知,所以整體數據的積累也是圍繞感知的定位來做的。
首先,數據怎么生成。目前在前裝、后裝都有一系列產品,包括我們去年年底還推出了一代消費級的駕駛輔助類產品,目前都是集中在L1和L2階段。這些已經裝配的產品為我們提供了非常好的數據源,我們從這些已經量產裝配出去的設備上,利用自帶的司機或者5G模塊進行通信,幫助我們拿回用戶使用過程中數據。
主要包括兩類,一類是交通環境處理。除了攝像頭數據、雷達、超聲波等等這些數據,不同的車型,不同的數據源都有不同的積累。我們既有原始數據,還有整個的感知數據,這些感知數據幫助我們為車主和客戶提供了駕駛輔助功能。另一方面,它能夠幫助我們去篩選想要的數據。除了外部的交通環境以外,還有駕駛行為數據。 包括轉向、油門、剎車這些控制類的數據。不僅要了解外面的環境,還要知道在這種環境下駕駛員是怎么操作的。
其次,數據的獲取。當然硬件基礎需要通信模塊,目前我們主要兩種方式,一種是自帶的4G或者5G的module,另外一種是T-BOX。通信通過T-BOX回傳到云端,我們自研了分布式架構,在安全性、擴展性和集成性上都有很好的優勢。 基于這樣一套分布式架構,我們去做任務管理和任務下發。 基于我們的任務管理系統和裝配件,可以拿回大量的數據,圍繞這些數據我們可以開發一套大數據管理平臺。
最后,數據的使用。在數據閉環里,數據驅動非常關鍵的一個點,是如何提升測試的效率和有效性。測試現在是整個自動駕駛技術環節里面最核心的部分。在我們構建的數據閉環以及圍繞數據驅動的研發體系里面,我們把測試做成了一種在線服務,叫TaaS(Testing as a Service),包含了一系列自主研發的一些工具和平臺。
拿到數據后,我們會通過Mini-Annotation進行半自動化數據標注。目前,根據不同的目標和任務基本上達到70~80%的自動化。在我們的TaaS中,還有一個比較核心的部分是Mini-OJ自動化測試系統,可以在線實現測試數據的管理、分析以及相關可視化,促進協作各方面效率提升。
除了軟件和算法層面上的測試以外,硬件在環也在汽車電子里面很重要的部分。我們硬件在環做成一種分布式,傳統的在環整體來講做的比較重,我們通過模擬器的方式盡可能把它小型化和輕量化,并且我們讓所有的HIL都聯網。整個這樣一套分布式的HIL系統對于高效地去實現硬件相關的測試也起到了很重要的作用。
我們還做了Mini-SIM自動化仿真測試系統。不同的天氣條件、路況、車型、光照條件等等都可以通過這種仿真的方式去搭建測試環境,實現相關主體的測試。基于數據發現問題,基于這些問題,針對性的迭代技術。通過補充數據或者修改我們的網絡結構重新設計網絡模型,幫助我們解決問題,通過OTA算法對我們的量產數據設備進行升級,讓我們的用戶始終都享受最好的服務。
數據的增值服務
數據不僅助力我們構建自己的技術壁壘,幫助我們按照一種漸進式的方式迭代技術,讓感知系統能夠滿足越來越高階的自動駕駛感知需求。除此以外,數據的商業價值也很大,圍繞數據我們可以去做一系列的增值服務。
目前,有一系列的車型和車隊裝載了我們的產品,圍繞這些產品,我們可以把這些數據按照一定的需求拿回來。基于這些數據,我們一個典型的應用就是幫助客戶來進行高精度地圖相關的數據的更新,我們和四維圖新也有很深入的合作。我們通過量產的終端ADAS設備實時根據特定需求去捕捉道路的數據,包括矢量、建圖的數據可以回傳到云端,然后在云端幫助四維圖形和其他的客戶,去做高精度地圖。
未來,我們希望能夠從感知跨越到決策,然后打通感知+決策的整個閉環。