DriveGPT雪湖·海若誕生,將重塑汽車智能化技術(shù)路線
和 ChatGPT 在 AIGC(AI- Generated Content,人工智能生成內(nèi)容)領(lǐng)域一樣具備顛覆性的事情正在發(fā)生。
4 月 11 日,自動(dòng)駕駛技術(shù)公司毫末智行在其第八屆 HAOMO AI DAY 上,重磅發(fā)布行業(yè)首個(gè)自動(dòng)駕駛生成式大模型 DriveGPT,中文名「雪湖·海若」,該模型參數(shù)規(guī)模達(dá)到 1200 億,可用于解決自動(dòng)駕駛研發(fā)過(guò)程中困擾已久的認(rèn)知決策問(wèn)題,并通過(guò)能力迭代,最終實(shí)現(xiàn)端到端自動(dòng)駕駛。
此前,受制于傳統(tǒng)模型「數(shù)據(jù)量小、基于規(guī)則」等局限性,智能駕駛技術(shù)進(jìn)展一度較為緩慢,甚至不少?gòu)臉I(yè)者都對(duì)未來(lái)產(chǎn)生了自我懷疑,在這樣的背景下,兩年前,毫末率先投入到大模型技術(shù)的研發(fā)之中,旨在尋找新的突破。
經(jīng)歷了先行探索和反復(fù)驗(yàn)證,毫末成功找到了突破口——生成式大模型,通過(guò)在行業(yè)首個(gè)將 GPT 落地到自動(dòng)駕駛領(lǐng)域,大大加速了更高階智能駕駛的落地應(yīng)用。
「生成式大模型將成為自動(dòng)駕駛系統(tǒng)進(jìn)化的關(guān)鍵,基于 Transformer 大模型訓(xùn)練的感知、認(rèn)知算法會(huì)逐步在車端進(jìn)行落地部署。」毫末董事長(zhǎng)張凱在 HAOMO AI DAY 上對(duì)行業(yè)未來(lái)發(fā)展趨勢(shì)作出論斷。
毫末 CEO 顧維灝也表示:「DriveGPT 雪湖·海若將會(huì)重塑汽車智能化技術(shù)路線,讓輔助駕駛進(jìn)化更快,讓自動(dòng)駕駛更早到來(lái)。」
顧維灝在自動(dòng)駕駛技術(shù)領(lǐng)域的眼光獨(dú)到,布局非常領(lǐng)先。
事實(shí)上,毫末在 2021 年就已經(jīng)開(kāi)始了 Transformer 大模型技術(shù)的探索,并快速落地應(yīng)用到 BEV 視覺(jué)感知算法當(dāng)中,然后又以五大模型的方式來(lái)實(shí)現(xiàn)自動(dòng)駕駛感知、認(rèn)知算法的快速升級(jí),現(xiàn)在這些大模型將統(tǒng)一到 DriveGPT 生成式大模型當(dāng)中,目標(biāo)將實(shí)現(xiàn)端到端自動(dòng)駕駛。
毫末的探索始終走在行業(yè)技術(shù)探索的前列。
據(jù)了解,新摩卡 DHT-PHEV 即將首發(fā)搭載 DriveGPT 雪湖·海若量產(chǎn)上市,屆時(shí),用戶市場(chǎng)還將迎來(lái)一輪新的震撼。
「毫型橘末真正重塑了行業(yè)信心,」一位業(yè)內(nèi)人士略微激動(dòng)地說(shuō)道,「這將是一場(chǎng)革命。」
01、DriveGPT 雪湖·海若,如何顛覆智能駕駛
在介紹 DriveGPT 雪湖·海若之前,先回顧一下 ChatGPT 的概念,其全稱是 Chat Generative Pre-trained Transformer,字面意思是用于聊天的生成式預(yù)訓(xùn)練 Transformer 大模型扒埋。
其中 Transformer 是 ChatGPT 的重點(diǎn),最早由谷歌在 2017 年提出,該模型基于注意力機(jī)制的設(shè)計(jì),可以實(shí)現(xiàn)出色的算法并行性,因而迅速在自然語(yǔ)言處理(NLP) 領(lǐng)域流行起來(lái),ChatGPT 就是其最新成果。
Transformer 大模型對(duì)于智能駕駛來(lái)說(shuō)也不陌生,在 NLP 中奠定了核心地位之后,被逐漸被引入計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域,后又被特斯拉、毫末智行等行業(yè)龍頭先行引入自動(dòng)駕駛系統(tǒng)中,用于提升感知端的模型效果。
如今,毫末在 Transformer 大模型的應(yīng)用上更進(jìn)一步,將其率先拓展到智能駕駛系統(tǒng)認(rèn)知端,DriveGPT 雪湖·海若由此誕生。
從同樣使用 Transformer 大模型的角度來(lái)說(shuō),ChatGPT 和 DriveGPT 雪湖·海若屬于同宗同源。
其中,ChatGPT 是對(duì)話式的生成式自然語(yǔ)言模型,輸入是自然語(yǔ)言的文本串,輸出是自然語(yǔ)言的文本,可以完成通用的下游春租螞語(yǔ)言生成任務(wù),比如多輪對(duì)話、代碼生成、翻譯、數(shù)學(xué) 運(yùn)算等能力。
而毫末 DriveGPT 雪湖·海若是用于自動(dòng)駕駛場(chǎng)景的生成式大模型,輸入是感知融合后的文本序列,輸出是自動(dòng)駕駛場(chǎng)景文本序列,即將自動(dòng)駕駛場(chǎng)景 Token 化,形成「Drive Language」,最終完成自車的決策規(guī)控、障礙物預(yù)測(cè)以及決策邏輯鏈的輸出等任務(wù)。
DriveGPT 雪湖·海若首先在預(yù)訓(xùn)練階段通過(guò)引入量產(chǎn)駕駛數(shù)據(jù),訓(xùn)練初始模型,再通過(guò)引入駕駛接管 Clips 數(shù)據(jù)完成反饋模型 (Reward Model) 的訓(xùn)練,然后再通過(guò)強(qiáng)化學(xué)習(xí)的方式,使用反饋模型去不斷優(yōu)化迭代初始模型,形成對(duì)自動(dòng)駕駛認(rèn)知決策模型的持續(xù)優(yōu)化。
具體來(lái)說(shuō),DriveGPT 雪湖·海若會(huì)通過(guò)人類反饋強(qiáng)化學(xué)習(xí)的方式進(jìn)行迭代,用 DriveGPT 雪湖·海若最新模型 (Active Model) 對(duì)真實(shí)場(chǎng)景 Case 做生成,產(chǎn)出多種場(chǎng)景序列結(jié)果,再用反饋模型給這些結(jié)果進(jìn)行打分排序,目標(biāo)是把好的結(jié)果排上來(lái),差的結(jié)果排下去,然后與初始模型 (Pretrain-Model) 的生成概率做比較,放大比分。最后通過(guò)強(qiáng)化學(xué)習(xí)的方式將參數(shù)再次更新到最新模型 (Active Model) 中,一直反復(fù)這個(gè)迭代過(guò)程。
其中,Reward Model(反饋模型) 的訓(xùn)練過(guò)程是獨(dú)立的,使用帶有偏序關(guān)系的 Pair 樣本對(duì)來(lái)訓(xùn)練,這些樣本對(duì)來(lái)自于接管 Case,毫末將與人類駕駛結(jié)果相似的模型結(jié)果作為正樣本,與被接管軌跡相似的作為負(fù)樣本,這樣來(lái)構(gòu)建偏序?qū)希倮?LTR(Learning To Rank) 的思路去訓(xùn)練 Reward Model,進(jìn)而得到一個(gè)打分模型。
此外,DriveGPT 雪湖·海若還可以輸出決策邏輯鏈:即在輸入端提供 Prompts(提示語(yǔ)),根據(jù)提示輸出含有決策邏輯鏈 (Chain of Thought) 的未來(lái)序列。
毫末 CSS 自動(dòng)駕駛場(chǎng)景庫(kù)是 CoT 的重要輸入,擁有超過(guò)幾十萬(wàn)個(gè)細(xì)顆粒度場(chǎng)景,將 Prompt 提示語(yǔ)和完整決策過(guò)程的樣本交給模型去學(xué)習(xí),學(xué)到推理關(guān)系,從而將完整駕駛策略拆分為自動(dòng)駕駛場(chǎng)景的動(dòng)態(tài)識(shí)別過(guò)程,完成可理解、可解釋的推理邏輯鏈生成。
除了用作認(rèn)知決策,DriveGPT 雪湖·海若還可以逐步應(yīng)用到城市 NOH、捷徑推薦、智能陪練以及脫困場(chǎng)景中。
有了 DriveGPT 雪湖·海若的加持,車輛行駛會(huì)更安全;動(dòng)作更人性、更絲滑,并有合理的邏輯告訴駕駛者,車輛為何選擇這樣的決策動(dòng)作。
對(duì)于普通用戶來(lái)說(shuō),車輛越來(lái)越像老司機(jī),用戶對(duì)智能產(chǎn)品的信任感會(huì)更強(qiáng),理解到車輛的行為都是可預(yù)期、可理解的。
盡管 DriveGPT 雪湖·海若剛出世就擁有強(qiáng)大的功能,但這還不是它的「終局」,毫末對(duì)于 DriveGPT 雪湖·海若的目標(biāo)是實(shí)現(xiàn)端到端自動(dòng)駕駛,后續(xù)毫末會(huì)持續(xù)將多個(gè)大模型的能力整合到 DriveGPT 雪湖·海若中。
與此同時(shí),毫末也對(duì)外構(gòu)建 DriveGPT 雪湖·海若生態(tài),通過(guò)對(duì)行業(yè)提供開(kāi)放服務(wù),促進(jìn)自動(dòng)駕駛的從業(yè)者和研究機(jī)構(gòu),快速構(gòu)建基礎(chǔ)能力,釋放創(chuàng)新。
汽車之心獲知,毫末 DriveGPT 雪湖·海若首批定向邀請(qǐng)了北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院、高通、火山引擎、華為云、京東科技、四維圖新、魏牌新能源、英特爾等加入。
事實(shí)上,毫末對(duì)于大模型的開(kāi)放從 DriveGPT 雪湖·海若的中文名「雪湖·海若」即可窺見(jiàn)。
據(jù)了解,「海若」一詞出自《莊子·秋水》中的神話人物北海若,在該書(shū)中,另一神話人物河伯請(qǐng)教北海若,何謂大小之分,北海若教導(dǎo)河伯說(shuō),不因天地而覺(jué)大,不因毫末而覺(jué)小。
毫末據(jù)此把 DriveGPT 中文名命名為「海若」,寓意著智慧包容、海納百川,為行業(yè)發(fā)展貢獻(xiàn)力量。
02、自動(dòng)駕駛生成式大模型「第一槍」,為何由毫末打響
自動(dòng)駕駛領(lǐng)域頂級(jí)玩家眾多,毫末憑何在全球首個(gè)推出了自動(dòng)駕駛生成式大模型 DriveGPT 雪湖·海若?
要回答這個(gè)問(wèn)題,首先要理清楚毫末 DriveGPT 雪湖·海若的本質(zhì),它是應(yīng)用在智能駕駛上的人工智能,就必然離不開(kāi)人工智能三要素:算法、數(shù)據(jù)和算力,而這三者恰恰是毫末具備領(lǐng)先性優(yōu)勢(shì)的地方。
首先在算法的技術(shù)路線上,毫末早早就堅(jiān)定選擇走漸進(jìn)式發(fā)展路線,比「躍進(jìn)式」玩家的量產(chǎn)時(shí)間更早,更快形成規(guī)模化,從用戶真實(shí)使用場(chǎng)景中積累足夠多的數(shù)據(jù)。
毫末還清晰地提出了從自動(dòng)駕駛 1.0 時(shí)代到自動(dòng)駕駛 3.0 時(shí)代的演進(jìn)路徑,并率先進(jìn)入以數(shù)據(jù)驅(qū)動(dòng)為核心的新時(shí)代。
從這時(shí)開(kāi)始,自動(dòng)駕駛獲取的數(shù)據(jù)量與數(shù)據(jù)多樣性將呈現(xiàn)指數(shù)級(jí)膨脹,在深度學(xué)習(xí)主導(dǎo)中,與大模型相輔相成,真正去解決自動(dòng)駕駛最后的長(zhǎng)尾難題。
在 2021 年 12 月第四屆 HAOMO AI DAY 上,毫末發(fā)布中國(guó)首個(gè)數(shù)據(jù)智能體系 MANA,其由四大板塊組成,分別是 TARS、LUCAS、VENUS 和 BASE。
其中,BASE 是整個(gè)系統(tǒng)架構(gòu)的底層,包括數(shù)據(jù)底座、數(shù)據(jù)融合、PoseidonOS 等。
其他三大板塊置于上層:
TARS 代表毫末智行的開(kāi)發(fā)的原型算法,包括感知、規(guī)劃決策、地圖定位、仿真引擎;LUCAS 是提取數(shù)據(jù)價(jià)值,以數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)能力持續(xù)迭代的核心子系統(tǒng),解決場(chǎng)景泛化,評(píng)測(cè)和部署的問(wèn)題;VENUS 則是數(shù)據(jù)看板,以參考標(biāo)準(zhǔn)評(píng)價(jià)算法的好壞。【本文來(lái)自易車號(hào)作者汽車之心,版權(quán)歸作者所有,任何形式轉(zhuǎn)載請(qǐng)聯(lián)系作者。內(nèi)容僅代表作者觀點(diǎn),與易車無(wú)關(guān)】
聲明:本站所有文章資源內(nèi)容,如無(wú)特殊說(shuō)明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。