蜜臀av午夜在线观看-亚洲欧美日韩成人综合在线-国产黄色一级性生活片-亚洲av高清一区二区三区麻豆

TEL: 0752-3616551 15917765495

多模態(tài)大模型引領(lǐng)「以人為本」的智能汽車交互革新,商湯絕影亮相WAIC 2024

Jul,15,2024 << Return list

2024年7月5日,中國(guó)上海——2024世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(WAIC 2024)于7月4日-7月7日在上海舉行。商湯絕影攜多款基于全新發(fā)布的商湯「日日新5.5」原生多模態(tài)大模型打造的智能駕駛和智能座艙產(chǎn)品亮相本屆WAIC,引領(lǐng)「以人為本」的智能汽車交互革新。

作為加速智能汽車駛?cè)階GI時(shí)代的戰(zhàn)略合作伙伴,商湯絕影展示了可解釋、可交互的自動(dòng)駕駛大模型DriveAGI,同時(shí)還發(fā)布了行業(yè)首個(gè)車載生成式交互界面 「隨心界面」(FlexInterface)、「隨意操控」(AgentFlow)等車載AI Agent應(yīng)用。此外,商湯絕影自動(dòng)駕駛小巴也亮相本屆WAIC,并成為大會(huì)唯一承擔(dān)接駁任務(wù)的L4級(jí)別自動(dòng)駕駛小巴。

在7月5日由WAIC 2024戰(zhàn)#xad;略合作伙伴商湯科技召開的「大愛無(wú)疆·向新力」人工智能論壇上,商湯科技發(fā)布國(guó)內(nèi)首個(gè)所見即所得模型「日日新5o」,實(shí)時(shí)流式多模態(tài)交互體驗(yàn)對(duì)標(biāo)GPT-4o,展現(xiàn)采用混合端云協(xié)同專家架構(gòu)的商湯「日日新5.5」大模型的強(qiáng)大實(shí)力。商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛表示,“原生多模態(tài)大模型是打開AGI大門的鑰匙,商湯絕影正在激發(fā)AGI創(chuàng)造力,推動(dòng)多模態(tài)大模型與智能汽車的深度融合,打造一系列全新的車載智能化產(chǎn)品,加速智能汽車向超級(jí)智能體進(jìn)化,引領(lǐng)一場(chǎng)「以人為本」的智能汽車交互的變革?!?/p>

1.jpg


王曉剛在「大愛無(wú)疆·向新力」論壇分享商湯絕影最新的技術(shù)和產(chǎn)品進(jìn)展

真·「以人為本」,商湯絕影多模態(tài)大模型引領(lǐng)智能汽車交互革新

多模態(tài)大模型能夠?qū)⒄Z(yǔ)音、文字、圖像、手勢(shì)、視頻等各種模態(tài)進(jìn)行高效且深度地融合,提供更加豐富且自然的人機(jī)交互體驗(yàn)。

過(guò)去許多模型處理不同模態(tài)信息是先把語(yǔ)音等輸入轉(zhuǎn)化為文字,文字和圖像結(jié)合進(jìn)行分析,輸出反饋也是先生成文字,根據(jù)文字再生成語(yǔ)音輸出,會(huì)有大量信息丟失和很高的延遲。

由「日日新5.5」體系支持的全新商湯多模態(tài)大模型是一種端到端的模型,也就是文字、語(yǔ)音、視頻等模態(tài)一同輸入,模型統(tǒng)一處理后輸出相應(yīng)模態(tài)的信息,相較于過(guò)去的方案,多模態(tài)融合的技術(shù)難度是幾何倍數(shù)的提升。

技術(shù)上的高難度是商湯行業(yè)領(lǐng)先的原生多模態(tài)能力的直接體現(xiàn)。今年4月發(fā)布的「日日新5.0」是國(guó)內(nèi)首個(gè)對(duì)標(biāo)GPT-4 Turbo的國(guó)產(chǎn)大模型,「日日新5.5」體系更是全面升級(jí),數(shù)學(xué)推理、英文能力和指令跟隨等能力明顯增強(qiáng),交互效果和多項(xiàng)核心指標(biāo)實(shí)現(xiàn)對(duì)標(biāo)GPT-4o。

此前GPT-4o的發(fā)布為消費(fèi)者展示了多模態(tài)實(shí)時(shí)交互的方式,讓更多人領(lǐng)略多模態(tài)感知和交互的魅力,也開始幫助釋放多模態(tài)大模型的商業(yè)落地想象空間。

相較于手機(jī),智能汽車才是更適合承載多模態(tài)大模型的落地場(chǎng)景。因?yàn)橹悄芷噧?nèi)外的各種攝像頭是常開的,用戶可以實(shí)時(shí)跟汽車通過(guò)多模態(tài)的方式進(jìn)行交互。同時(shí),智能汽車的保有量不斷增加,能夠產(chǎn)生豐富的終端用戶反饋和數(shù)據(jù)信息,讓模型不斷迭代成長(zhǎng)。

這些因素綜合展現(xiàn)了一個(gè)令人激動(dòng)的未來(lái)智能汽車發(fā)展方向:從智能汽車正在進(jìn)化為超級(jí)智能體,多模態(tài)大模型則是這一進(jìn)程的核心驅(qū)動(dòng)力。

和OpenAI等公司相比,商湯絕影是智能汽車的核心供應(yīng)商,在智能駕駛和智能座艙領(lǐng)域具備豐富的量產(chǎn)經(jīng)驗(yàn),將以多模態(tài)大模型為核心加速「以人為本」的智能汽車交互革新。

智能汽車的人機(jī)交互正在從「以車為中心」向「以人為中心」轉(zhuǎn)型。在這個(gè)轉(zhuǎn)型中,現(xiàn)階段用戶仍需用文本或語(yǔ)音給智能汽車提供信息和數(shù)據(jù)以獲取被動(dòng)式的服務(wù),其他的信息都丟失了,尚未真正做到主動(dòng)服務(wù)用戶。商湯絕#xad;影正在用多模態(tài)大模型打造真·「以人為中心」的智能汽車交互方式,這種交互覆蓋了座艙、汽車周邊的環(huán)境,讓有關(guān)于“人”的信息不會(huì)被忽視,甚至它還突破了空間的限制,實(shí)現(xiàn)艙內(nèi)用戶與更廣闊的物理和數(shù)字世界的聯(lián)接。

2.jpg


商湯絕影在行業(yè)率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署


3.jpeg

商湯絕影車載端側(cè)8B多模態(tài)模型性能行業(yè)領(lǐng)先

車端模型部署能力是智能汽車交互革新不可或缺的技術(shù)保障,商湯絕影能夠以云側(cè)、端云結(jié)合、端側(cè)等全棧方式靈活部署多模態(tài)大模型,讓商湯原生多模態(tài)能力能夠快速落地智能汽車。

在本屆WAIC上,商湯絕影在行業(yè)率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署,并對(duì)外展示了在3個(gè)不同算力平臺(tái)上運(yùn)行2.1B或8B端側(cè)多模態(tài)大模型的適配能力。相較于動(dòng)輒就有幾秒鐘延遲的云上部署方案,商湯絕影車載端側(cè)8B多模態(tài)模型可以實(shí)現(xiàn)首包延遲低至300毫秒以內(nèi),推理速度40Tokens/秒,為「以人為本」的智能汽車交互革新保駕護(hù)航。

DriveAGI可解釋、可交互,多模態(tài)讓端到端智駕安全可信賴

2022年底,商湯及其聯(lián)合實(shí)驗(yàn)室提出了行業(yè)首個(gè)感知決策一體化自動(dòng)駕駛通用模型UniAD,并在次年榮獲2023年國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)最佳論文,今年北京車展,商湯絕影展示了UniAD的實(shí)車上路成果,持續(xù)引領(lǐng)端到端自動(dòng)駕駛的創(chuàng)新潮流。

北京車展以來(lái),UniAD穩(wěn)步前行,通過(guò)持續(xù)的數(shù)據(jù)采集、真值生產(chǎn)、模型訓(xùn)練、實(shí)車測(cè)試,UniAD系統(tǒng)穩(wěn)定性大幅增強(qiáng),體驗(yàn)連續(xù)性和舒適性不斷提升。在本屆WAIC上,商湯絕影展示了只搭載7個(gè)攝像頭的UniAD,在無(wú)圖情況下實(shí)現(xiàn)城區(qū)復(fù)雜道路、鄉(xiāng)村小路等場(chǎng)景一鏡到底的實(shí)車演示,端到端智駕模型持續(xù)迭代進(jìn)化。

UniAD顯著提升了智駕系統(tǒng)的駕駛能力,但純粹的端到端自動(dòng)駕駛模型不是自動(dòng)駕駛的最終答案,進(jìn)一步具備對(duì)開放世界的感知、推理、決策及交互能力,將是智能汽車走向超級(jí)智能體的重要標(biāo)志。因此,商湯絕影開創(chuàng)性地研發(fā)了首個(gè)應(yīng)用于駕駛決策規(guī)劃的智駕大模型,即基于多模態(tài)大模型打造的DriveAGI,讓端到端智駕可解釋、可交互。

DriveAGI增強(qiáng)了端到端系統(tǒng)的可解釋性,不僅讓車輛能夠更像人一樣理解復(fù)雜的現(xiàn)實(shí)世界,洞察各類交通參與者的行為動(dòng)機(jī),快速學(xué)習(xí)各種交通規(guī)則,掌握瞬息萬(wàn)變的道路信息,還能向用戶解釋駕駛決策的推理過(guò)程。

目前,商湯絕影DriveAGI智駕大模型能在無(wú)限寬標(biāo)識(shí)的道路上,安全順利穿過(guò)兩個(gè)石墩形成的狹窄通道;它還能準(zhǔn)確辨識(shí)并理解包括公交車道、潮汐車道及施工車道等各類交通標(biāo)識(shí),并自主進(jìn)行變道或規(guī)避,甚至當(dāng)后方有救護(hù)車接近時(shí),DriveAGI會(huì)進(jìn)行思考推理,最終進(jìn)行及時(shí)變道避讓。

微信圖片_20240706142814.png


DriveAGI不僅能識(shí)別救護(hù)車,還能做到主動(dòng)讓行執(zhí)勤救護(hù)車

多模態(tài)大模型還賦予了DriveAGI強(qiáng)大的可交互性,用戶不僅可以通過(guò)問(wèn)詢讓DriveAGI解釋自己的決策過(guò)程,還能通過(guò)語(yǔ)音或手勢(shì)指令來(lái)控制自動(dòng)駕駛行為。例如,未來(lái)在自動(dòng)駕駛狀態(tài)下,導(dǎo)航指示車輛需在下個(gè)路口調(diào)頭以抵達(dá)目的地,但駕駛員知曉可在前方有近路可以直接轉(zhuǎn)彎,那么他只需對(duì)系統(tǒng)說(shuō)出「直接左拐」,系統(tǒng)便會(huì)根據(jù)當(dāng)前路況來(lái)執(zhí)行這一指令。

UniAD和DriveAGI智駕大模型的驚艷表現(xiàn)依賴于商湯絕影強(qiáng)大的模型能力,同時(shí)也需要大量的高質(zhì)量數(shù)據(jù)支持學(xué)習(xí)和訓(xùn)練。作為「新質(zhì)生產(chǎn)力」,以多模態(tài)為代表的大模型極大提高了端到端智駕訓(xùn)練、迭代的生產(chǎn)效率。

以真實(shí)的多模態(tài)數(shù)據(jù)為基礎(chǔ),商湯絕影的世界模型、交通流仿真大模型等一系列云端大模型源源不斷生產(chǎn)出高質(zhì)量數(shù)據(jù),同時(shí)通過(guò)各個(gè)大模型之間相互協(xié)同,實(shí)現(xiàn)場(chǎng)景生產(chǎn)、交通流仿真、真值生產(chǎn)、系統(tǒng)診斷等能力,打造出智駕大模型時(shí)代的端到端數(shù)據(jù)閉環(huán),為端到端自動(dòng)駕駛方案的落地與進(jìn)化提供有力的保障。

多模態(tài)融入智能座艙,讓智能汽車成為你的專屬「賈維斯」

今天的智能汽車配備了豐富且強(qiáng)大的硬件,能夠?yàn)橛脩舸蛟煲粋€(gè)獨(dú)立的交互環(huán)境,它是AGI落地的最佳場(chǎng)景。面向智能座艙,商湯絕影充分釋放多模態(tài)大模型強(qiáng)大感知和交互能力,激發(fā)更多想象空間。

依靠行業(yè)領(lǐng)先的多模態(tài)能力,商湯絕影正在打造多模態(tài)大模型引擎產(chǎn)品「座艙大腦」(CockpitBrain),構(gòu)建一系列AI大模型座艙產(chǎn)品矩陣,讓鋼鐵俠的人工智能幫手「賈維斯」走進(jìn)智能汽車,成為每一個(gè)用戶的AI出行伙伴。

在本屆 WAIC上,商湯絕影正式發(fā)布行業(yè)首個(gè)生成式交互界面產(chǎn)品「隨心界面」(FlexInterface)以及「隨意操控」(AgentFlow)等多個(gè)車載 AI Agent,旨在通過(guò)AI技術(shù),徹底改變用戶與車載系統(tǒng)的交互方式。

依托于 AI 大模型的即時(shí)生成和修改交互界面的能力,FlexInterface在大模型解析用戶需求的基礎(chǔ)上,結(jié)合設(shè)計(jì)系統(tǒng)的框架和范式,實(shí)現(xiàn)高度動(dòng)態(tài)和個(gè)性化的界面生成。無(wú)論是天氣、時(shí)間、節(jié)日、紀(jì)念日,還是周圍環(huán)境變化,FlexInterface 都能自動(dòng)變換界面風(fēng)格,提供最佳用戶體驗(yàn)。

AgentFlow 通過(guò)大模型的推理能力,模擬人類點(diǎn)擊操作,實(shí)現(xiàn)對(duì)APP和網(wǎng)站的直接操作。用戶只需使用自然語(yǔ)言,就能讓AI自主選擇多個(gè)工具完成復(fù)雜任務(wù),無(wú)需主機(jī)廠進(jìn)行額外的研發(fā)適配。這種能力不僅提升了操作的便捷性,還極大地?cái)U(kuò)展了車載系統(tǒng)的功能范圍。例如,用戶能讓AgentFlow自動(dòng)搜索并預(yù)約適合看球的酒吧,提供從搜索到預(yù)訂的一站式服務(wù)。

在商湯絕影的現(xiàn)場(chǎng)演示中,用戶通過(guò)FlexInterface生成了一個(gè)「歐洲杯」風(fēng)格的主題,大模型自動(dòng)生成具備歐洲杯元素的中控屏幕桌面和圖標(biāo);同時(shí),用戶還能通過(guò)AgentFlow隨時(shí)播放歐洲杯或足球相關(guān)的音樂(lè),展示了這些創(chuàng)新產(chǎn)品在實(shí)際應(yīng)用中的強(qiáng)大能力和靈活性。

80.jpeg


FlexInterface通過(guò)大模型生成的「歐洲杯」主題的車載界面

除此之外,本屆WAIC上,商湯絕影在傳統(tǒng)智能汽車「哨兵模式」的基礎(chǔ)上打造了「多模態(tài)哨兵」, 能夠全面理解并應(yīng)對(duì)開放世界中可能對(duì)車輛造成損害的各種潛在隨機(jī)危險(xiǎn)行為,諸如劃車、噴涂車身、拍打砸車、拉拽門把手、撬門以及踹車等,確保車輛安全無(wú)死角。

在多模態(tài)大模型的助力下,商湯絕影將讓智能汽車成為用戶的專屬「賈維斯」,讓智能汽車向著超級(jí)智能體的形態(tài)又邁進(jìn)了一步。

量產(chǎn)全面開花,開辟出行新范式,加速駛?cè)階GI時(shí)代

作為加速智能汽車駛?cè)階GI時(shí)代的戰(zhàn)略合作伙伴,商湯絕影不只是在大模型技術(shù)上領(lǐng)航新時(shí)代,產(chǎn)品化量產(chǎn)落地也已經(jīng)全面開花。

在智能座艙領(lǐng)域,商湯絕影的大模型產(chǎn)品已經(jīng)在多家主流汽車制造企業(yè)的量產(chǎn)車型中得到廣泛應(yīng)用。例如,商湯的大模型已全面助力小米SU7的小愛語(yǔ)音助手車載語(yǔ)音場(chǎng)景應(yīng)用。

6月25日,翼真 L380正式上市,行業(yè)領(lǐng)先的最新版本商湯「日日新」大模型實(shí)現(xiàn)量產(chǎn)上車,基于「商量」大語(yǔ)言模型和「秒畫」文生圖模型,商湯絕影為翼真 L380定制化打造了「AI閑聊」、「美圖壁紙」、「童話繪本」、「AI問(wèn)診」等AI大模型座艙產(chǎn)品和功能,助力「陸地空客」升維智能座艙體驗(yàn)。

在智能駕駛領(lǐng)域,商湯絕影的量產(chǎn)智駕產(chǎn)品已落地包括廣汽埃安LX Plus、合眾哪吒S、廣汽昊鉑GT、紅旗等品牌及車型,高速NOA等功能也開始落地,同時(shí)絕影還在推進(jìn)更多車型交付,已具備了從感知到規(guī)控的全棧智駕技術(shù)量產(chǎn)交付能力。6月初,廣汽和一汽入選國(guó)內(nèi)首批L3試點(diǎn)項(xiàng)目,商湯絕影為他們提供面向L3的感知算法。不止如此,商湯絕影目前的多個(gè)量產(chǎn)智駕方案在未來(lái)均可升級(jí)為端到端架構(gòu)。

更高階的L4自動(dòng)駕駛領(lǐng)域,商湯絕影自動(dòng)駕駛小巴成為WAIC 2024唯一承擔(dān)接駁任務(wù)的L4級(jí)別自動(dòng)駕駛小巴,提供多個(gè)地點(diǎn)之間的需求響應(yīng)式自動(dòng)駕駛巴士出行體驗(yàn)。

這背后是商湯絕影硬核的技術(shù)實(shí)力和強(qiáng)大的落地運(yùn)營(yíng)能力。目前,絕影L4級(jí)別的自動(dòng)駕駛小巴的測(cè)試與運(yùn)營(yíng)總里程累計(jì)已超3,000,000公里,并在江蘇無(wú)錫、陜西西咸新區(qū)等多地開展自動(dòng)駕駛接駁服務(wù)。

在上海臨港,絕影L4級(jí)自動(dòng)駕駛小巴已經(jīng)面向公眾進(jìn)行日常運(yùn)營(yíng)。商湯絕影與上海臨港新片區(qū)公共交通有限公司共同打造的智能網(wǎng)聯(lián)公交場(chǎng)景,采用“響應(yīng)式公交”模式按需響應(yīng),已實(shí)際投入的醫(yī)療專線和上海海洋大學(xué)專線,預(yù)約乘坐人數(shù)累計(jì)已超過(guò)16,000人次。

商湯絕影的大模型產(chǎn)品正在融入智能汽車和智慧出行的方方面面,開辟全新的出行范式,加速智能汽車駛?cè)階GI時(shí)代。