放放动漫acg资源站免费_在线观看免费av网站_国产精品白丝JKAV网站_国产精品 自在自线_不卡av网

您當(dāng)前的位置:首頁> 商業(yè)資訊 >正文
世界時(shí)訊:解碼商湯大模型體系

2023-04-19 12:03:41     來源 : 維科號(hào)

不久前,商湯科技展示了旗下的多個(gè)大模型。與其他家有所不同的是,商湯的大模型體系可以以視覺為核心,結(jié)合語言及各種模態(tài)的數(shù)據(jù),形成多模態(tài)的應(yīng)用支持能力。


(資料圖)

這樣的技術(shù)路線可以保證模型從百億參數(shù)到千億參數(shù)到后面萬億參數(shù),每一步都能用在實(shí)際行業(yè)和產(chǎn)品里,形成用戶反饋閉環(huán),有利于下一步的模型迭代。

文|趙艷秋 徐鑫

編|周路平

ChatGPT掀起的大模型熱潮,讓國內(nèi)大模型的訓(xùn)練進(jìn)入白熱化階段。

4月10日,商湯科技在上海臨港智算中心舉辦的技術(shù)交流日上,公布了大模型體系“日日新SenseNova”。該名稱取自《禮記·大學(xué)》“茍日新、日日新、又日新”,商湯科技董事長徐立調(diào)侃稱,之所以叫日日新,是因?yàn)椤捌埲招隆辈缓寐牎6@一名字是希望在模型迭代速度及處理問題的能力上可以日日更新,不斷解鎖AGI更多可能。

商湯并未公布大模型采用的技術(shù)路線,但商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒透露,人類生活中至少有80%的信息來自于視覺,憑借商湯在視覺領(lǐng)域的積累,加入語言、代碼等不同信息做深度的融合,可以訓(xùn)練出更好的多模態(tài)大模型。這與百度、阿里等有所不同。目前,業(yè)界大廠都在不同技術(shù)路線上摸索大模型技術(shù),追趕OpenAI。

01

商湯大模型,從視覺走向AGI

盡管臨港位置較偏,但擋不住人們對(duì)大模型的關(guān)注熱情。現(xiàn)場(chǎng)擠滿了來自全國各地的合作伙伴,他們也在尋找新的技術(shù)范式能與自身業(yè)務(wù)的結(jié)合點(diǎn)。

商湯當(dāng)天展示了“日日新SenseNova”大模型體系下的語言大模型,還展示了AI文生圖創(chuàng)作、2D/3D數(shù)字人生成、大場(chǎng)景/小物體生成等生成式AI模型及應(yīng)用,在領(lǐng)域模型之上,結(jié)合各個(gè)行業(yè)的數(shù)據(jù)形成行業(yè)落地的閉環(huán)。

相比于國內(nèi)外大模型,陳宇恒告訴數(shù)智前線,視覺感知是商湯的優(yōu)勢(shì)之一。目前,商湯已研發(fā)了320億參數(shù)量的全球最大通用視覺模型,實(shí)現(xiàn)了目標(biāo)檢測(cè)、圖像分割和多物體識(shí)別算法。早在2019年,商湯已推出10億參數(shù)量規(guī)模的視覺模型,在2021年~2022年,商湯訓(xùn)練了百億參數(shù)規(guī)模的超大視覺模型,相當(dāng)于千億參數(shù)語言模型的訓(xùn)練量。

目前,視覺大模型在多個(gè)領(lǐng)域落地應(yīng)用。例如,在智能駕駛領(lǐng)域,商湯實(shí)現(xiàn)了BEV環(huán)視感知,做到了3000類物體的高精度識(shí)別,還構(gòu)建了感知決策一體化的自動(dòng)駕駛多模態(tài)大模型,帶來更強(qiáng)的環(huán)境、行為、動(dòng)機(jī)解碼能力。

就在商湯公布大模型之前的幾天,美國Meta公司發(fā)布了首個(gè)圖像分割的基礎(chǔ)大模型SAM,它通過自然語言的輸入,去完成物體的分割。陳宇恒稱,相關(guān)技術(shù)能力商湯已經(jīng)具備,商湯視覺大模型在很多測(cè)試集上完成領(lǐng)先測(cè)試。相比美國的視覺大模型,陳宇恒認(rèn)為,商湯的優(yōu)勢(shì)點(diǎn)在于,國內(nèi)的應(yīng)用場(chǎng)景廣闊,結(jié)合其在城市、自動(dòng)駕駛、商業(yè)元宇宙等領(lǐng)域的行業(yè)積累,形成應(yīng)用閉環(huán)。

在基礎(chǔ)大模型之上,商湯當(dāng)天公布自研中文語言大模型“商量SenseChat”,是一個(gè)類ChatGPT應(yīng)用,其參數(shù)量達(dá)千億。數(shù)智前線獲悉,在ChatGPT之前,商湯在NLP技術(shù)上已有數(shù)年積累,并早在2021年就應(yīng)用在商湯的數(shù)字人等產(chǎn)品中,實(shí)現(xiàn)語音、NLP和視覺的全方位自研。

雖然大眾關(guān)注大模型的“對(duì)話互動(dòng)能力”,但業(yè)界更關(guān)注其背后的“理解推理水平”,這也是體現(xiàn)大模型能力的關(guān)鍵。徐立在現(xiàn)場(chǎng)著重展示了“商量”對(duì)長文本的理解和歸納能力。在徐立輸入了《專利法》的PDF文件后,系統(tǒng)快速閱讀理解《專利法》,并根據(jù)用戶針對(duì)此文輸入的問題,給出相應(yīng)的答案。從結(jié)果來看,大模型并沒有直接從《專利法》中復(fù)制對(duì)應(yīng)的結(jié)果,而是在理解問題之后,生成總結(jié)性答案,也可以對(duì)比最新的專利法,給出前后做了哪些修改。

在人工智能內(nèi)容生成方面,基于日日新大模型,商湯也推出了一系列生成式AI模型及應(yīng)用,涵蓋圖片生成、數(shù)字人視頻生成、3D內(nèi)容生成等。商湯對(duì)這些模型的應(yīng)用場(chǎng)景也進(jìn)行了一一展示。

比如徐立現(xiàn)場(chǎng)演示了文生圖平臺(tái)“秒畫SenseMirage”,他先后輸入了“站在窗邊的中國女性”,“站在窗邊的穿漢服的中國女性”等關(guān)鍵字,起初表現(xiàn)效果都很好,之后輸入了“80年代港風(fēng)”作為關(guān)鍵字,但是生成的圖片并沒有顯著的港風(fēng)效果,這說明大模型對(duì)于該垂類風(fēng)格的學(xué)習(xí)強(qiáng)度不及預(yù)期;但隨后他將準(zhǔn)備好的20張經(jīng)典港風(fēng)圖片“投喂”給大模型,以商湯自研作畫模型作為基模型來訓(xùn)練定制化LoRA模型,在幾分鐘后就生成了一個(gè)表達(dá)港風(fēng)效果較好的LoRA模型。這種根據(jù)小批量樣本快速適配新風(fēng)格的學(xué)習(xí)能力也是商湯自研作畫大模型的一個(gè)顯著優(yōu)點(diǎn)。

陳宇恒透露,之所以做多個(gè)大模型,主要是可以以視覺為核心,結(jié)合語言及各種模態(tài)的數(shù)據(jù),形成多行業(yè)應(yīng)用的方案。同時(shí),這樣的技術(shù)路線相對(duì)更平滑,可以保證模型從百億參數(shù)到千億參數(shù)到后面萬億參數(shù),每一步都能用在實(shí)際行業(yè)和產(chǎn)品里,形成用戶反饋閉環(huán),有利于下一步的模型迭代。

從大的方向上,未來商湯要去挑戰(zhàn)更大的模型,不斷去接近通用人工智能。

02

構(gòu)建用戶與大模型的飛輪

在公布大模型的同時(shí),商湯也介紹了其行業(yè)應(yīng)用目標(biāo)和情況。這是國內(nèi)企業(yè)的特色。他們需要第一時(shí)間考慮產(chǎn)業(yè)落地問題。

而要“煉”出真正有價(jià)值的大模型,則需要建立用戶與模型反饋的閉環(huán)。這是業(yè)界從OpenAI得到的啟示。OpenAI在做出幾版大模型后,建立起真實(shí)用戶調(diào)用和模型迭代之間的飛輪。

數(shù)智前線獲悉,商湯的大模型將更多服務(wù)B端客戶,目前已落地20多個(gè)業(yè)務(wù)場(chǎng)景。

比如,在智能汽車領(lǐng)域,視覺大模型可以充當(dāng)“半自動(dòng)標(biāo)注機(jī)器人”,對(duì)路測(cè)回游的數(shù)據(jù)進(jìn)行過濾和預(yù)標(biāo)注,讓標(biāo)注效率提高4 倍以上。商湯當(dāng)天公布了自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)“明眸”,支持智能駕駛、智慧交通、智慧城市等多種場(chǎng)景的2D分類、檢測(cè)和3D檢測(cè)的智能標(biāo)注。

大模型還可以解決智能駕駛過程中的Corner Case(邊角案例)問題,也就是人們無法想到或不常見的事情。之前,傳統(tǒng)小模型會(huì)像“狗熊掰棒子”一樣,學(xué)了新的Corner Case,經(jīng)常就“忘了”舊的,大模型能化解這個(gè)瓶頸,讓其更可靠。而這兩個(gè)問題也是目前自動(dòng)駕駛邁向L3、 L4商用過程中的兩大痛點(diǎn)。

再如,在生物醫(yī)藥科研領(lǐng)域,通過大模型,把蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)時(shí)間縮短到1/60,從而大幅提高了抗體篩選的效率。

元宇宙也是大模型很好的應(yīng)用場(chǎng)景。元宇宙是多種技術(shù)的結(jié)合體,像AR、VR、人工智能內(nèi)容生成 、文本生成 3D 模型、文本生成視頻等……大模型可以化解元宇宙內(nèi)容制作成本過高的痛點(diǎn)。

而大模型的泛化能力,讓原來很多長尾事件,變得可以解決。比如在智慧城市領(lǐng)域,大模型可以改善城市的各類運(yùn)營的工作,如垃圾拋灑、糞車排放、單車違停等。

業(yè)界都認(rèn)為大模型是一種新的技術(shù)范式,就像蒸汽機(jī)的出現(xiàn),將能源轉(zhuǎn)換效率提高了幾十倍;電力的出現(xiàn),又把能源轉(zhuǎn)換效率再提升了幾十倍。現(xiàn)在大模型可以把傳統(tǒng)小模型的生產(chǎn)效率提升幾十倍甚至上百倍,以非常低的成本服務(wù)于各行各業(yè),為各行業(yè)的效率帶來翻天覆地的變化。

商湯目前聚焦在智能汽車、智慧生活、智慧商業(yè)、智慧城市四大業(yè)務(wù)線的產(chǎn)品矩陣。要實(shí)現(xiàn)落地,還要同時(shí)思考如何構(gòu)建產(chǎn)品體驗(yàn),并以更高性價(jià)比的方式為客戶提供。

陳宇恒告訴數(shù)智前線,商湯首先會(huì)提供整套工具鏈,讓業(yè)界從基礎(chǔ)大模型出發(fā),或者基于開源大模型,進(jìn)行微調(diào),形成適合自己的模型。商湯有可能提供云上的隱私計(jì)算,幫助用戶解決數(shù)據(jù)隱私的風(fēng)險(xiǎn)。

商湯還準(zhǔn)備通過各種產(chǎn)品形態(tài),包括私有化產(chǎn)品形態(tài),提供給用戶部署使用。

同時(shí),商湯也會(huì)提供Model as a Service的API,供用戶低成本調(diào)用,還能通過知識(shí)蒸餾手段,把大模型的能力遷移到一些較小的模型上,滿足一些成本敏感行業(yè)的訴求。

“從行業(yè)落地角度,我們可以訓(xùn)練一個(gè)超大模型,然后再外掛小一點(diǎn)的模型,類似lora或Hypernet技術(shù),通過外掛小模型的微調(diào)和訓(xùn)練,把大模型的推理成本分?jǐn)傁氯??!彼f。

03

兩大難題如何突破

一口氣展示多個(gè)大模型技術(shù)之后,外界很關(guān)心商湯在算力上的儲(chǔ)備情況,以及高質(zhì)量語料不足的情況下商湯如何應(yīng)對(duì)。

數(shù)智前線獲悉,在大模型的風(fēng)刮起來之前,商湯已在規(guī)劃AI大裝置,2020年在臨港建設(shè)了建筑面積接近20個(gè)足球場(chǎng)的AIDC,2022年正式投入使用。目前里面放置了5000個(gè)服務(wù)器機(jī)柜和27000塊GPU,據(jù)說能同時(shí)滿足20個(gè)類ChatGPT模型的訓(xùn)練。

業(yè)界廣為流傳是“萬張GPU卡是進(jìn)入大模型領(lǐng)域的入場(chǎng)券”。有業(yè)內(nèi)人士表示,“標(biāo)準(zhǔn)大小的ChatGPT(參數(shù)1750億)大概需要375-625臺(tái)8卡A100服務(wù)器進(jìn)行訓(xùn)練。如果愿意等1個(gè)月的話,150-200臺(tái)8卡也是夠的。每次訓(xùn)練總的GPU資源消耗量是35000卡天?!边@個(gè)體量與商湯提到的訓(xùn)練大模型所需要的算力消耗規(guī)模在同一個(gè)數(shù)量級(jí),當(dāng)然該人士明確指出GPU類型是A100。

陳宇恒還談到一個(gè)認(rèn)知誤區(qū),算力的核心衡量指標(biāo)并非單指顯卡數(shù)量。他認(rèn)為,訓(xùn)練人工智能大模型是“工程的奇跡”,有兩大難題需要跨越:

其一是多卡并行狀態(tài)下的有效利用率,即能夠支撐大模型訓(xùn)練的實(shí)際算力,這涉及系統(tǒng)架構(gòu)和網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)?!?萬張卡和1000張卡,理論上有10倍的訓(xùn)練速度提升,如果沒有設(shè)計(jì)良好的系統(tǒng)架構(gòu)設(shè)計(jì),可能最終只有2倍的訓(xùn)練效率提升 ”。

其二是系統(tǒng)能夠持續(xù)穩(wěn)定運(yùn)行的時(shí)長。如果每天每千張GPU有1張卡發(fā)生故障,當(dāng)有1萬張卡時(shí),系統(tǒng)每天的穩(wěn)定運(yùn)行時(shí)間可能只有一兩個(gè)小時(shí),這是沒法使用的。這要從硬件的可靠性和軟件的容錯(cuò)能力角度去解決。

如何從幾千張卡的集群,到未來上萬張卡更大規(guī)模集群的部署,商湯正在努力建設(shè)優(yōu)化中。目前,商湯的AI大裝置已能夠以最大4000卡規(guī)模集群進(jìn)行單任務(wù)訓(xùn)練,并可做到七天以上不間斷的穩(wěn)定訓(xùn)練。

困擾業(yè)界的另一問題是,如何獲取足夠多的高質(zhì)量數(shù)據(jù)語料。以GPT-3為例,它學(xué)習(xí)了約5000億的語言數(shù)據(jù)量。而相比之下,人類的一生中可聽到的大概是10億個(gè)單詞。所以,今天人工神經(jīng)網(wǎng)絡(luò)能夠處理或者看的知識(shí)量,已經(jīng)遠(yuǎn)遠(yuǎn)大于一個(gè)人一生中能學(xué)到的單詞數(shù)。而今天已知最大語言模型消耗的數(shù)據(jù)量是2萬億個(gè)token。而據(jù)統(tǒng)計(jì),人類文明產(chǎn)生的高質(zhì)量語料數(shù)據(jù)一共是9萬億左右。因此,隨著倍數(shù)往上走,很快就會(huì)面臨著高質(zhì)量語料被消化完的局面。數(shù)智前線了解到,巨頭企業(yè)都正在尋求各類高質(zhì)量的語料資源。

“研究表明,有超過80%的信息是通過肉眼獲取的。”陳宇恒稱,把整個(gè)互聯(lián)網(wǎng)的文本數(shù)據(jù)匯集做適當(dāng)?shù)那逑粗螅挥胁坏?0個(gè)T的數(shù)據(jù),但是像最大的圖像公開數(shù)據(jù)集,它有50億張圖像,大小達(dá)到240T;視覺的信息量是文本信息量的非常多倍。“由此可以看到,以視覺大模型作為核心的技術(shù)突破點(diǎn),去擴(kuò)展到語言大模型等一些多模態(tài)的路線,是符合人類理解世界的基本邏輯,以及符合我們互聯(lián)網(wǎng)生成數(shù)據(jù)的分布邏輯的?!?/p>

商湯在過往積累了大量的、有人反饋的、視覺類信息,這類信息作為知識(shí)輸入到更大的網(wǎng)絡(luò)當(dāng)中,形成多模態(tài)輸入,則打破了原有數(shù)據(jù)庫的信息局限。商湯的語言大模型正是基于這一點(diǎn)快速發(fā)展,獲取豐富的多模態(tài)語料數(shù)據(jù)。

此外,合理調(diào)配不同語言的語料比例,或者設(shè)計(jì)好數(shù)據(jù)經(jīng)過模型的順序和比例,包括設(shè)計(jì)不同領(lǐng)域知識(shí)的占比,再輔以不同語言的知識(shí)融合能力,也能使模型有更好的性能。

在未來,討論大模型,討論的將主要是模型的計(jì)算量。目前,除了上海的人工智能智算中心,商湯還在全國主要城市部署20多個(gè)超算集群。商湯強(qiáng)調(diào),這些AI原生基礎(chǔ)設(shè)施,為人工智能算法的訓(xùn)練、調(diào)度提供了敏捷、彈性、可靠的底座,也讓商湯得以持續(xù)優(yōu)化大模型建設(shè),并賦能各個(gè)行業(yè)。

而隨著越來越多的企業(yè)進(jìn)入市場(chǎng),大模型領(lǐng)域的競爭正在成為一場(chǎng)算力、算法和數(shù)據(jù)相結(jié)合的全方位戰(zhàn)事。

標(biāo)簽:

熱門推薦

精彩放送