Activities
【導(dǎo)讀】2024年6月2日,由中國(guó)自動(dòng)化學(xué)會(huì)、北京市科學(xué)技術(shù)協(xié)會(huì)主辦的2024國(guó)家新質(zhì)生產(chǎn)力與智能產(chǎn)業(yè)發(fā)展會(huì)議在北京友誼賓館舉辦。本次會(huì)議以“追新逐質(zhì),智創(chuàng)未來(lái)”為主題,邀請(qǐng)了10位院士及百余位長(zhǎng)江杰青、高校和科研院所的校長(zhǎng)、院長(zhǎng)等學(xué)術(shù)精英與會(huì),500余名來(lái)自學(xué)術(shù)界和產(chǎn)業(yè)界的本領(lǐng)域?qū)<摇W(xué)者、學(xué)生等參會(huì)。
本次大會(huì)特別設(shè)立八大平行會(huì)議,在“具身智能平行會(huì)議”上,邀請(qǐng)同濟(jì)大學(xué)史淼晶教授作題為“大模型驅(qū)動(dòng)的文本引導(dǎo)式視覺(jué)場(chǎng)景感知”的專(zhuān)題報(bào)告,報(bào)告介紹了大模型的興起和他所在的課題組在大模型驅(qū)動(dòng)的文本引導(dǎo)式視覺(jué)場(chǎng)景感知方面的探索,包括文本指引的物體檢測(cè)、場(chǎng)景分割、場(chǎng)景圖檢測(cè)等。
一、大模型的興起
在深度學(xué)習(xí)領(lǐng)域,Attention機(jī)制自2017年提出以來(lái)已經(jīng)成為大家熟知的重要技術(shù),其代表性論文是《Attention is All You Need》,這一研究不僅重塑了傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),還直接推動(dòng)了大語(yǔ)言模型的發(fā)展。
大語(yǔ)言模型的發(fā)展大致可以分為兩個(gè)階段。第一個(gè)階段以BERT為代表。BERT采用了“掩碼語(yǔ)言模型”(Masked Language Model,MLM)的優(yōu)化方式。具體而言,給定一段文本,將其中某個(gè)詞去掉,然后通過(guò)基于Attention機(jī)制的語(yǔ)言模型預(yù)測(cè)該詞。這種方式類(lèi)似于完形填空,即模型既能看到前面的詞,也能看到后面的詞,從而預(yù)測(cè)中間的詞。
第二個(gè)階段是從GPT的誕生開(kāi)始。GPT采用了一種不同的優(yōu)化方式,稱(chēng)為“下一個(gè)詞預(yù)測(cè)”(Next Token Prediction)。在這種方式下,模型在預(yù)測(cè)下一個(gè)詞時(shí)只能看到前面的話(huà),而看不到后續(xù)的詞。BERT的Attention機(jī)制是雙向交互的,即前后的詞都能看到;而GPT的Attention機(jī)制只能看到歷史信息,無(wú)法看到未來(lái)的詞,這種改進(jìn)使得GPT的性能得到了顯著提升。
GPT除了訓(xùn)練機(jī)制的變化外,還引入了“人類(lèi)反饋”(Human Feedback),這一點(diǎn)尤為重要。在傳統(tǒng)的監(jiān)督學(xué)習(xí)之后,通過(guò)獎(jiǎng)勵(lì)模型對(duì)比GPT生成的語(yǔ)言對(duì)話(huà),并由人工標(biāo)注實(shí)際的“真值”(Ground Truths)來(lái)評(píng)估生成內(nèi)容的質(zhì)量并進(jìn)行排序。排序后的數(shù)據(jù)用于強(qiáng)化學(xué)習(xí),使模型在與人的互動(dòng)中不斷更新能力。然而,在實(shí)際使用過(guò)程中,GPT并不會(huì)在每次與用戶(hù)的互動(dòng)中更新模型,它會(huì)在一個(gè)會(huì)話(huà)內(nèi)增長(zhǎng)知識(shí),但會(huì)話(huà)結(jié)束后這些知識(shí)一般不會(huì)保留。
近年來(lái),涌現(xiàn)了許多的多模態(tài)大模型。多模態(tài)大模型將圖像和文本結(jié)合,代表性方法包括Flamingo、BLIP、LAVA和InstructBLIP。這些工作關(guān)注的關(guān)鍵點(diǎn)在于如何讓語(yǔ)言信息與視覺(jué)信息進(jìn)行交互。早期的交互通過(guò)對(duì)齊(Alignment)實(shí)現(xiàn),即將視覺(jué)和相應(yīng)的語(yǔ)言描述在空間距離上盡可能接近。后來(lái),BLIP等方法引入了生成式概念,即通過(guò)圖像輔助生成語(yǔ)言信息。
基于大語(yǔ)言模型的多模態(tài)模型還催生了許多文本引導(dǎo)式的方法,其中包括上下文學(xué)習(xí)(In-Context Learning)、思維鏈(Chain-of-Thought)以及檢索增強(qiáng)(Retrieval-Augmented)。上下文學(xué)習(xí)類(lèi)似于元學(xué)習(xí)(Meta Learning),即在訓(xùn)練后提供一些樣例,讓模型快速進(jìn)行推理;思維鏈設(shè)計(jì)通過(guò)引導(dǎo)模型逐步解決復(fù)雜問(wèn)題,先給出解題思路,再得出答案;而檢索增強(qiáng)則是通過(guò)生成相關(guān)問(wèn)題來(lái)提高模型能力。文本引導(dǎo)式的方法促進(jìn)了具身智能的感知和視覺(jué)感知,成為了當(dāng)前研究的重要方向。
二、大模型驅(qū)動(dòng)的文本引導(dǎo)式感知:手術(shù)器械分割
在腔鏡手術(shù)中,手術(shù)器械分割是一項(xiàng)至關(guān)重要的任務(wù)。腔鏡環(huán)境下的視覺(jué)感知極其受限,無(wú)論是光照還是視野范圍都存在諸多挑戰(zhàn)。手術(shù)器械之間的分辨率較低,容易混淆,而且器械之間經(jīng)常會(huì)有遮擋現(xiàn)象。這些問(wèn)題使得器械分割變得更加困難。傳統(tǒng)方法通?;谝曈X(jué)模型,例如U-Net來(lái)進(jìn)行分割。為了提升分割效果,我們引入了文本信息,即通過(guò)文本信息的輔助來(lái)改善分割結(jié)果。
手術(shù)器械分割方法的整體框架分為三個(gè)部分:文本特征提取、圖像特征提取及其交互處理,最終輸出分割結(jié)果。我們使用編碼器對(duì)文本和圖像進(jìn)行特征提取。完成特征提取后,使用基于Attention的交互和基于卷積的特征交互方法。其中,Attention機(jī)制適用于全局交互,即一個(gè)特征與所有特征之間的交互。而卷積機(jī)制適用于局部交互,通過(guò)生成卷積核W和B,在圖像特征上滑動(dòng),實(shí)現(xiàn)局部特征交互。全局與局部交互的結(jié)合,能夠更好地處理手術(shù)器械分割任務(wù)。
研究初期,借鑒了CLIP模型的思想,我們嘗試引入文本信息,通過(guò)醫(yī)生對(duì)手術(shù)器械的描述輸入網(wǎng)絡(luò),效果得到了顯著提升。隨后,利用GPT生成手術(shù)器械的類(lèi)別描述,將手工描述、模板描述和GPT生成的描述結(jié)合,通過(guò)門(mén)控網(wǎng)絡(luò)加權(quán)求和,得到了優(yōu)化的分割結(jié)果。
為解決手術(shù)器械遮擋問(wèn)題,我們引入了重建輔助分支。在預(yù)測(cè)分割掩碼的同時(shí),提取難以預(yù)測(cè)的區(qū)域,通過(guò)重建提高分割的魯棒性。這些過(guò)程共享同一個(gè)主干網(wǎng)絡(luò),從而增強(qiáng)特征學(xué)習(xí)的魯棒性。
實(shí)驗(yàn)結(jié)果表明,在醫(yī)學(xué)領(lǐng)域首次引入文本信息,可以顯著提升分割效果,與SAM模型相比也有明顯優(yōu)勢(shì)。通過(guò)交叉驗(yàn)證實(shí)驗(yàn),在A數(shù)據(jù)集訓(xùn)練、B數(shù)據(jù)集測(cè)試的情況下,即使類(lèi)別不完全一致,加入文本信息后,結(jié)果依然大幅提高,甚至超過(guò)了單純視覺(jué)方法的全監(jiān)督效果。
我們的研究工作表明,文本信息在手術(shù)器械分割中具有重要作用,通過(guò)多種方法的結(jié)合,可以顯著提升分割性能。
三、大模型驅(qū)動(dòng)的文本引導(dǎo)式感知:特定物體分割
在一張圖像中分割出特定物體,或在視頻中跟蹤特定顏色的物體,采用基于文本指代的分割方法如何實(shí)現(xiàn)上述構(gòu)想是課題主要研究?jī)?nèi)容。在研究這一問(wèn)題時(shí),我們首先考察現(xiàn)有的方法,發(fā)現(xiàn)這些方法仍舊存在一些問(wèn)題。特定物體的指代式分割往往傾向于文本指代的后半部分信息。例如,在一個(gè)描述為“一個(gè)穿白色衣服的人在行走”的文本指代中,模型可能更關(guān)注“行走”這一動(dòng)作,而忽略了具體的描述對(duì)象。這導(dǎo)致模型錯(cuò)誤地將穿西裝的人分割出來(lái),而不是穿白色衣服的人。
基于這一觀(guān)察,我們提出了新的方法。除了給出原始的指代文本外,我們還提取出描述對(duì)象及其形容詞的信息,并行進(jìn)行分割,然后讓它們進(jìn)行交互,提取出分割需要的信息。具體是從指代文本中提取出主語(yǔ)及其形容詞描述信息,然后將這些信息一起輸入模型進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)發(fā)現(xiàn),較短的描述應(yīng)該包含較長(zhǎng)描述的分割結(jié)果。例如,描述為“穿藍(lán)色衣服的跑步運(yùn)動(dòng)員”時(shí),預(yù)測(cè)結(jié)果應(yīng)包含“領(lǐng)跑的藍(lán)衣運(yùn)動(dòng)員”的分割結(jié)果。我們將這種包含關(guān)系作為約束,加入到模型優(yōu)化中,以提升預(yù)測(cè)精度。此外,還引入了光流信息。在視頻中,當(dāng)物體運(yùn)動(dòng)時(shí),通過(guò)前向光流和反向光流,可以將預(yù)測(cè)的物體在不同幀之間映射到某一幀上,確保這些幀的預(yù)測(cè)結(jié)果與標(biāo)注物體重疊。
最終結(jié)果表明,這種方法與其他方法相比分割效果大幅提升,并且可以嵌入任何現(xiàn)有方法中。
四、大模型驅(qū)動(dòng)的文本引導(dǎo)式感知:全景場(chǎng)景圖檢測(cè)
對(duì)于全景場(chǎng)景圖檢測(cè),我們同樣采用文本指代的方法。全景場(chǎng)景圖生成或檢測(cè)是一項(xiàng)復(fù)合任務(wù),包括全景分割和關(guān)系檢測(cè)。給定一張圖像,首先對(duì)其進(jìn)行全景分割,將圖像中的所有物體和背景進(jìn)行分割,然后預(yù)測(cè)和檢測(cè)任意兩個(gè)物體之間的關(guān)系。最終結(jié)果是一個(gè)圖形結(jié)構(gòu),表示物體節(jié)點(diǎn)及其之間的關(guān)系,這對(duì)于場(chǎng)景理解非常重要。
傳統(tǒng)方法主要基于視覺(jué)模型,存在長(zhǎng)尾問(wèn)題。長(zhǎng)尾問(wèn)題指的是某些關(guān)系的出現(xiàn)頻率非常高(如“跑步”、“工作”),而另一些關(guān)系(如“接吻”、“蕩秋千”)則較為罕見(jiàn),這使得模型更傾向于高頻關(guān)系,忽略低頻關(guān)系。
為解決這一問(wèn)題,我們引入了語(yǔ)言信息來(lái)輔助視覺(jué)預(yù)測(cè)。通過(guò)提取與視覺(jué)場(chǎng)景相關(guān)的語(yǔ)言描述信息,可以幫助模型更準(zhǔn)確地預(yù)測(cè)關(guān)系。例如,描述“人清潔大象”的語(yǔ)言信息包括“人可以使用水管或水桶清潔大象,位置通常在大象旁邊或背上”。這些信息可以顯著幫助視覺(jué)預(yù)測(cè)。
全景場(chǎng)景圖檢測(cè)方法的框架包括三個(gè)步驟:文本提取、視覺(jué)提取和交互。首先,使用全景分割器進(jìn)行視覺(jué)提取,生成任意兩個(gè)物體之間的相對(duì)關(guān)系特征。然后,通過(guò)大模型的思維鏈設(shè)計(jì),進(jìn)行文本特征提取。最后,讓大模型扮演兩種角色:關(guān)系提議提示和關(guān)系判斷提示。
關(guān)系提議提示是告訴大模型兩種物體(如人和自行車(chē))之間可能存在的關(guān)系,大模型會(huì)返回可能的關(guān)系(如“騎自行車(chē)”、“走在旁邊”)。關(guān)系判斷提示是給定一種關(guān)系(如“人站在自行車(chē)旁邊”),大模型會(huì)判斷其是否存在,并提供解釋。
有了這些信息后,便可以將文本信息與視覺(jué)信息進(jìn)行交互。在完成視覺(jué)分割后,將分割結(jié)果輸入大模型,讓其生成關(guān)系提議,并提取這些關(guān)系的文本特征。這些文本特征與視覺(jué)特征進(jìn)行相似度計(jì)算,如果兩者相似度高,則說(shuō)明文本描述的信息與當(dāng)前視覺(jué)場(chǎng)景中物體之間的關(guān)系一致。
全景場(chǎng)景圖檢測(cè)方法模型交互過(guò)程不僅計(jì)算了相似度,還設(shè)計(jì)了兩種解碼器和匈牙利算法進(jìn)行結(jié)果優(yōu)化。最終,該方法在場(chǎng)景圖檢測(cè)任務(wù)中性能取得了顯著提升,這也是首次將大模型應(yīng)用于此任務(wù)的工作。
五、總結(jié)與展望
我們從大語(yǔ)言模型中提取了有意義的文本信息,并將其應(yīng)用于多項(xiàng)研究工作中。這些研究有的完全不依賴(lài)特定領(lǐng)域微調(diào),而是可以直接進(jìn)行推理。在算力有限的情況下,使用預(yù)訓(xùn)練的大模型仍能有效解決許多下游任務(wù),包括單模態(tài)的視覺(jué)任務(wù)和多模態(tài)任務(wù)。未來(lái),在大模型的賦能下,具身智能的感知能力將會(huì)得到顯著提升。
(本文根據(jù)作者所作報(bào)告速記整理而成)