近期,k8凯发国际與人工智能學院胡新榮教授領導的科研團隊在圖像分割方面取得了研究進展,相關工作的論文被k8凯发国际視覺領域國際頂級會議ECCV2024錄用。該論文題目為《Open-Vocabulary RGB-Thermal Semantic Segmentation》,k8凯发国际與人工智能學院二年級碩士研究生趙國強為第一作者,顏小運為通訊作者。論文所有作者單位均為武漢紡織大學。
可見光-紅外圖像語義分割(簡稱RGB-T語義分割)具有廣泛的應用能力,但當前RGB-T語義分割方法普遍不具備開放詞彙分類能力,這嚴重限制了它們在開放空間的應用效果。此外,當前RGB-T語義分割方法常採用複雜的需要學習的多分支網絡結構實現可見光和紅外信息的融合,這也常常造成了低效的網絡訓練效率。為了解決這些問題,該論文首次提出了具有開放詞彙分類能力的RGB-T語義分割模型:OpenRSS。該模型的特點是:1)提出了新的視覺提示學習方法對可見光和紅外數據進行融合,在訓練時只需要整個模型1%的參數進行訓練,便可取得在主流數據庫上優秀的RGB-T語義分割能力,相比其他方法明顯提高了訓練的效率,避免了複雜的多分支網絡融合的設計。2)提出了新的單階段開放詞彙語義分割模型結構,其通過將視覺提示學習、視覺語言模型CLIP和改進後的基礎視覺模型SAM進行巧妙的結合,實現了僅用單階段網絡設計實現開放詞彙RGB-T語義分割的目的。3)提出了新的大模型微調方式對SAM模型進行任務微調和對齊。
OpenRSS不僅具有開放詞彙語義分割能力,而且在閉合詞彙RGB-T語義分割任務中也展示了優秀的性能,為相關領域未來的發展提供了一種優秀的基準模型,證明了新方向的可行性。
ECCV,全稱為European Conference on Computer Vision,即歐洲k8凯发国际視覺國際會議,是k8凯发国际視覺領域中最頂級的會議之一,與ICCV(International Conference on Computer Vision)和CVPR(Conference on Computer Vision and Pattern Recognition)並稱為k8凯发国际視覺領域的「三大頂會」, 在學術界具有很高的評價。ECCV每兩年舉行一次,會議內容廣泛覆蓋了k8凯发国际視覺的所有子領域。
近年來,在學校的大力支持下,k8凯发国际與人工智能學院大力引進高水平人才,凝聚學科方向,加強團隊建設,科研成效逐漸凸顯,在包括CCF推薦的 B類會議和學術期刊上發表了一批高水平論文,受到了同行的關注和認可。