本發明屬于圖像處理領域,涉及一種圖像處理方法、裝置、設備及存儲介質。
背景技術:
1、隨著計算能力的提升和大規模數據集的可用性,深度學習技術已經徹底改變了計算機視覺領域。從圖像分類、目標檢測到語義分割等任務,基于卷積神經網絡和transformer(一種基于自注意力機制的深度學習框架)的模型已成為解決這些任務的標準方法。近年來,基于transformer的模型逐漸成為研究熱點,它們在處理長距離依賴性和全局信息方面表現出色,且隨著參數量的增加,具有更大的模型容量,進一步推動了計算機視覺技術的發展。
2、隨著視覺transformer在計算機視覺任務中的成功應用,研究人員開始探索如何將混合專家模型框架整合進視覺模型中,以在不大幅增加計算量的前提下,增加模型參數量,以進一步提升模型性能。視覺混合專家模型是這一方向上的一個重要進展,它采用了混合專家機制來提高計算效率和模型容量。與傳統的全連接層不同,視覺混合專家使用多個專家網絡,并通過一個門控網絡動態選擇最適合當前輸入圖像塊的專家組合。這種設計允許模型根據任務需求自適應地分配計算資源,從而實現更高效的訓練和推理過程。然而,混合專家模型一個明顯的缺點是,在相同的訓練步數下,每個專家所見到的數據樣本數量會隨專家總數增加而減少,導致模型難以得到充分訓練,特別是在數據有限的情況下。
3、軟性混合專家模型是一種對視覺混合專家模型的改進方法,旨在克服硬門控機制帶來的問題,如訓練不穩定性和令牌丟失。軟性混合專家模型允許每個輸入樣本以軟權重的方式訪問所有專家,從而提供了一個平滑的學習過程。雖然,這種方法有助于提高模型的泛化能力,同時保持較高的效率;但是,在訓練數據集規模有限的情況下,仍然無法避免軟性混合專家模型難以充分訓練的問題,進而導致訓練后模型的精度較差的缺陷。
技術實現思路
1、本發明的目的在于克服上述現有技術的缺點,提供一種圖像處理方法、裝置、設備及存儲介質。
2、為達到上述目的,本發明采用以下技術方案予以實現:
3、本發明第一方面,提供一種圖像處理方法,包括:獲取待處理圖像;將待處理圖像輸入至圖像處理模型中,得到處理結果;其中,圖像處理模型通過下述方式得到:基于圖像處理任務構建圖像處理任務模型,將預訓練的圖像特征提取模型與圖像處理任務模型串聯并根據訓練圖像進行訓練,得到圖像處理模型;其中,預訓練的圖像特征提取模型通過采用基于隨機掩膜重建的方法,對基于視覺神經網絡模型改造的軟性混合專家模型進行無監督預訓練得到。
4、可選的,所述基于視覺神經網絡模型改造的軟性混合專家模型通過下述方式得到:將視覺神經網絡模型的若干非線性變換子模塊替換為軟性混合專家模塊。
5、可選的,所述采用基于隨機掩膜重建的方法,對基于視覺神經網絡模型改造的軟性混合專家模型進行無監督預訓練包括:構建包括編碼器和解碼器的編解碼器模型;其中,編碼器為基于視覺神經網絡模型改造的軟性混合專家模型;獲取預訓練圖像,以及將預訓練圖像劃分為若干圖像塊,并基于各圖像塊的像素值生成各圖像塊的特征向量;選取部分圖像塊的特征向量輸入編碼器獲取選取的圖像塊的特征值,并將未被選取的圖像塊的特征值進行設定填充得到預訓練圖像的完整特征值;將預訓練圖像的完整特征值輸入解碼器得到未被選取的圖像塊的預測向量,并根據未被選取的圖像塊的預測向量和特征向量,更新編解碼器模型的模型參數;將訓練后的編碼器作為預訓練的圖像特征提取模型。
6、可選的,所述基于各圖像塊的像素值生成各圖像塊的特征向量包括:將圖像塊對應的像素值平鋪為向量得到圖像塊的平鋪向量,將圖像塊的平鋪向量的方差和均值進行歸一化,得到圖像塊的特征向量;或者,基于各圖像塊的像素值,通過預設的視覺編碼器模型獲取各圖像塊的特征向量;其中,預設的視覺編碼器模型可以為預先訓練的模型,或將編碼器進行滑動平均處理得到的模型。
7、可選的,所述選取部分圖像塊的特征向量輸入編碼器獲取選取的圖像塊的特征值時:按照預先指定比例將部分圖像塊丟棄,以及在編碼器中按照相同的預先指定比例丟棄編碼器中的部分專家槽。
8、可選的,所述在編碼器中按照相同的預先指定比例丟棄編碼器中的部分專家槽時:通過計算每個預訓練圖像下每個專家槽的最大特征值對應的圖像塊,將專家槽的丟棄狀態設置為與該圖像塊相同。
9、可選的,所述選取部分圖像塊的特征向量輸入編碼器獲取選取的圖像塊的特征值時:將圖像塊和編碼器的專家槽進行分組,以及將與當前專家槽不屬于同一組的圖像塊的特征向量改為預先指定的值。
10、可選的,所述將圖像塊和編碼器的專家槽進行分組時:通過計算每個預訓練圖像下每個專家槽的最大特征值對應的圖像塊,將專家槽的分組標識設置為與該圖像塊相同。
11、可選的,所述選取部分圖像塊的特征向量輸入編碼器獲取選取的圖像塊的特征值時:將預訓練圖像分為若干個區域,每個區域的圖像塊均作為獨立的樣本送入編碼器進行處理,并將處理后的結果整理排列;以及所述將預訓練的圖像特征提取模型與圖像處理任務模型串聯并根據訓練圖像進行訓練時:將訓練圖像分為若干個區域,每個區域的圖像塊均作為獨立的樣本送入預訓練的圖像特征提取模型進行處理,以及將處理后的結果整理排列。
12、本發明第二方面,提供一種圖像處理系統,包括:圖像獲取模塊,用于獲取待處理圖像;圖像處理模塊,用于將待處理圖像輸入至圖像處理模型中,得到處理結果;其中,圖像處理模型通過下述方式得到:基于圖像處理任務構建圖像處理任務模型,將預訓練的圖像特征提取模型與圖像處理任務模型串聯并根據訓練圖像進行訓練,得到圖像處理模型;其中,預訓練的圖像特征提取模型通過采用基于隨機掩膜重建的方法,對基于視覺神經網絡模型改造的軟性混合專家模型進行無監督預訓練得到。
13、可選的,所述采用基于隨機掩膜重建的方法,對基于視覺神經網絡模型改造的軟性混合專家模型進行無監督預訓練包括:構建包括編碼器和解碼器的編解碼器模型;其中,編碼器為基于視覺神經網絡模型改造的軟性混合專家模型;獲取預訓練圖像,以及將預訓練圖像劃分為若干圖像塊,并基于各圖像塊的像素值生成各圖像塊的特征向量;選取部分圖像塊的特征向量輸入編碼器獲取選取的圖像塊的特征值,并將未被選取的圖像塊的特征值進行設定填充得到預訓練圖像的完整特征值;將預訓練圖像的完整特征值輸入解碼器得到未被選取的圖像塊的預測向量,并根據未被選取的圖像塊的預測向量和特征向量,更新編解碼器模型的模型參數;將訓練后的編碼器作為預訓練的圖像特征提取模型。
14、本發明第三方面,提供一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述圖像處理方法的步驟。
15、本發明第四方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述圖像處理方法的步驟。
16、與現有技術相比,本發明具有以下有益效果:
17、本發明圖像處理方法,通過采用圖像處理模型對待處理圖像進行處理得到處理結果,實現了圖像處理性能的顯著提升。圖像處理模型作為一個高度融合的圖像處理模型,將針對特定圖像處理任務定制的模型與經過深度無監督預訓練的圖像特征提取模型相結合,這一創新性的融合策略,不僅充分利用了預訓練模型在特征提取方面的強大能力,還通過特定的圖像處理任務模型對特征進行了精準地加工和利用。預訓練的圖像特征提取模型采用了基于隨機掩膜重建的無監督學習方法,對基于視覺神經網絡改造的軟性混合專家模型進行了充分的預訓練,這種方法不僅增強了模型對圖像內在結構的理解能力,還通過模擬圖像中信息的缺失與重建,提升了模型對圖像細節的捕捉能力和泛化性能。該圖像處理方法在僅需少量訓練圖像的情況下,便能實現高精度的圖像處理任務,這不僅極大地降低了對大量標注數據的依賴,還顯著提高了圖像處理的效率和準確性,為實際應用中的圖像處理任務提供了強有力的技術支持。