圖像搜索方法、裝置、智能體、電子設備及存儲介質與流程

文檔序號：41262755發布日期：2025-03-14 12:40閱讀：12來源：國知局

導航： X技術> 最新專利>計算;推算;計數設備的制造及其應用技術

本公開涉及人工智能，尤其涉及計算機視覺、深度學習、大模型、圖像搜索等，可應用于aigc基于人工智能的內容生成等場景。具體涉及一種圖像搜索方法、裝置、智能體、電子設備及存儲介質。

背景技術：

1、隨著人工智能技術的不斷發展，大模型技術也被應用于多種領域。例如，借助大模型實現圖像搜索等。

2、然而，目前基于大模型進行圖像搜索得到的圖像與輸入信息之間存在細節部分的內容偏離，如語義不一致。

技術實現思路

1、本公開提供了一種圖像搜索方法、裝置、智能體、電子設備及存儲介質。

2、根據本公開的一方面，提供了一種圖像搜索方法，包括：獲取與輸入文本信息相匹配的至少一個第一候選圖像，其中，輸入文本信息用于表征圖像搜索需求；利用第一大模型對輸入文本信息進行語義分析，生成至少一個問答對，其中，問答對包括從輸入文本信息中提取的問題信息和第一答案信息；利用第二大模型對至少一個問題信息和至少一個第一候選圖像進行圖文分析，生成用于回答每個問題信息的第二答案信息；以及根據至少一個第一答案信息和至少一個第二答案信息之間的對比結果，從至少一個第一候選圖像中確定與圖像搜索需求匹配的至少一個目標圖像。

3、根據本公開的另一方面，提供了一種圖像搜索裝置，包括：獲取模塊，用于獲取與用戶輸入的輸入文本信息相似的至少一個第一候選圖像，其中，輸入文本信息用于表征用戶的圖像搜索需求；語義分析模塊，用于利用第一大模型對輸入文本信息進行語義分析，生成至少一個問答對，其中，問答對包括從輸入文本信息中提取的問題信息和第一答案信息；圖文分析模塊，用于利用第二大模型對至少一個問題信息和至少一個第一候選圖像進行圖文分析，生成用于回答每個問題信息的第二答案信息；以及確定模塊，用于根據至少一個第一答案信息和至少一個第二答案信息之間的對比結果，從至少一個第一候選圖像中確定與圖像搜索需求匹配的至少一個目標圖像。

4、根據本公開的另一方面，提供了一種人工智能的智能體，被配置為執行本公開實施例提供的方法。

5、根據本公開的另一方面，提供了一種電子設備，包括：至少一個處理器；以及與至少一個處理器通信連接的存儲器；其中，存儲器存儲有可被至少一個處理器執行的指令，指令被至少一個處理器執行，以使至少一個處理器能夠執行如上的方法。

6、根據本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，計算機指令用于使計算機執行如上的方法。

7、根據本公開的另一方面，提供了一種計算機程序產品，包括計算機程序，計算機程序在被處理器執行時實現如上的方法。

8、應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術特征：

1.一種圖像搜索方法，包括：

2.根據權利要求1所述的方法，其中，所述利用第一大模型對所述輸入文本信息進行語義分析，生成至少一個問答對包括：

3.根據權利要求2所述的方法，其中，所述利用所述第一大模型基于所述第一提示信息和所述輸入文本信息執行所述語義分析任務，以從所述輸入文本信息中提取出至少一個子輸入文本信息，包括：

4.根據權利要求2或3所述的方法，其中，所述獲取第一提示信息包括：

5.根據權利要求2~4任一項所述的方法，其中，所述獲取第一提示信息，包括：

6.根據權利要求2~5任一項所述的方法，其中，所述獲取第一提示信息，包括：

7.根據權利要求1所述的方法，其中，所述根據至少一個所述第一答案信息和至少一個所述第二答案信息之間的對比結果，從至少一個所述第一候選圖像中確定與所述圖像搜索需求匹配的至少一個目標圖像，包括：

8.根據權利要求7所述的方法，還包括：

9.根據權利要求7所述的方法，還包括：

10.根據權利要求8或9所述的方法，還包括：

11.根據權利要求7~10任一項所述的方法，還包括：

12.根據權利要求10所述的方法，其中，所述第二提示信息還用于提示所述第三大模型執行解釋任務；所述方法還包括：

13.根據權利要求12所述的方法，還包括：

14.根據權利要求1~13任一項所述的方法，其中，所述獲取與輸入文本信息相匹配的至少一個第一候選圖像，包括：

15.一種圖像搜索裝置，包括：

16.根據權利要求15所述的裝置，其中，所述語義分析模塊，包括：

17.根據權利要求16所述的裝置，其中，所述語義分析子模塊包括：

18.根據權利要求16或17所述的裝置，其中，所述獲取子模塊包括：

19.根據權利要求16~18任一項所述的裝置，其中，所述獲取子模塊，包括：

20.根據權利要求16~19任一項所述的裝置，其中，所述獲取子模塊，包括：

21.根據權利要求15所述的裝置，其中，所述確定模塊包括：

22.根據權利要求21所述的裝置，所述確定模塊還包括：

23.根據權利要求21所述的裝置，所述確定模塊還包括：

24.根據權利要求22或23所述的裝置，所述確定模塊還包括：

25.根據權利要求21~24任一項所述的裝置，所述圖像搜索裝置還包括：

26.根據權利要求24所述的裝置，其中，所述第二提示信息還用于提示所述第三大模型執行解釋任務；所述確定模塊還包括：

27.根據權利要求26所述的裝置，所述圖像搜索裝置還包括：

28.根據權利要求15~27任一項所述的裝置，其中，所述獲取模塊，包括：

29.一種智能體，被配置為執行根據權利要求1~14中任一項所述的方法。

30.一種電子設備，包括：

31.一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執行根據權利要求1~14中任一項所述的方法。

32.一種計算機程序產品，包括計算機程序，所述計算機程序在被處理器執行時實現根據權利要求1~14中任一項所述的方法。

技術總結
本公開提供了一種圖像搜索方法、裝置、智能體、電子設備及存儲介質，涉及人工智能技術領域，尤其涉及計算機視覺、深度學習、大模型、圖像搜索等技術領域，可應用于AIGC基于人工智能的內容生成等場景。該方法包括：獲取與輸入文本信息相匹配的至少一個第一候選圖像；利用第一大模型對輸入文本信息進行語義分析，生成至少一個問答對，問答對包括問題信息和第一答案信息；利用第二大模型對至少一個問題信息和至少一個第一候選圖像進行圖文分析，生成用于回答每個問題信息的第二答案信息；根據至少一個第一答案信息和至少一個第二答案信息之間的對比結果，從至少一個第一候選圖像中確定與圖像搜索需求匹配的至少一個目標圖像。

技術研發人員：周景博,羅鵬飛,夏源,徐童
受保護的技術使用者：北京百度網訊科技有限公司
技術研發日：
技術公布日：2025/3/13

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：周景博,羅鵬飛,夏源,徐童
技術所有人：北京百度網訊科技有限公司
我是此專利的發明人

上一篇：鋁合金車體門框結構寬度控制裝置及方法與流程
上一篇：一種摩托車頭盔鏡片的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！