基于知識庫增強的RAG智能客服系統設計-案例-控制網

基于知識庫增強的RAG智能客服系統設計

企業：領域：自動化軟件
點擊數：2693 發布時間：2026-05-10 10:59:41
分享到：

針對傳統客服系統存在知識更新滯后、響應延遲高和知識推理不足等問題，本文提出了一種基于知識庫增強的RAG智能客服系統設計。該系統在硬件設計中，引入高并發低延遲的通信電路設計和具備本地緩存與預處理能力的終端設備，提升了整體響應效率；在軟件設計中，構建與硬件匹配的分布式知識庫結構，支持邊緣計算與增量更新，同時優化RAG推理流程，實現了終端-云端協同服務。實驗結果表明，該系統在1000并發下響應下的時間為1.2秒，知識更新耗時縮短至10分鐘，用戶滿意度達9.1分。與現有基于LLM和RAG的客服系統相比，該系統在回答準確率、并發性能及運維成本等方面均具有顯著優勢，為智能客服領域的高效部署與實時服務提供了創新性解決方案。

★ 李致遠（南京科技職業學院，江蘇南京 210000）

關鍵詞：知識庫增強；RAG模型；邊緣計算；增量更新

目前，智能化客服系統從規則匹配、FAQ檢索的傳統模式向以深度學習為驅動、更深刻理解用戶意思的新一代智能客服方向發展。尤其是近幾年大語言模型發展快速， RAG（Retrieval-Augmented Generation）模型通過組合語言，生成大模型和外部知識庫進行實時檢索，在改善客服系統對復雜問題理解與答問能力方面取得了不錯成效[1]。但RAG模型也面臨實踐問題：第一，大模型訓練對硬件資源要求較高，在大規模并發的情況下，會出現通信等待時間過長及模型推理瓶頸現象；第二，知識庫更新機制無法靈活轉換，很容易出現老化及答問失當現象；第三，沒有有效發揮終端設備作為整體端到端架構中預處理節點和邊緣計算節點的巨大潛力。

張麗靜等人[2]針對中郵網院客服存在著在學習高峰期回復不及時、全天候接待能力不足等問題，設計并實現了基于大語言模型、LangChain框架、pgVector向量數據庫以及表示學習等技術的智能客服系統。該系統利用大模型理解用戶復雜的自然語言輸入，能夠隨時隨地以更高效、準確的方式回答用戶所遇到的問題，在降低中郵網院客服人工成本的同時，提升了用戶體驗感和滿意度，并經測試驗證了該系統的可行性，為中郵網院后續進行智能客服系統建設和選型提供了參考。

本文設計了一種基于知識庫增強的RAG智能客服系統，其通過優化硬件架構和軟件算法，為用戶提供了更優質的客服服務，推動了智能客服領域的進一步發展。

1 RAG智能客服系統硬件設計

1.1 設計網絡通信電路

RAG智能客服系統需要滿足極低的響應時延，還要具有高帶寬、多線程異步通信的通信電路。整個系統采用STM32H7系列千兆以太網PHY芯片，實現了高帶寬通信電路。系統核心通信模塊實現了基于DMA模式的全直通通信鏈路，數據從網口流入內存的過程中不需要CPU介入，就可以實現高效處理。同時配合硬件中斷優先級調度，保證了RAG推理請求的優先級在通信層級優先處理。

為了降低延遲，設計時使用雙通道DMA并行處理發送與接收；引入QoS策略[3] ，優先處理模型查詢數據包；網絡堆棧使用輕量化協議配合輪詢機制，提高實時性。網絡通信電路原理圖如圖1所示。

圖片1.png

圖1 網絡通信電路原理圖

通信電路的設計保障了客服系統在高并發條件下的穩定運行，為RAG實時檢索與推理結果返回提供了可靠支撐。

1.2 設計客服終端設備

終端的智能客服不僅作為和用戶交互的接口，還要完成數據預處理、本地存儲、知識庫更新等邊緣側的計算。終端以基于樹莓派4B或者國產RK3568平臺為基礎，加載NPU（Neural Processing Unit，神經網絡處理器）完成預處理。

終端設備中預設本地緩存組件，支持對常用數據的快速檢索；由設備端定期或者實時觸發分布式緩存同步協議，從中心知識庫同步更新部分內容并對常見問題進行索引排序處理。另外，本地對維護向量索引，輔助RAG進行相似度的初步檢索，減輕了云端的負載[4]。客服終端設備結構框圖如圖2所示。

圖片2.png

圖2 客服終端設備結構框圖

圖2的端-云結合設計優化了系統整體架構，減少了網絡負擔，提升了響應速度與魯棒性。

2.1 知識庫增強設計

為實現數據的高效分布與訪問，引入數據分片機制[5]。設知識庫總數據量為D，將其劃分為"個數據分片，每個分片大小為Di，滿足公式（1）：

式1.png （1）

同時，采用副本機制保障數據可靠性。為了更全面地描述副本分布情況，設Ri j為一個二元變量，當節點j存儲分片i的副本時， Ri j = ，否則 Ri j = 0。在考慮副本分布的均勻性時，不僅要保證每個數據分片在不同節點保存個副本，還需確保副本在節點間的分布盡量均衡。假設系統中有個節點，對于任意一個數據分片 ,其副本分布需滿足公式（2）：

式2.png

為衡量副本分布的均勻程度，引入均勻度指標ui，其計算公式為式（3）：

式3.png

ui的取值范圍為[0,1]，當ui越接近1時，表示數據分片的副本在節點間的分布越均勻。在實際系統中，通過不斷調整副本存儲策略，使得各個數據分片的ui值盡可能接近1，從而保障整個知識庫數據可靠性的均衡性。

終端對新獲取的數據先進行預處理，通過邊緣計算節點的NPU進行特征提取和價值評估[6]。設新數據為dnew，其價值評估函數如公式（4）：

式4.png

其中，s(dn.)為數據與現有知識的相似度，為相似度權重，F(d.)為數據的新鮮度， β為新鮮度權重，且a + B = 1。

當v(dn .)>0 ( θ為預設閾值）時，終端利用公式（5）將數據上傳至云端進行更新，即：

式5.png

分布式存儲以及增量更新，在提升數據讀寫靈活度和實時性的同時，能夠實現基于知識庫高效管理和及時的更新。在某一臺節點完成對數據分片進行更新的操作之后，需要使用分布式共識算法保證存儲有相同副本的其他節點能夠完成更新，以保證數據的一致性。針對上述更新操作的頻率，將單位時間t內數據分片i所更新的次數稱為Npdati, t)，當監控該指標時，就可以靈活調整相關系統的更新策略，避免更新過于頻繁或者更新不足而影響到系統性能以及數據的實時性。

2 RAG智能客服系統軟件設計

2.2 RAG模型工作流程

實時檢索優化充分利用硬件加速計算能力，終端設備的NPU可快速完成文本向量化處理[7]。設用戶輸入文本為，代表用戶向智能客服系統提出的問題，以自然語言文本形式呈現。經終端NPU處理生成向量VT，如公式（6）：

式6.png

公式（6）表明，通過終端的神經網絡加速器NPU對用戶輸入文本T進行處理，輸出對應的向量VT能夠在后續計算中更高效地衡量文本與知識庫中內容的相似度。

終端本地維護向量索引庫Ilocal，計算VT與索引庫中向量的相似度，得到初步檢索結果Rlocal。相似度計算如公式（7）：

式7.png

公式（7）中，vi表示本地向量索引庫local 中的某一個向量，local是終端設備本地存儲的用于快速檢索的向量集合，存儲著與常見問題、高頻訪問知識相關的向量。sim(VT , vi )代表用戶輸入文本向量VT與本地向量索引庫中向量vi 的余弦相似度，通過該公式計算二者相似度，相似度越高，表明用戶問題與本地索引庫中對應知識越相關。最終基于這些相似度計算結果得到初步檢索結果Rlcal ，Rlcal是一個包含與用戶問題具有較高相似度的本地知識索引集合。

將Rlocal 中相似度較高的結果上傳至云端，云端結合全局知識庫進行二次檢索，利用高速通信電路的QoS策略優先傳輸檢索請求和結果。

終端-云端協同推理依托網絡電路的QoS保障，實現高效協作[8]。終端完成初步檢索后，將相關信息Inf。傳輸至云端，傳輸延遲Delay滿足公式（8）：

式8.png

其中，為預設最大延遲閾值。云端基于接收的信息進行深度推理，生成最終回答Answer，如公式（9）：

式9.png

這種終端-云端協同的工作流程，充分發揮了終端的邊緣計算能力和云端的強大處理能力，在保障響應速度的同時提升了回答質量。

3 系統測試

3.1 系統開發工具與環境

系統采用PyCharm開發工具作為主要的集成開發環境，并基于Python語言進行編程；選用TensorFlow和PyTorch作為深度學習框架，來訓練和推理RAG模型；采用MongoDB對數據庫進行分布式存儲，采用Socket編程實現網絡通信。

測試環境為：服務器采用Intel Xeon E5-2680 v4處理器，內存64GB，硬盤1TB SSD；客服終端設備采用Intel Core i5處理器，內存8GB，硬盤256GB SSD；網絡環境為千兆以太網，延遲控制在10ms以內。

3.2 功能測試

功能測試主要針對系統的核心功能進行驗證。測試用例如表1所示。

表1 功能測試結果

表1.png

通過表1的測試用例，驗證了系統的各項功能均能正常實現，并滿足設計要求。

3.3 性能測試

性能測試主要從響應速度、知識更新及時性和用戶滿意度三個方面進行，并與基于LLM和RAG的客服系統作對比，結果如表2所示。

表2 性能測試結果

表2.png

根據表2的結果可知，采用文中客服系統時，1000并發下響應下的時間為1.2秒，失敗率為0，原因是系統的本地預處理、緩存機制和硬件加速，縮短了系統的響應時間；知識更新平均耗時只有10分鐘，原因是該系統采用增量更新策略實現高效同步；用戶滿意度達到了9.1分，主要因響應快、回答準、知識新。綜合來看，文中系統在響應速度、并發性能、知識更新和用戶滿意度上顯著優于基于LLM和RAG的客服系統，為智能客服提供了高效可靠支持。

4 結束語

本文提出了一種基于知識庫增強的RAG智能客服設計，其在硬件方面，高并發低時延的通信電路設計結合邊緣計算能力的終端硬件，能保證較低的響應時間；在軟件方面，通過分布式的知識庫結構以及增量更新，保證了知識的時效性，并利用RAG的高效工作流程達到了終端-云端高效協同。實驗結果顯示，該系統在響應時間、知識更新效率及用戶滿意度方面均優于傳統系統，且在并發的場景下獲得突出表現。

未來，可進一步探索輕量化模型部署與多模態交互能力，以適配更復雜的應用場景。本研究為智能客服系統的性能優化提供了新思路，對推動行業技術升級具有參考價值。

★2025年教育部中國高校產學研創新基金項目“面向高校科技成果轉化效能提升的大模型研究”，項目編號: 2025ZJ012

作者簡介：

李致遠（1996-），男，江蘇連云港人，助教，碩士，現就職于南京科技職業學院，研究方向為人工智能。

參考文獻：

[1] 鞠煒剛, 汪鵬, 王佳. 基于大語言模型和RAG的持續交付智能問答系統[J]. 計算機技術與發展, 2025, 35 (2) : 107 - 114.

[2] 張麗靜, 杜冬梅, 劉慶芳, 等. 基于LLM和RAG的中郵網院智能客服系統研究[J]. 郵政研究, 2024, 40 (4) : 66 - 72.

[3] 吳斌峰, 董海杰, 孫恪成, 等. 基于模型微調融合RAG的FPSO生產流程智能問答系統[J]. 現代信息科技, 2025, 9 (10) : 170 - 175.

[4] 郝世博, 史東昊, 唐裕晨. 基于開源RAG架構的校企專利技術合作問答應用研究[J]. 技術與市場, 2024, 31 (5) : 1 - 11.

[5] 高雅奇. 基于大語言模型和RAG技術的高校知識庫智能問答系統構建與評價[J]. 電腦知識與技術, 2024, 20 (29) : 18 - 20.

[6] 陳濱, 游強華. 基于LLM與RAG的圖書館智能問答系統設計[J]. 計算機應用文摘, 2025, 41 (6) : 164 - 166.

[7] 趙耕, 涂一雄, 楊嘉馳, 等. 基于領域數據增強的大模型RAG招生問答系統設計與實現[J]. 軟件, 2025, 46 (1) : 175 - 177.

[8] 馬鈺. 基于大語言模型和RAG的輿情知識交互及推薦研究[J]. 人文與社會科學學刊, 2025, 5 (1) : 311 - 314.

摘自《自動化博覽》2026年4月刊

1.我有以下需求：
得到貴公司產品詳細資料得到貴公司產品的價格信息貴公司產品銷售人員聯系我貴公司技術支持人員聯系我
2.詳細的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

技術頻道

行業頻道

熱門頻道

技術頻道

行業頻道

熱門頻道

案例頻道

熱點新聞

推薦產品