大型語言模型常因無法即時存取資訊而產生「幻覺」,答非所問。為解決這問題,RAG 系統透過檢索補充最新與正確的知識。本系列文章將從理解檢索的重要性出發,深入探討為何需要專門的資料集與評估指標來檢視 RAG 表現,並逐一介紹 RAGAS、DeepEval、LangSmith、TruLens 等常見評估工具。透過理論解析與實作教學,建立一套完整、實用的 RAG 評估思維,協助讀者掌握從設計到驗證的每個環節。