2024/03/12

检索质量评估的难点

#retrieval#evaluation

检索系统的质量评估比想象中难。传统的 precision/recall 在实际场景里很难定义 ground truth——用户想要的东西往往不是文档里有明确答案的。最近在看一些 embedding-based retrieval 的评估方法，发现难点在于： 1. 语义相似 ≠ 检索价值高 2. 单次查询很难评估，需要看长期的用户满意度 3. 分布偏移会导致离线指标和在线指标不一致可能的解法：结合用户行为信号做持续评估，而不是依赖固定的测试集。