检索质量评估的难点
#retrieval#evaluation
检索系统的质量评估比想象中难。传统的 precision/recall 在实际场景里很难定义 ground truth——用户想要的东西往往不是文档里有明确答案的。 最近在看一些 embedding-based retrieval 的评估方法,发现难点在于: 1. 语义相似 ≠ 检索价值高 2. 单次查询很难评估,需要看长期的用户满意度 3. 分布偏移会导致离线指标和在线指标不一致 可能的解法:结合用户行为信号做持续评估,而不是依赖固定的测试集。