Skip to content

Latest commit

 

History

History
22 lines (17 loc) · 1.2 KB

File metadata and controls

22 lines (17 loc) · 1.2 KB

进度记录(Progress)

已完成

  • 目标/字段抽取、分解检索、多查询融合、结构化抽取与“有证据不拒答”的链路改造。
  • 列表型问题加入“判定标准 + 关键描写/情节 + 简短总结”的自然输出模板(通用化,不耦合单题)。
  • 新增哈利波特专用 README.md
  • 新增并扩充题集 scripts/questions.jsonl(带 gold_chunk_ids)。
  • 新增 A/B 测试脚本 scripts/ab_test.py 与题集扩充方案 scripts/questions_plan.md
  • 修复本地运行 eval.py 路径指向问题(本地默认路径)。
  • 修复 eval.pyretrieve() 返回值解包不一致。

正在进行

  • 暂无(当前按你指示暂停 A/B 测试推进)。

待后期完成

  • A/B 测试完善:确认 expand / rerank 真正生效并输出占比统计。
  • 扩展题集至更高难度(多段/多跳/列表型),以便观察 expand / rerank 的增益。
  • 若需要:对 ab_test.py 增加“是否开启”核验与汇总展示。

当前卡点 / 风险

  • A/B 三组结果高度相似:可能因 rerank 服务未健康或 expand 无有效生成;也可能因题集过于“单 chunk 命中”。需要后续验证与改进题集。