Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

知识库内容太多之后,就会导致回答的准确性下降 #3370

Open
6 of 7 tasks
fzcccc opened this issue Dec 11, 2024 · 3 comments
Open
6 of 7 tasks

知识库内容太多之后,就会导致回答的准确性下降 #3370

fzcccc opened this issue Dec 11, 2024 · 3 comments
Labels
bug Something isn't working

Comments

@fzcccc
Copy link

fzcccc commented Dec 11, 2024

例行检查

  • 我已确认目前没有类似 issue
  • 我已完整查看过项目 README,以及项目文档
  • 我使用了自己的 key,并确认我的 key 是可正常使用的
  • 我理解并愿意跟进此 issue,协助测试和提供反馈
  • 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 issue 可能会被无视或直接关闭

你的版本

  • 公有云版本
  • 私有部署版本, 具体版本号: 4.8.14

问题描述, 日志截图,配置文件等
知识库内容比较少的时候,回答的准确性很高,一旦知识库导入大量内容之后,就会引用一些无关的内容参与回答,导致回答的结果准确性下降,我用的是混合检索+结果重排,引用上限是2000,各位大佬有没有好的解决办法,谢谢了!
复现步骤

预期结果

相关截图

@fzcccc fzcccc added the bug Something isn't working label Dec 11, 2024
@lijiajun1997
Copy link

模型的注意力问题,换能力强的模型,并在提示词里约束。
也可以去优化知识库结构,比如不要直接分割,进行QA拆分,或者其他预处理。
你可以人工看下,匹配出来的知识库,是否正确匹配到了相关知识,引用的是相关+不相关,还是全部是不相关。

@fzcccc
Copy link
Author

fzcccc commented Dec 19, 2024

模型的注意力问题,换能力强的模型,并在提示词里约束。 也可以去优化知识库结构,比如不要直接分割,进行QA拆分,或者其他预处理。 你可以人工看下,匹配出来的知识库,是否正确匹配到了相关知识,引用的是相关+不相关,还是全部是不相关。

我用的是glm4,知识库里面的知识全部都是直接分割,有什么更强的模型推荐吗,引进来的知识是相关+不相关,最后回答的结果就会掺杂着不准确

@lijiajun1997
Copy link

模型的注意力问题,换能力强的模型,并在提示词里约束。 也可以去优化知识库结构,比如不要直接分割,进行QA拆分,或者其他预处理。 你可以人工看下,匹配出来的知识库,是否正确匹配到了相关知识,引用的是相关+不相关,还是全部是不相关。

我用的是glm4,知识库里面的知识全部都是直接分割,有什么更强的模型推荐吗,引进来的知识是相关+不相关,最后回答的结果就会掺杂着不准确

在知识库引用的提示词里,约束:知识库里可能又部分不相关的知识内容,你需要仔细理解和判断哪些知识内容与问题相关,根据相关的内容进行回答,不要引用无关内容。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants