问答评估 #233

lizhen-lizhen · 2024-12-09T07:49:32Z

使用自己的问答数据集进行评估，为啥数据条目超过121条就会报错？
错误信息:
Traceback (most recent call last):
File "/home/hy/lizhen/evalscope-main/test.py", line 25, in
run_task(task_cfg=task_cfg)
File "/home/hy/lizhen/evalscope-main/evalscope/run.py", line 367, in run_task
res_dict: dict = evaluator.eval(infer_cfg=infer_cfg, debug=debug)
File "/home/hy/lizhen/evalscope-main/evalscope/evaluator/evaluator.py", line 485, in eval
reviews_list: list = self.get_reviews(subset_name=subset_name,
File "/home/hy/lizhen/evalscope-main/evalscope/evaluator/evaluator.py", line 350, in get_reviews
review_d = self._get_review(answer_d=answer_d, review_id=review_id, reviewer_spec=reviewer_spec)
File "/home/hy/lizhen/evalscope-main/evalscope/evaluator/evaluator.py", line 294, in _get_review
review_result = self.data_adapter.match(gold_content, answer_content)
File "/home/hy/lizhen/evalscope-main/evalscope/benchmarks/general_qa/general_qa_adapter.py", line 115, in match
rouge_dict = compute_rouge_score_one_sample_zh([pred], [gold])
File "/home/hy/lizhen/evalscope-main/evalscope/metrics/rouge_metric.py", line 67, in compute_rouge_score_one_sample_zh
r = ' '.join(jieba.cut(r)) if is_contains_chinese(r) else r
File "/home/hy/lizhen/evalscope-main/evalscope/metrics/rouge_metric.py", line 34, in is_contains_chinese
for _char in strs:
TypeError: 'NoneType' object is not iterable

Yunnglin · 2024-12-10T08:42:58Z

看起来问题跟 #228 类似，是否模型输出了空的结果

Yunnglin added the native label Dec 10, 2024

Yunnglin self-assigned this Dec 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

问答评估 #233

问答评估 #233

lizhen-lizhen commented Dec 9, 2024

Yunnglin commented Dec 10, 2024

问答评估 #233

问答评估 #233

Comments

lizhen-lizhen commented Dec 9, 2024

Yunnglin commented Dec 10, 2024