Skip to content

Latest commit

 

History

History
90 lines (64 loc) · 2.54 KB

case2.md

File metadata and controls

90 lines (64 loc) · 2.54 KB

Challenge

	创建这个表的 Java BeanCREATE TABLE `model_evaluation` (
    `id` INT AUTO_INCREMENT PRIMARY KEY,
     `provider` INT NOT NULL,
    `model_name` VARCHAR(255) NOT NULL,
    `scenario_id` INT NOT NULL,
    `rating` TINYINT UNSIGNED,
    `comment` TEXT,
    `updated_at` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
    INDEX(`provider`, `model_name`, `scenario_id`)
);

格式参照@Data
public class Credential {
    private Integer id;
    private Integer provider;
    private String key;
    private String value;
    private Date updatedAt;
}

Answers

OpenAI/ChatGPT4(8)

完整实现了需求,并有相关解释。

Baidu/ERNIE-Bot-4(8)

完整实现了需求,并有相关解释。

Zhipu/glm-4(8分)

完整实现了需求,并有相关解释。

Baichuan/Baichuan2-Turbo(8)

完整实现了需求,并有相关解释。

Minimax/abab6-chat(8)

完整实现了需求,并有相关解释。

Moonshot/moonshot-v1-8k(8)

完整实现了需求,并有相关解释。

ByteDance/Skylark-chat(8)

完整实现了需求,并有相关解释。

Xunfei/Spark3.5 (7)

完整实现了需求。

Minimax/abab5.5-chat(7)

完整实现了需求。

Lingyi/yi-34b-chat-0205(7)

完整实现了需求。

Tencent/ChatPro(6)

无视了@Data,自己写了set和get函数。

Tencent/ChatStd(6)

无视了@Data,自己写了set和get函数。

Lingyi/yi-vl-plus (6)

私自换了updatedAt的数据类。

OpenAI/gpt-3.5-turbo(5)

无视了@Data,并且生成了包含所有参数的构造函数,但又少了无参构造函数。

Zhipu/chatGLM_turbo(4)

无视了@Data,并且生成了包含所有参数的构造函数,但又少了无参构造函数,而get和set函数又没写全。

Ali/qwen-plus(4)

没理解对需求,Java Bean确实生成了,但是生成了某个数据库操作的一堆annotation。

Baidu/ERNIE-Bot-turbo(4)

没理解对需求,Java Bean确实生成了,但是生成了某个数据库操作的一堆annotation。

Xunfei/Spark3.1(3)

没理解对需求,Java Bean确实生成了,但是生成了某个数据库操作的一堆annotation。

Ali/qwen-turbo(2)

没理解对需求,Java Bean确实生成了,但是生成了某个数据库操作的一堆annotation和辅助函数。

Summary

  1. 注意:大型语言模型的响应基于概率性预测,因此并不保证每次都一致。只有通过广泛的测试用例和多次测试,才能更准确地评估模型的性能。