测评任务 / 新建测评
新建测评
配置并启动一次新的测评运行
总结
已选择测试集:-
环境:-
Agent:-
测试集库
管理可运行的评测用例
| Case ID | 问题 | 标准答案 | 操作 | |
|---|---|---|---|---|
| 请选择测试集 | ||||
用例编辑
预览
任务队列
查看当前与历史测评运行
| 标记 | 操作 |
|---|
运行详情
已完成
失败会话链接
Agent 会话
Judge测评
选择任务后可下载报告
失败用例复核 0 个失败
运行结果
查看已创建的测评运行结果,打开后进入同一个报告详情页
| 任务 | Agent | 状态 | 用例数 | 重复次数 | 创建时间 | 操作 |
|---|
日志
查询运行过程、Agent 调用与 Judge 判定事件
| 时间 | 级别 | 来源 | 任务 ID | Case ID | 内容摘要 | 耗时 |
|---|
设置中心
集中管理评测运行的连接、规则与默认值
设置
环境与 Agent
管理环境、租户、Agent 与登录信息
环境管理
| 环境 ID | 租户 Key | 租户 ID | Agent 地址 | 会话页面链接 | 默认 Agent | 默认评分 Prompt | Agent 数量 | 操作 |
|---|
Agents
当前环境的 Agent 接入
| Agent 名称 | Agent ID | Agent Code | 默认 | Judge Prompt | 操作 |
|---|
Judge 接入
运行默认值
判定规则
环境联动配置
环境评分 Prompt
先选环境,再选择这个环境默认使用的评分 Prompt。Agent 继承或覆盖这条配置时会在 Agent 设置里显示。
创建 run 时保存快照:启用胶囊、prompt_id、Prompt 名称和正文,避免后续改动影响历史结果。
账号安全
操作
输出与日志
JSON、Excel
JSONL
全部、失败用例
随运行记录保存