新建测评
1
编辑测试集 ↗
选择测试集
选择要运行的测试集
2
本次运行
设置本次运行的基础参数,其余使用设置中心默认值
测试集库
| Case ID | 问题 | 标准答案 | 操作 | |
|---|---|---|---|---|
| 请选择测试集 | ||||
用例编辑
预览
任务队列
| 操作 |
|---|
运行详情
已完成
失败会话链接
Agent 会话
Judge测评
选择任务后可下载报告
失败用例复核 0 个失败
运行结果
| 任务 | Agent | 状态 | 用例数 | 重复次数 | 创建时间 | 操作 |
|---|
日志
| 时间 | 级别 | 来源 | 任务 ID | Case ID | 内容摘要 | 耗时 |
|---|
设置中心
环境与 Agent
环境管理
| 环境 ID | 租户 Key | 租户 ID | Agent 地址 | 会话页面链接 | 默认 Agent | 默认评分 Prompt | Agent 数量 | 操作 |
|---|
Agents
当前环境的 Agent 接入
| Agent 名称 | Agent ID | Agent Code | 默认 | Judge Prompt | 操作 |
|---|
Judge 接入
运行默认值
判定规则
环境联动配置
环境评分 Prompt
先选环境,再选择这个环境默认使用的评分 Prompt。Agent 继承或覆盖这条配置时会在 Agent 设置里显示。
创建 run 时保存快照:启用胶囊、prompt_id、Prompt 名称和正文,避免后续改动影响历史结果。
账号安全
操作
输出与日志
JSON、Excel
JSONL
全部、失败用例
随运行记录保存