新建测评
选择测试集并确认运行参数,系统将使用默认设置执行测评
1
编辑测试集 ↗
选择测试集
选择要运行的测试集
2
3
启动前校验
校验依赖服务与关键信息是否可用
测试集库
管理可运行的评测用例
| Case ID | 问题 | 标准答案 | 操作 | |
|---|---|---|---|---|
| 请选择测试集 | ||||
用例编辑
预览
任务队列
查看当前与历史测评运行
| 任务 ID | Agent | 状态 | 耗时(min) | 进度 | 用例数 | 重复次数 | 创建时间 | 操作 |
|---|
第 1 / 1 页 · 共 0 条
运行详情
已完成
失败会话链接
Agent 会话
Judge测评
选择任务后可下载报告
失败用例复核 0 个失败
运行结果
查看已创建的测评运行结果,打开后进入同一个报告详情页
| 任务 | Agent | 状态 | 用例数 | 重复次数 | 创建时间 | 操作 |
|---|
日志
查询运行过程、Agent 调用与 Judge 判定事件
| 时间 | 级别 | 来源 | 任务 ID | Case ID | 内容摘要 | 耗时 |
|---|
设置中心
集中管理评测运行的连接、规则与默认值
Settings
状态与摘要
设置分组
Connection
Agent 接入
配置 Agent 服务的登录与访问凭据
环境与范围
Agent 接入
Judge 接入
运行默认值
判定规则
账号安全
操作
输出与日志
JSON、Excel
JSONL
全部、失败用例
随运行记录保存