model-benchmark
# OpenClaw 模型测评框架
> 创建:2026-03-23
> 目标:深度测评各模型在 OpenClaw 上的实际表现
---
## 测试环境
- 平台:Matrix Agent(OpenClaw 2026.3.3)
- 当前模型:minimax/auto(上下文200k,MaxTokens 8192)
- 代理:127.0.0.1:8766(MiniMax内部代理)
- Thinking:关闭状态
---
## 待测模型池
| 模型 | Provider | 状态 | 优先级 |
|------|---------|------|--------|
| MiniMax Auto | minimax | ✅已测 | — |
| **GLM-5** | 智谱/百炼 | 🔜待测 | P1 |
| **Qwen3-235B-A22B** | 百炼(MoE,235B参数) | 🔜待测 | P1 |
| Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 |
| DeepSeek R1 | 待确认 | 🔜待测 | P2 |
| GPT-4o | OpenAI | 待确认 | P2 |
### API Key 需求
- GLM-5:需智谱API Key(GLM-4V/GLM-4已集成百炼,可能复用百炼Key)
- Qwen3-235B-A22B:需阿里云百炼Key(洛书有Coding Plan)
- 测试方法:通过 OpenClaw models.json 配置新 provider
---
## 测评维度
| 维度 | 权重 | 测试内容 |
|------|------|---------|
| 中文理解 | 25% | 解释复杂概念,用小学生能懂的话 |
| 代码能力 | 25% | Python实现,简洁可运行 |
| 工具调用 | 20% | 解释工具调用对Agent的重要性 |
| 复杂推理 | 20% | 多步骤逻辑推理题 |
| 响应速度 | 10% | 从发题到返回的时间 |
---
## 测试题库(标准题)
### 测试1:中文理解与创意
> 请用一段不超过100字的话,解释"量子纠缠",要求:小学生能看懂,且有一定文采。
评分标准:
- ✅ 能用比喻/类比解释(不堆术语)
- ✅ 有文采(不是干巴巴的定义)
- ✅ 字数<100
### 测试2:代码能力
> 写一个Python函数,判断一个字符串是否是回文,要求代码简洁、注释清晰、可直接运行。
评分标准:
- ✅ 逻辑正确
- ✅ 代码简洁(<15行)
- ✅ 有注释
- ✅ 可直接运行
### 测试3:工具调用能力
> 解释为什么"工具调用能力"对AI Agent至关重要?要求结合实际场景,不超过150字。
评分标准:
- ✅ 有具体场景举例
- ✅ 说清楚"为什么"(不是"是什么")
- ✅ 字数<150
### 测试4:复杂推理
> 张三比李四大3岁。李四比王五小2岁。王五20岁。问:三人年龄之和是多少?
评分标准:
- ✅ 推理过程清晰
- ✅ 最终答案正确(20+22+25=67)
- ✅ 写出推理步骤
---
## 报告格式
```
# 模型测评报告:{模型名}
日期:YYYY-MM-DD
## 总分:X/10
## 各维度得分
| 维度 | 得分 | 评语 |
|------|------|------|
| 中文理解 | X/10 | ... |
| 代码能力 | X/10 | ... |
| 工具调用 | X/10 | ... |
| 复杂推理 | X/10 | ... |
| 响应速度 | X/10 | ... |
## 亮点
-
## 不足
-
## 结论
-
```
标签
skill
ai