model-benchmark

# OpenClaw 模型测评框架 > 创建：2026-03-23 > 目标：深度测评各模型在 OpenClaw 上的实际表现 --- ## 测试环境 - 平台：Matrix Agent（OpenClaw 2026.3.3） - 当前模型：minimax/auto（上下文200k，MaxTokens 8192） - 代理：127.0.0.1:8766（MiniMax内部代理） - Thinking：关闭状态 --- ## 待测模型池 | 模型 | Provider | 状态 | 优先级 | |------|---------|------|--------| | MiniMax Auto | minimax | ✅已测 | — | | **GLM-5** | 智谱/百炼 | 🔜待测 | P1 | | **Qwen3-235B-A22B** | 百炼（MoE，235B参数） | 🔜待测 | P1 | | Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 | | DeepSeek R1 | 待确认 | 🔜待测 | P2 | | GPT-4o | OpenAI | 待确认 | P2 | ### API Key 需求 - GLM-5：需智谱API Key（GLM-4V/GLM-4已集成百炼，可能复用百炼Key） - Qwen3-235B-A22B：需阿里云百炼Key（洛书有Coding Plan） - 测试方法：通过 OpenClaw models.json 配置新 provider --- ## 测评维度 | 维度 | 权重 | 测试内容 | |------|------|---------| | 中文理解 | 25% | 解释复杂概念，用小学生能懂的话 | | 代码能力 | 25% | Python实现，简洁可运行 | | 工具调用 | 20% | 解释工具调用对Agent的重要性 | | 复杂推理 | 20% | 多步骤逻辑推理题 | | 响应速度 | 10% | 从发题到返回的时间 | --- ## 测试题库（标准题） ### 测试1：中文理解与创意 > 请用一段不超过100字的话，解释"量子纠缠"，要求：小学生能看懂，且有一定文采。评分标准： - ✅ 能用比喻/类比解释（不堆术语） - ✅ 有文采（不是干巴巴的定义） - ✅ 字数<100 ### 测试2：代码能力 > 写一个Python函数，判断一个字符串是否是回文，要求代码简洁、注释清晰、可直接运行。评分标准： - ✅ 逻辑正确 - ✅ 代码简洁（<15行） - ✅ 有注释 - ✅ 可直接运行 ### 测试3：工具调用能力 > 解释为什么"工具调用能力"对AI Agent至关重要？要求结合实际场景，不超过150字。评分标准： - ✅ 有具体场景举例 - ✅ 说清楚"为什么"（不是"是什么"） - ✅ 字数<150 ### 测试4：复杂推理 > 张三比李四大3岁。李四比王五小2岁。王五20岁。问：三人年龄之和是多少？评分标准： - ✅ 推理过程清晰 - ✅ 最终答案正确（20+22+25=67） - ✅ 写出推理步骤 --- ## 报告格式 ``` # 模型测评报告：{模型名} 日期：YYYY-MM-DD ## 总分：X/10 ## 各维度得分 | 维度 | 得分 | 评语 | |------|------|------| | 中文理解 | X/10 | ... | | 代码能力 | X/10 | ... | | 工具调用 | X/10 | ... | | 复杂推理 | X/10 | ... | | 响应速度 | X/10 | ... | ## 亮点 - ## 不足 - ## 结论 - ```

model-benchmark

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载 Zip 包

model-benchmark

model-benchmark

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载 Zip 包

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement