返回顶部
m

model-benchmark

深度测评各模型在 OpenClaw 上的实际表现,支持中文理解/代码/推理/工具调用多维度评估。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
87
下载量
0
收藏
概述
安装方式
版本历史

model-benchmark

# OpenClaw 模型测评框架 > 创建:2026-03-23 > 目标:深度测评各模型在 OpenClaw 上的实际表现 --- ## 测试环境 - 平台:Matrix Agent(OpenClaw 2026.3.3) - 当前模型:minimax/auto(上下文200k,MaxTokens 8192) - 代理:127.0.0.1:8766(MiniMax内部代理) - Thinking:关闭状态 --- ## 待测模型池 | 模型 | Provider | 状态 | 优先级 | |------|---------|------|--------| | MiniMax Auto | minimax | ✅已测 | — | | **GLM-5** | 智谱/百炼 | 🔜待测 | P1 | | **Qwen3-235B-A22B** | 百炼(MoE,235B参数) | 🔜待测 | P1 | | Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 | | DeepSeek R1 | 待确认 | 🔜待测 | P2 | | GPT-4o | OpenAI | 待确认 | P2 | ### API Key 需求 - GLM-5:需智谱API Key(GLM-4V/GLM-4已集成百炼,可能复用百炼Key) - Qwen3-235B-A22B:需阿里云百炼Key(洛书有Coding Plan) - 测试方法:通过 OpenClaw models.json 配置新 provider --- ## 测评维度 | 维度 | 权重 | 测试内容 | |------|------|---------| | 中文理解 | 25% | 解释复杂概念,用小学生能懂的话 | | 代码能力 | 25% | Python实现,简洁可运行 | | 工具调用 | 20% | 解释工具调用对Agent的重要性 | | 复杂推理 | 20% | 多步骤逻辑推理题 | | 响应速度 | 10% | 从发题到返回的时间 | --- ## 测试题库(标准题) ### 测试1:中文理解与创意 > 请用一段不超过100字的话,解释"量子纠缠",要求:小学生能看懂,且有一定文采。 评分标准: - ✅ 能用比喻/类比解释(不堆术语) - ✅ 有文采(不是干巴巴的定义) - ✅ 字数<100 ### 测试2:代码能力 > 写一个Python函数,判断一个字符串是否是回文,要求代码简洁、注释清晰、可直接运行。 评分标准: - ✅ 逻辑正确 - ✅ 代码简洁(<15行) - ✅ 有注释 - ✅ 可直接运行 ### 测试3:工具调用能力 > 解释为什么"工具调用能力"对AI Agent至关重要?要求结合实际场景,不超过150字。 评分标准: - ✅ 有具体场景举例 - ✅ 说清楚"为什么"(不是"是什么") - ✅ 字数<150 ### 测试4:复杂推理 > 张三比李四大3岁。李四比王五小2岁。王五20岁。问:三人年龄之和是多少? 评分标准: - ✅ 推理过程清晰 - ✅ 最终答案正确(20+22+25=67) - ✅ 写出推理步骤 --- ## 报告格式 ``` # 模型测评报告:{模型名} 日期:YYYY-MM-DD ## 总分:X/10 ## 各维度得分 | 维度 | 得分 | 评语 | |------|------|------| | 中文理解 | X/10 | ... | | 代码能力 | X/10 | ... | | 工具调用 | X/10 | ... | | 复杂推理 | X/10 | ... | | 响应速度 | X/10 | ... | ## 亮点 - ## 不足 - ## 结论 - ```

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 model-benchmark-1776090661 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 model-benchmark-1776090661 技能

通过命令行安装

skillhub install model-benchmark-1776090661

下载 Zip 包

⬇ 下载 model-benchmark v0.1.0

文件大小: 2.22 KB | 发布时间: 2026-4-14 10:40

v0.1.0 最新 2026-4-14 10:40
- Initial release of model-benchmark skill for deep evaluation of models on OpenClaw.
- Supports multidimensional assessment: Chinese understanding, coding, reasoning, and tool-use evaluation.
- Includes a standardized test set and scoring rubrics for consistent benchmarking.
- Documents required APIs and configuration methods for adding new model providers.
- Provides a detailed report template for presenting model evaluation results.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部