turbo-whisper-local-stt

# Turbo-Whisper-Local-STT **功能**：本地高性能音频转文本工具，使用 Faster-Whisper large-v3-ct2 模型。支持中文优先、长音频 VAD 分段、GPU 加速（int8_float16），完全离线隐私安全。特别适合会议录音、语音笔记、视频字幕等中文音频场景。 ### 触发时机（Triggers） - 用户提供音频文件（.wav、.mp3、.m4a 等）或音频文件夹路径，并表达转文字、转录、生成字幕等意图。 - 用户说“帮我转录”“语音转文本”“音频转文字”等口语。 - 支持单个文件或整个文件夹批量处理。 ### 支持的模型（推荐顺序） 1. **faster-whisper-base-ct2** → 默认推荐（低配设备 / 追求极速） 2. **faster-whisper-large-v3-ct2** → 高精度需求 / 会议转录 3. **faster-whisper-large-v3-turbo-ct2** → 性能与精度的平衡点 ## 参数提取指南当决定调用此技能时，请从用户消息中准确提取以下参数： 1. **`<音频路径>`** (必填): 用户提供的音频文件路径或文件夹路径（支持相对/绝对路径）。 2. **`<输出目录>`** (选填): 用户指定的输出文件夹。若未指定，默认在输入文件同级目录生成 `[源文件名].json` 和 `.txt`。 3. **`<language>`** (选填): 明确指定语言时使用（如 `zh`、`en`），默认自动检测但优先中文。 4. **`<model_path>`** (选填): 用户指定特定模型路径。 5. **`<output>`** (选填): 输出格式（`json` 或 `text`），默认两者都生成。 6. 其他可选参数（如 `--beam_size`、`--separator`）根据用户需求添加。 ### 执行步骤 1. **解析路径**：识别用户的音频文件或文件夹路径。 2. **默认目标**：若未指定输出路径，默认在输入同级创建 `[源文件名].json/.txt` 文件。 3. **调用命令**：使用以下兼容性命令启动脚本（优先 `python3`，失败则 `python`）。脚本会自动创建虚拟环境、检测 GPU 并安装对应版本。 ```bash (python3 scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language <zh/en>] [--model_path "<模型路径>"] [--output <json/text>] [--beam_size 5] [--separator " "]) || (python scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language <zh/en>] [--model_path "<模型路径>"] [--output <json/text>] [--beam_size 5] [--separator " "])

turbo-whisper-local-stt

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载 Zip 包

turbo-whisper-local-stt