返回顶部
x

xhs-rental-ocr

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
92
下载量
0
收藏
概述
安装方式
版本历史

xhs-rental-ocr

# 小红书数据提取 OCR (XHS Rental OCR) 从小红书笔记图片中提取结构化数据(租金/面积/单价等),支持自动裁切长图、OCR 识别、导出 Excel。 ## 🎯 适用场景 - 从小红书笔记提取租房/房价数据 - 从社交媒体图片提取表格数据 - 从长图/信息图提取统计信息 - 批量 OCR 识别并导出为 Excel/CSV ## 📦 安装 ```bash # OpenClaw / Codex git clone https://github.com/zhuobao/xhs-rental-ocr.git ~/.agents/skills/xhs-rental-ocr ``` ## 🚀 快速开始 ### 基础用法 ```bash cd ~/.agents/skills/xhs-rental-ocr python3 scripts/extract_data.py --url "https://www.xiaohongshu.com/explore/xxx" --output data.xlsx ``` ### 高级用法 ```bash # 从本地图片提取 python3 scripts/extract_data.py --images image1.jpg image2.jpg --output data.xlsx # 裁切长图后识别(9 等分) python3 scripts/extract_data.py --images long_image.jpg --slice 9 --output data.xlsx # 导出 CSV 格式 python3 scripts/extract_data.py --images image.jpg --output data.csv # 指定识别语言(中文 + 英文) python3 scripts/extract_data.py --images image.jpg --languages "zh-Hans,en-US" ``` ## 📋 工作流程 ``` 1. 下载图片(从 URL 或本地) ↓ 2. 可选:裁切长图(N 等分) ↓ 3. Apple Vision OCR 识别 ↓ 4. 正则提取结构化数据 ↓ 5. 导出 Excel/CSV ``` ## 📁 目录结构 ``` xhs-rental-ocr/ ├── SKILL.md # 技能描述(本文件) ├── scripts/ │ ├── extract_data.py # 主脚本 │ └── vision_ocr.py # OCR 模块 ├── examples/ │ └── sample_output.xlsx └── README.md # 详细文档 ``` ## 🔧 依赖 - **Python 3.9+** - **Pillow**(图片处理) - **pyobjc-framework-Vision**(macOS OCR) - **pyobjc-framework-Cocoa** - **openpyxl**(Excel 导出) 安装依赖: ```bash pip3 install pillow openpyxl pyobjc-framework-Vision pyobjc-framework-Cocoa ``` ## 📤 输出格式 ### Excel 列 | 列名 | 说明 | |------|------| | 序号 | 记录编号 | | 图片 | 来源图片 | | 区域 | 区域名称(如识别到) | | 板块 | 小区/板块(如识别到) | | 户型 | 户型(如识别到) | | 面积 (平) | 建筑面积 | | 月租金 (元) | 月租金 | | 单价 (元/平) | 每平米单价 | | 备注 | 其他信息 | ### 支持的数据模式 1. **租房数据**:租金、面积、单价 2. **房价数据**:总价、单价、面积 3. **通用表格**:自动检测数字 + 单位 ## 🎨 示例 ### 示例 1:提取小红书租房数据 ```bash python3 scripts/extract_data.py \ --url "https://www.xiaohongshu.com/explore/69be073b000000002302339e" \ --output rental_data.xlsx ``` **输出**: - 824-1295 条租房记录 - 包含区域、小区、户型、面积、租金、单价 ### 示例 2:裁切长图识别 ```bash python3 scripts/extract_data.py \ --images screenshot.png \ --slice 9 \ --output extracted_data.xlsx ``` **说明**:将长图裁切成 9 份,分别 OCR 后合并结果。 ## ⚙️ 配置选项 | 参数 | 说明 | 默认值 | |------|------|--------| | `--url` | 小红书笔记 URL | - | | `--images` | 本地图片路径(可多个) | - | | `--output` | 输出文件路径 | `output.xlsx` | | `--slice` | 长图裁切份数 | 1(不裁切) | | `--languages` | OCR 语言 | `zh-Hans,en-US` | | `--confidence` | 最低置信度 | 0.3 | | `--format` | 输出格式 | `xlsx` | ## 🔍 OCR 技术细节 **使用 Apple Vision 框架**: - 离线识别,无需网络 - 支持 30+ 语言 - 中文识别准确率高 - 自动检测文字方向 **优化策略**: 1. 高分辨率图片优先 2. 长图裁切提高识别率 3. 置信度过滤(默认>0.3) 4. 正则提取结构化数据 ## 📝 注意事项 1. **macOS 专属**:依赖 Apple Vision 框架 2. **图片质量**:建议使用高清原图 3. **长图处理**:超过 2000px 高度的图片建议裁切 4. **数据验证**:OCR 结果可能包含异常值,建议手动检查 ## 🤝 贡献 欢迎提交 Issue 和 Pull Request! **GitHub**: https://github.com/zhuobao/xhs-rental-ocr ## 📄 License MIT License ## 🙏 致谢 - Apple Vision Framework - MiniMax Skills (灵感来源) - OpenClaw Community

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 xhs-rental-ocr-1776055461 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 xhs-rental-ocr-1776055461 技能

通过命令行安装

skillhub install xhs-rental-ocr-1776055461

下载 Zip 包

⬇ 下载 xhs-rental-ocr v1.0.0

文件大小: 8.86 KB | 发布时间: 2026-4-14 13:16

v1.0.0 最新 2026-4-14 13:16
xhs-rental-ocr v1.0.0 – Initial release

- Extracts structured data (rent, area, price per sqm, etc.) from Xiaohongshu/Social media images.
- Features automatic long image slicing, OCR (Apple Vision framework, offline, Chinese supported), and export to Excel/CSV.
- Supports batch processing and multiple input formats (URL, local images).
- Includes configurable output columns for real estate data extraction.
- macOS only; dependencies: Python 3.9+, Pillow, openpyxl, pyobjc.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部