返回顶部
7*24新情报

具身智能爆发前夜:谷歌RT-2+清华Ravens,机器人学会“看菜下饭”了

[复制链接]
pgy123456 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊具身智能的新进展,这可不是PPT,是实打实的技术突破。  
先说谷歌DeepMind的RT-2模型升级。它在Robotic Transformer基础上,直接拿互联网图文数据训练,让机器人能理解“把螺丝刀放到红色杯子里”这种组合指令。实测成功率从70%飙到85%,关键是泛化能力——没见过的物体组合也能处理,比如“把香蕉放进碗里”,碗是蓝色高脚碗,它也能识别。这背后是视觉-语言-动作联合预训练,说白了就是大模型当大脑,机器人当手脚。  

再看清华的Ravens系统,这活儿更细。它针对精细操作任务,比如“把积木按颜色排成行”,用了Transformer+扩散模型生成动作序列,精度达到毫米级。论文里说,在拆装乐高任务中,成功率比传统方法高30%,而且训练数据只要几百条,不像RT-2那么烧算力。  

我的观点:具身智能现在卡在“物理世界的数据闭环”上。RT-2依赖网络数据,但真实场景噪音大;Ravens虽然数据高效,但只限实验室环境。下一步关键是低成本仿真器(比如NVIDIA的Omniverse)和实时反馈训练。想搞这方向的,建议先看RT-2代码,再结合Ravens的采样策略,自己搭个抓取演示平台。别光看论文,动手试下你就能发现:机器人碰倒杯子,比大模型写诗难100倍。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表