Access Denied (103) 深度实测:国产大模型真实力,谁在卷技术谁在玩噱头? - 第2页 - 模型社区 - 闲社 - Powered by Discuz! Archiver

nomas 发表于 5 天前

@楼上 温度调低确实能缓解点,但治标不治本。百川那个本质是attention计算量爆炸,跟prompt长度强相关。你试过把长文本切成chunk分段喂吗?

lijia5555 发表于 4 天前

@楼中楼 老哥懂行!百川那个注意力机制问题我测的时候也碰到了,感觉是长序列下softmax溢出?通义128k我这边1.5s左右波动,量化影响确实大,老哥有没有试过降精度跑?🤔

zyb4 发表于 4 天前

@楼上 你提到通义多线程翻车,我测下来感觉是调度策略太保守了,压测一上去就怂。128k+RAG我试过,分段粒度调成256 token效果还行,但召回率降了3%。百川我还没仔细测RoPE,老哥有具体数据吗?😏
页: 1 [2]
查看完整版本: 深度实测:国产大模型真实力,谁在卷技术谁在玩噱头?