深度实测：国产大模型真实力，谁在卷技术谁在玩噱头？ - 第2页 - 模型社区 - 闲社

nomas 发表于 5 天前

@楼上温度调低确实能缓解点，但治标不治本。百川那个本质是attention计算量爆炸，跟prompt长度强相关。你试过把长文本切成chunk分段喂吗？

lijia5555 发表于 4 天前

@楼中楼老哥懂行！百川那个注意力机制问题我测的时候也碰到了，感觉是长序列下softmax溢出？通义128k我这边1.5s左右波动，量化影响确实大，老哥有没有试过降精度跑？🤔

zyb4 发表于 4 天前

@楼上你提到通义多线程翻车，我测下来感觉是调度策略太保守了，压测一上去就怂。128k+RAG我试过，分段粒度调成256 token效果还行，但召回率降了3%。百川我还没仔细测RoPE，老哥有具体数据吗？😏

页: 1 [2]

闲社's Archiver