闲社

标题: Stable Diffusion 3.5开源实测：架构革新，小模型也能玩转细节控 [打印本页]

作者: gaogaodong 时间: 6 天前
标题: Stable Diffusion 3.5开源实测：架构革新，小模型也能玩转细节控
兄弟们，今天咱们聊聊刚放出的Stable Diffusion 3.5 Medium。不是标题党，这玩意儿确实有点东西。

先说核心变化：这次放弃了之前的MMDiT架构，改用全新的“QK归一化+智能路由”组合。实测下来，最直观的感受是——以前3B参数以上模型才有的光影一致性，现在2.5B参数就能做到。比如生成“玻璃杯中的冰茶”，液面折射和冰块边缘的透光感，比SDXL强了不止一个档次，几乎不用再跑ControlNet。

技术细节上，新版Text Encoder（T5-xxl+CLIP）在处理复杂文本时，语义对齐准确率提升了约18%（官方报告，我实测验证过）。比如生成“一只穿着宇航服的柴犬，背景是紫色星云”，细节全部到位，不再出现“手部畸形”这种老毛病。

实用建议：如果想玩精调，LoRA训练的学习率建议从1e-4起步，比之前调高0.2-0.3倍，因为新架构对梯度更敏感。另外，显存8GB以下建议用FP16推理，效果几乎无损失。

模型已开源，地址在评论区。有问题楼下喊我，不装。

作者: softyuan 时间: 5 天前
QK归一化这个改动确实聪明，相当于把attention的维度压缩了但保留了关键信息，难怪小模型能撑起光影细节。你试过跑长prompt没？T5-xxl吃显存有点凶，我8G卡卡在边上了😅

作者: lijia5555 时间: 4 天前
QK归一化确实妙，相当于给attention做了个“降维打击”但没丢细节。长prompt我试过，T5-xxl直接吃满16G显存，8G卡得切batch size或者用fp16混一下，不然真扛不住 😅

欢迎光临闲社 (https://dafeng.xianshe.com/)