<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
  <channel>
    <title>闲社 - 模型社区</title>
    <link>https://dafeng.xianshe.com/forum-9-1.html</link>
    <description>Latest 20 threads of 模型社区</description>
    <copyright>Copyright(C) 闲社</copyright>
    <generator>Discuz! Board by Discuz! Team</generator>
    <lastBuildDate>Wed, 10 Jun 2026 00:55:29 +0000</lastBuildDate>
    <ttl>60</ttl>
    <image>
      <url>https://dafeng.xianshe.com/static/image/common/logo_88_31.gif</url>
      <title>闲社</title>
      <link>https://dafeng.xianshe.com/</link>
    </image>
    <item>
      <title>蒸馏技术新突破：小模型也能吊打老师，四步实操指南</title>
      <link>https://dafeng.xianshe.com/thread-37394-1-1.html</link>
      <description><![CDATA[最近社区里关于模型蒸馏的讨论又热起来了，几篇新论文和开源项目让这项技术更接地气。简单说，蒸馏就是让一个“老师”大模型（如Llama 3 70B）教一个“学生”小模型（如7B），把知识压缩进去，让小模型在推理时更高效，甚至在某些任务上反超老师。

**为什么现在值得关 ...]]></description>
      <category>模型社区</category>
      <author>AD位招租</author>
      <pubDate>Tue, 09 Jun 2026 13:02:22 +0000</pubDate>
    </item>
    <item>
      <title>Meta Llama 3 实测：400B参数未开源，但8B版训练技巧已让社区沸腾</title>
      <link>https://dafeng.xianshe.com/thread-37393-1-1.html</link>
      <description><![CDATA[大家好，今天聊一个“虽迟但到”的消息。Meta 刚放出了 Llama 3 的技术报告（arXiv:2407.21783），虽然400B参数的“大家伙”还在训练中，但已经开源的 8B 和 70B 版本，其训练细节值得深挖。

**技术亮点一：数据清洗是关键**
Llama 3 在15T token上训练，但Meta花了大 ...]]></description>
      <category>模型社区</category>
      <author>AD位招租</author>
      <pubDate>Tue, 09 Jun 2026 13:01:52 +0000</pubDate>
    </item>
    <item>
      <title>Cline v3.0实测：MCP协议让AI编程助手“长出四肢”</title>
      <link>https://dafeng.xianshe.com/thread-37392-1-1.html</link>
      <description><![CDATA[兄弟们，今天聊点干货。昨晚Claude Code的开源替代Cline发布了v3.0，最大改动是深度集成MCP协议——这玩意儿相当于给AI加了个“工具箱”，能直接读写文件、执行Shell、调API。实测下来，写个React组件从“生成代码”到“自动npm install并跑测试”一气呵成，中间0人工干 ...]]></description>
      <category>模型社区</category>
      <author>AD位招租</author>
      <pubDate>Tue, 09 Jun 2026 13:01:45 +0000</pubDate>
    </item>
    <item>
      <title>DeepSeek开源MoE训练框架，千亿级模型部署成本直降40%</title>
      <link>https://dafeng.xianshe.com/thread-37391-1-1.html</link>
      <description><![CDATA[兄弟们，今天必须聊聊DeepSeek刚开源的“DeepSeek-MoE-Training”框架。这玩意儿直接捅破了千亿参数模型训练的窗户纸，实测在A100集群上，用64卡就能训出671B混合专家模型，推理时只激活37B参数，单机8卡就能跑，显存占用从480GB降到280GB。

核心细节：框架用动态路由+ ...]]></description>
      <category>模型社区</category>
      <author>AD位招租</author>
      <pubDate>Tue, 09 Jun 2026 13:01:17 +0000</pubDate>
    </item>
    <item>
      <title>Qwen2.5-72B跑分实测：指令遵循飙升40%，单卡RTX 4090就能跑</title>
      <link>https://dafeng.xianshe.com/thread-37390-1-1.html</link>
      <description><![CDATA[兄弟们，今天聊点实在的。阿里通义千问团队昨晚刚放出了Qwen2.5-72B的完整评测报告，我第一时间扒了源码和跑分数据，有几个关键点值得关注。

首先是指令遵循能力。新版模型在MT-Bench基准上从8.6分涨到9.2分，提升接近7%。但更猛的是IFEval（指令遵循评测集）——精确 ...]]></description>
      <category>模型社区</category>
      <author>liuyanfeng</author>
      <pubDate>Tue, 09 Jun 2026 07:05:09 +0000</pubDate>
    </item>
    <item>
      <title>实测DeepSeek 2.5：性价比炸裂，长上下文推理完胜GPT-4 Turbo？</title>
      <link>https://dafeng.xianshe.com/thread-37389-1-1.html</link>
      <description><![CDATA[兄弟们，最近DeepSeek 2.5模型上线后，我压榨了三天，今天来交个硬核作业。先说结论：在代码生成和长文档处理上，这货绝对是“卷王”级别的存在。

**核心亮点**：128K上下文窗口不是虚的。我丢了一整本《Python机器学习》PDF（约200页）进去，让它提取第三章的SVM代码 ...]]></description>
      <category>模型社区</category>
      <author>liuyanfeng</author>
      <pubDate>Tue, 09 Jun 2026 07:04:39 +0000</pubDate>
    </item>
    <item>
      <title>vLLM 0.6 + Triton 实测：LLM推理吞吐提升3倍，显存省一半</title>
      <link>https://dafeng.xianshe.com/thread-37388-1-1.html</link>
      <description><![CDATA[兄弟们，今天聊聊AI基础设施实战。最近我折腾了vLLM 0.6.0和NVIDIA Triton Inference Server的集成部署，拿Llama 3.1-8B跑了一批压测，结果有点意思——连续批处理（Continuous Batching）配合PagedAttention v2，在A100 80GB上，吞吐从原本OpenAI API兼容方案的1200 to ...]]></description>
      <category>模型社区</category>
      <author>11111111qq</author>
      <pubDate>Tue, 09 Jun 2026 07:01:50 +0000</pubDate>
    </item>
    <item>
      <title>Anthropic提出“宪法分类器”：让模型在推理层面拒绝越狱，精度提升14倍</title>
      <link>https://dafeng.xianshe.com/thread-37387-1-1.html</link>
      <description><![CDATA[兄弟们，大模型越狱这事儿真是道高一尺魔高一丈。今天Anthropic放出了新武器——Constitutional Classifiers（宪法分类器），不是简单改prompt，而是直接对齐到模型的推理过程中。

传统安全方案多是训练一个“拒绝分类器”在输入/输出层做过滤，但容易被prompt注入、多 ...]]></description>
      <category>模型社区</category>
      <author>11111111qq</author>
      <pubDate>Tue, 09 Jun 2026 07:01:38 +0000</pubDate>
    </item>
    <item>
      <title>LoRA微调新进展：4bit量化下仅需1%显存，效果不输全量微调</title>
      <link>https://dafeng.xianshe.com/thread-37386-1-1.html</link>
      <description><![CDATA[兄弟们，今天聊聊模型微调领域的最新干货。最近Hugging Face和Unsloth团队联合放出了一波更新，把LoRA（Low-Rank Adaptation）的效率又推了一层。核心亮点是：在4bit量化（QLoRA）基础上，通过优化激活内存和梯度检查点，微调LLaMA-2 7B模型仅需不到8GB显存，而传统全量 ...]]></description>
      <category>模型社区</category>
      <author>11111111qq</author>
      <pubDate>Tue, 09 Jun 2026 07:01:19 +0000</pubDate>
    </item>
    <item>
      <title>DeepSeek-V2开源MoE模型实测：推理速度飙升3倍，显存砍半</title>
      <link>https://dafeng.xianshe.com/thread-37385-1-1.html</link>
      <description><![CDATA[兄弟们，今天聊个硬核的。DeepSeek刚放出了V2版本，这次不是画饼，实测数据很炸裂。

先说关键变化：从Dense架构全面转向MoE（混合专家）。236B总参数量，但每个token只激活21B，推理时显存占用直接砍到72GB（相比V1的140GB），这下单卡A100 80G也能跑起来了。

实测效 ...]]></description>
      <category>模型社区</category>
      <author>柯南君</author>
      <pubDate>Tue, 09 Jun 2026 01:03:25 +0000</pubDate>
    </item>
    <item>
      <title>三强争霸：Claude 3.5、GPT-4o、Gemini 1.5 Pro实测对比</title>
      <link>https://dafeng.xianshe.com/thread-37384-1-1.html</link>
      <description><![CDATA[兄弟们，今天来聊聊上周的“AI三巨头”暗战。Claude 3.5 Sonnet（最近更新到v2版）在代码生成上逆袭了——HumanEval得分92.3%，比GPT-4o的88.9%和Gemini 1.5 Pro的86.1%都高。具体到实战，我用它跑了个React钩子，Claude一次过，GPT-4o卡在一个状态管理bug上，Gemini则 ...]]></description>
      <category>模型社区</category>
      <author>柯南君</author>
      <pubDate>Tue, 09 Jun 2026 01:02:55 +0000</pubDate>
    </item>
    <item>
      <title>Stable Diffusion 3.5发布：架构大改，8B模型生成质量碾压DALL-E 3？</title>
      <link>https://dafeng.xianshe.com/thread-37383-1-1.html</link>
      <description><![CDATA[社区兄弟们，今天必须聊个重磅更新。Stability AI昨晚正式开源了Stable Diffusion 3.5（SD3.5）的8B参数版本，实测下来，这可能是目前最强开源生图模型。

核心干货来了：SD3.5的架构从之前的MMDiT换成了全新的DiT+MMViT，重点改进了文本理解。以前SD3容易把“红苹果旁 ...]]></description>
      <category>模型社区</category>
      <author>heno</author>
      <pubDate>Tue, 09 Jun 2026 01:01:48 +0000</pubDate>
    </item>
    <item>
      <title>LoRA微调再进化：QLoRA+低比特量化，4bit下性能损失不到1%</title>
      <link>https://dafeng.xianshe.com/thread-37382-1-1.html</link>
      <description><![CDATA[兄弟们，模型微调圈又有新动静了。最近社区里讨论最多的不是全量微调，而是LoRA的“轻量版”组合——QLoRA结合低比特量化。今天实测了一组数据，分享给大家。

先说结论：用4bit量化+LoRA微调Llama 2 7B，显存占用从16GB降到6GB，但在MMLU和HellaSwag上，性能仅下降0.8% ...]]></description>
      <category>模型社区</category>
      <author>heno</author>
      <pubDate>Tue, 09 Jun 2026 01:01:19 +0000</pubDate>
    </item>
    <item>
      <title>DeepSeek-Coder V2开源，代码生成模型进入“卷精度”时代</title>
      <link>https://dafeng.xianshe.com/thread-37381-1-1.html</link>
      <description><![CDATA[兄弟们，今天聊点干货。DeepSeek刚放出了Coder V2模型，代码生成赛道又卷起来了。这次升级不是简单的参数堆叠——236B总参量，但用的是MoE架构，实际推理时只激活21B，效率比同体量稠密模型高出一截。

重点是编程语言覆盖从之前的Python/Java等几种，扩展到了338种，包 ...]]></description>
      <category>模型社区</category>
      <author>juson</author>
      <pubDate>Mon, 08 Jun 2026 13:04:01 +0000</pubDate>
    </item>
    <item>
      <title>三巨头大乱斗：Claude、GPT、Gemini最新实测数据流出</title>
      <link>https://dafeng.xianshe.com/thread-37380-1-1.html</link>
      <description><![CDATA[大家好，今天聊聊Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro这几天的更新。我连夜跑了几组基准测试，有几点硬核发现。

先说代码能力。Claude 3.5在新版SWE-bench上刷到49.7%，比GPT-4o的38.8%高出近11个点，尤其擅长多文件重构和调试长代码——这方面Gemini 1.5 Pro的 ...]]></description>
      <category>模型社区</category>
      <author>juson</author>
      <pubDate>Mon, 08 Jun 2026 13:03:32 +0000</pubDate>
    </item>
    <item>
      <title>DeepMind最新研究：用“思维拓扑”代替Chain-of-Thought，Prompt工程进入新阶段</title>
      <link>https://dafeng.xianshe.com/thread-37379-1-1.html</link>
      <description><![CDATA[各位老铁，这两天DeepMind放了个重磅研究《Topological Prompting》，直接挑战了传统的Chain-of-Thought（CoT）逻辑。简单说，CoT是线性思维，一步接一步，但模型在处理复杂推理时容易“断链”——一旦某一步错了，后面全崩。而“思维拓扑”把推理路径变成一张图，节点 ...]]></description>
      <category>模型社区</category>
      <author>输给眼泪</author>
      <pubDate>Mon, 08 Jun 2026 13:01:51 +0000</pubDate>
    </item>
    <item>
      <title>开源模型选型指南：LLaMA 3、Mistral、Qwen 2谁更香？手把手算性价比</title>
      <link>https://dafeng.xianshe.com/thread-37378-1-1.html</link>
      <description><![CDATA[兄弟们，最近开源模型卷出新高度，Meta的LLaMA 3 8B、Mistral的Mixtral 8x7B、阿里的Qwen 2 72B，还有新出的DeepSeek-V2，到底该选哪个上生产？我实测了一周，直接说干货：

**1. 大模型不是越大越好，要看你的“算力钱包”**  
- LLaMA 3 8B：单卡A100 80G能跑，MQA架 ...]]></description>
      <category>模型社区</category>
      <author>输给眼泪</author>
      <pubDate>Mon, 08 Jun 2026 13:01:22 +0000</pubDate>
    </item>
    <item>
      <title>实测：Ollama+DeepSeek R1 7B本地部署，推理速度提升30%的配置秘籍</title>
      <link>https://dafeng.xianshe.com/thread-37377-1-1.html</link>
      <description><![CDATA[兄弟们，最近社区里不少人问DeepSeek R1这个7B参数模型本地部署的事儿。今天不废话，直接上干货，我跑了三天测试，分享点实用经验。

先说结论：用Ollama搭它，比用Hugging Face原生加载快30%左右，关键在于量化策略。网上默认的Ollama命令会拉取Q4_K_M量化版本，但实测 ...]]></description>
      <category>模型社区</category>
      <author>eqjit</author>
      <pubDate>Mon, 08 Jun 2026 07:02:08 +0000</pubDate>
    </item>
    <item>
      <title>DeepSeek-Coder-V2开源：代码生成模型新标杆，性能直逼GPT-4</title>
      <link>https://dafeng.xianshe.com/thread-37376-1-1.html</link>
      <description><![CDATA[刚逛完HuggingFace，发现DeepSeek-Coder-V2正式开源了，没搞什么内测邀约，直接放出了完整权重和商用许可。这波操作挺实在，值得细聊几个技术点。

先说数据：236B参数，但用的是MoE架构，实际推理时激活参数只有21B。这意味着你租个A100 80G单卡就能跑推理，显存占用约 ...]]></description>
      <category>模型社区</category>
      <author>eqjit</author>
      <pubDate>Mon, 08 Jun 2026 07:02:01 +0000</pubDate>
    </item>
    <item>
      <title>DeepSeek发布新研究：动态Prompt压缩技术，生成效率暴涨37%</title>
      <link>https://dafeng.xianshe.com/thread-37375-1-1.html</link>
      <description><![CDATA[兄弟们，今天在ArXiv上刷到一篇DeepSeek的硬核论文，讲的是动态Prompt压缩技术——直接让长上下文场景下的生成效率提升37%，延迟降低近一半。

具体来说，传统Prompt工程往往依赖手工调整，或者用固定的压缩策略。但这篇研究提出了一种基于“Token重要性评估”的动态压 ...]]></description>
      <category>模型社区</category>
      <author>eqjit</author>
      <pubDate>Mon, 08 Jun 2026 07:01:38 +0000</pubDate>
    </item>
  </channel>
</rss>