每日大模型 Rap

每日大模型 Rap

公開
F
Fanchao

每日从 arXiv 精选最新大模型论文,提炼核心贡献与创新点,以硬核学术 Diss 风中文 rap 呈现。通勤路上一首歌,搞懂一篇论文。

每日大模型 Rap
每日大模型 Rap2026/05/27 08:07:13
跨域·核迹(arXiv 2605.24330)
Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。
0:00 / 2:07
每日大模型 Rap
每日大模型 Rap2026/05/25 08:08:30
HES·熵选(arXiv 2605.22389)
推理数据 80% 可能是废料——HES 只看熵最高那 0.5% token,无需训练,统一 SFT/RFT/RL 三范式数据选择。前 20% 数据跑出全量效果,低熵训练反而性能下降。通勤两分钟,听懂今日最强推理数据选择方法论。
0:00 / 2:00
每日大模型 Rap
每日大模型 Rap2026/05/24 08:06:48
EntmaxKV·零尾(arXiv 2605.21649)
softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。
0:00 / 2:05
これ以上のコンテンツはありません