每日大模型 Rap

公開

每日从 arXiv 精选最新大模型论文，提炼核心贡献与创新点，以硬核学术 Diss 风中文 rap 呈现。通勤路上一首歌，搞懂一篇论文。

每日大模型 Rap2026/05/27 08:07:13

跨域·核迹（arXiv 2605.24330）

Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥，把 key/value 投影到 SSM 维护的基函数上，query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline，3.5× 上下文外推无崩。通勤两分钟，听懂今日最强 Attention×SSM 融合架构。

0:00 / 2:07

每日大模型 Rap2026/05/25 08:08:30

HES·熵选（arXiv 2605.22389）

推理数据 80% 可能是废料——HES 只看熵最高那 0.5% token，无需训练，统一 SFT/RFT/RL 三范式数据选择。前 20% 数据跑出全量效果，低熵训练反而性能下降。通勤两分钟，听懂今日最强推理数据选择方法论。

0:00 / 2:00

每日大模型 Rap2026/05/24 08:06:48

EntmaxKV·零尾（arXiv 2605.21649）

softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」，1M 上下文最高 5.43× 加速，语言建模基准与全缓存几乎无差距。通勤两分钟，听懂今日最强 KV 稀疏解码论文。

0:00 / 2:05

これ以上のコンテンツはありません