AI 信息流

HUGGINGFACE2026年7月1日重点

Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

本文提出非对称互变分学习（AMVL）框架，解决多模态大语言模型连续潜在推理中的训练-推理不匹配问题。标准变分训练迫使推理时先验模仿以真实答案为条件的后验，导致答案泄露。AMVL利用正向KL散度使先验逼近后验，并通过新颖的反向KL散度正则化后验，防止其坍缩到推理不兼容区域。该方法集成到潜在增强的多模态大语言模型中，在BLINK基准上将平均得分提升+10.83，个别推理任务最高提升+32.00，分析证实了潜在空间稳定性的改善。

HUGGINGFACE2026年7月1日重点

ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

ELDR 是一种面向预填-解码分离式混合专家模型服务的解码路由器，解决了因每批次不同的专家激活模式导致的延迟差异问题。它根据请求的预填激活构建专家签名，预测生成阶段将要激活的专家，然后通过离线平衡 K-means 将签名空间划分到解码节点上，并采用在线局部性带宽策略将请求路由到与其签名最匹配且负载最低的节点。签名缓存以 KV 块粒度与 KV 缓存协同索引，保证了前缀缓存下的精确签名。在 vLLM 中实现并在最多 40 块 GPU 上对三个混合专家模型和两种工作负载进行了评估，ELDR 将中位单 Token 生成时间 (TPOT) 比四种负载均衡基线中最优者降低了 5.9% 至 13.9%，且模型输出保持不变。

HUGGINGFACE2026年7月1日重点

Nvidia 发布基于 NVFP4 量化的 Mistral-Medium-3.5-128B 模型

Nvidia 在 Hugging Face 上发布了 Mistral-Medium-3.5-128B 大语言模型的量化版本。该模型采用 NVFP4 4 位浮点精度格式，旨在减小内存占用并可能加速推理。它被标注为适用于对话和文本生成任务，并以 safetensors 格式提供。仓库信息表明此模型基于 Mistral AI 的原始 Mistral-Medium-3.5-128B，并以自定义许可证发布。

HUGGINGFACE2026年6月30日重点

SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE

该论文提出 SpheRoPE，一种零样本、无需训练和优化的框架，通过将球面先验直接注入预训练扩散变换器来生成360°全景图像和视频。Spherical RoPE 替代了标准旋转位置嵌入：低频通道被重新参数化为三维笛卡尔坐标以原生编码球面流形，高频通道则通过谐波量化强制严格周期性。附加的语义畸变无分类器引导（CFG）显式引导几何结构。该方法在 Flux.1、Flux.2 和 LTX-Video 等骨干网络上实现文本到全景生成，在不进行任何微调或推理时优化的情况下取得竞争性能。

HUGGINGFACE2026年6月30日

Multi-Block Diffusion Language Models

该论文提出多块扩散语言模型（MBD-LMs），将块扩散语言模型扩展为并行解码多个连续块，以实现块间并行。为弥合训练与多块推理的差距，提出多块教师强制（MultiTF），在干净前缀条件下训练有限噪声组，并采用随机噪声调度。Block Buffer解码算法保留了KV缓存复用和静态输入形状，将增加的并行性转化为实际加速。在MBD-LLaDA2-Mini上，平均每次前向生成令牌数从3.47提升到6.19，准确率从79.95%升至81.03%。结合DMax后，TPF达到9.34，仅在数学和代码基准上准确率下降1.02%。

HUGGINGFACE2026年6月30日

Jackrong 发布 Qwopus3.6-35B-A3B-Coder 模型的 GGUF 量化版本

Jackrong 在 Hugging Face 上传了 Qwopus3.6-35B-A3B-Coder 模型的 GGUF 量化文件。该基础模型是基於 Qwen3.6 的多模态混合专家模型，专为编码、工具调用和函数调用设计，支持图像-文本到文本的流水线。此 GGUF 版本可使用 llama.cpp 进行高效本地推理。仓库采用 Apache 2.0 许可证发布。发布时该文件获 62 个点赞和 0 次下载，未提供性能基准测试。

过滤噪音，保留 AI 信号。

Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

Nvidia 发布基于 NVFP4 量化的 Mistral-Medium-3.5-128B 模型

SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE

Multi-Block Diffusion Language Models

Jackrong 发布 Qwopus3.6-35B-A3B-Coder 模型的 GGUF 量化版本