AI 信息流

HUGGINGFACE2026年7月2日重点

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

WorldDirector 是一个可控的视频世界模型框架，首次明确将语义运动编排与视觉生成过程解耦。它利用大语言模型协调三维物体轨迹与相机运动，并将这些编排好的轨迹作为视频生成的控制信号。这样的设计保证了严格的物理一致性和外观稳定性，并实现持久的动态物体记忆——即使物体长时间离开视野后再次进入场景，其精确的视觉身份也能得以保留。该框架支持不受限制的视角探索，能够合成高可控性的复杂、长时间事件。

HUGGINGFACE2026年7月2日

AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

AnyGroundBench是一个新的基准，用于评估视觉语言模型在时空视频定位（STVG）中的表现，将评估范式从零样本测试转向严格的领域适应。它涵盖五个专业领域：动物、工业、体育、手术和公共安全，使用新采集的视频和现有数据集，并带有密集的时空标注。基准提供了专门的训练子集，以系统地衡量领域适应能力。对15个最先进的VLM的评估表明，所有模型在零样本和上下文学习方式下都无法适应，暴露了其时空推理能力的关键缺陷。

HUGGINGFACE2026年7月1日重点

Discrete Diffusion Language Models for Interactive Radiology Report Drafting

该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域，并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分，扩散模型匹配或超越了自回归性能，且解码速度加快3.5-4.4倍。微调后的模型（激活参数3.8B）与前沿视觉语言模型竞争激烈。更重要的是，扩散范式支持任意顺序的文本填充：放射科医生可修正报告片段，模型能生成夹在中间的文字，这一能力是自回归模型难以提供的，适合风格与完整度不一致的真实放射学报告。

HUGGINGFACE2026年7月1日重点

Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

本文提出非对称互变分学习（AMVL）框架，解决多模态大语言模型连续潜在推理中的训练-推理不匹配问题。标准变分训练迫使推理时先验模仿以真实答案为条件的后验，导致答案泄露。AMVL利用正向KL散度使先验逼近后验，并通过新颖的反向KL散度正则化后验，防止其坍缩到推理不兼容区域。该方法集成到潜在增强的多模态大语言模型中，在BLINK基准上将平均得分提升+10.83，个别推理任务最高提升+32.00，分析证实了潜在空间稳定性的改善。

HUGGINGFACE2026年7月1日重点

Perceive-to-Reason: Decoupling Perception and Reasoning for Fine-Grained Visual Reasoning

该论文提出 Perceive-to-Reason (P2R) 框架，将细粒度视觉推理解耦为两阶段：感知器定位与问题相关的图像证据，推理器基于标注图像和裁剪区域回答问题。同时引入感知-推理交替 GRPO (PRA-GRPO)，一种角色感知的强化学习策略，仅使用最终答案监督，交替进行感知和推理训练更新。基于 Qwen3-VL-Instruct-2B/4B/8B 构建，P2R 在所有规模上均带来性能提升；P2R-4B 在 V-Star 上达 93.2%、HR-Bench-4K 上 81.9%、HR-Bench-8K 上 80.5%，大幅超越其基础模型。进一步实验表明，P2R 的优势从高分辨率基准拓展至更广泛的多模态推理任务。

HUGGINGFACE2026年7月1日重点

VideoSearch-R1: Iterative Video Retrieval and Reasoning via Soft Query Refinement

VideoSearch-R1 是一个智能体框架，通过与搜索引擎的多轮交互实现迭代视频检索与推理。它引入了软查询细化（SQR），在连续潜在空间中细化搜索查询 token，而非重写离散文本，从而实现更高效的调整。该框架使用群体相对策略优化（GRPO）进行训练，以来自检索和下游任务（如时间定位）的任务级奖励为指导。VideoSearch-R1 在三个视频语料库时刻检索（VCMR）数据集上达到了最优性能，能够从大规模语料库中迭代检索视频，并在检索到的内容内执行精确的查询条件时间定位。分析表明，SQR 能有效细化原始查询，且所需生成的 token 数明显少于显式文本级查询细化。代码和模型检查点已公开发布。

过滤噪音，保留 AI 信号。

WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

Discrete Diffusion Language Models for Interactive Radiology Report Drafting

Multimodal Continuous Reasoning via Asymmetric Mutual Variational Learning

Perceive-to-Reason: Decoupling Perception and Reasoning for Fine-Grained Visual Reasoning

VideoSearch-R1: Iterative Video Retrieval and Reasoning via Soft Query Refinement