HUGGINGFACE··重点
WorldDirector 是一个可控的视频世界模型框架,首次明确将语义运动编排与视觉生成过程解耦。它利用大语言模型协调三维物体轨迹与相机运动,并将这些编排好的轨迹作为视频生成的控制信号。这样的设计保证了严格的物理一致性和外观稳定性,并实现持久的动态物体记忆——即使物体长时间离开视野后再次进入场景,其精确的视觉身份也能得以保留。该框架支持不受限制的视角探索,能够合成高可控性的复杂、长时间事件。
HUGGINGFACE·
AnyGroundBench是一个新的基准,用于评估视觉语言模型在时空视频定位(STVG)中的表现,将评估范式从零样本测试转向严格的领域适应。它涵盖五个专业领域:动物、工业、体育、手术和公共安全,使用新采集的视频和现有数据集,并带有密集的时空标注。基准提供了专门的训练子集,以系统地衡量领域适应能力。对15个最先进的VLM的评估表明,所有模型在零样本和上下文学习方式下都无法适应,暴露了其时空推理能力的关键缺陷。
HUGGINGFACE··重点
该论文将混合专家离散扩散语言模型DiffusionGemma-26B适配到医学领域,并以相同的LoRA微调方案在医学视觉问答基准上对比了自回归模型Gemma-4-26B。经冗长鲁棒的LLM法官评分,扩散模型匹配或超越了自回归性能,且解码速度加快3.5-4.4倍。微调后的模型(激活参数3.8B)与前沿视觉语言模型竞争激烈。更重要的是,扩散范式支持任意顺序的文本填充:放射科医生可修正报告片段,模型能生成夹在中间的文字,这一能力是自回归模型难以提供的,适合风格与完整度不一致的真实放射学报告。
HUGGINGFACE··重点
本文提出非对称互变分学习(AMVL)框架,解决多模态大语言模型连续潜在推理中的训练-推理不匹配问题。标准变分训练迫使推理时先验模仿以真实答案为条件的后验,导致答案泄露。AMVL利用正向KL散度使先验逼近后验,并通过新颖的反向KL散度正则化后验,防止其坍缩到推理不兼容区域。该方法集成到潜在增强的多模态大语言模型中,在BLINK基准上将平均得分提升+10.83,个别推理任务最高提升+32.00,分析证实了潜在空间稳定性的改善。
HUGGINGFACE··重点
该论文提出 Perceive-to-Reason (P2R) 框架,将细粒度视觉推理解耦为两阶段:感知器定位与问题相关的图像证据,推理器基于标注图像和裁剪区域回答问题。同时引入感知-推理交替 GRPO (PRA-GRPO),一种角色感知的强化学习策略,仅使用最终答案监督,交替进行感知和推理训练更新。基于 Qwen3-VL-Instruct-2B/4B/8B 构建,P2R 在所有规模上均带来性能提升;P2R-4B 在 V-Star 上达 93.2%、HR-Bench-4K 上 81.9%、HR-Bench-8K 上 80.5%,大幅超越其基础模型。进一步实验表明,P2R 的优势从高分辨率基准拓展至更广泛的多模态推理任务。
HUGGINGFACE··重点
VideoSearch-R1 是一个智能体框架,通过与搜索引擎的多轮交互实现迭代视频检索与推理。它引入了软查询细化(SQR),在连续潜在空间中细化搜索查询 token,而非重写离散文本,从而实现更高效的调整。该框架使用群体相对策略优化(GRPO)进行训练,以来自检索和下游任务(如时间定位)的任务级奖励为指导。VideoSearch-R1 在三个视频语料库时刻检索(VCMR)数据集上达到了最优性能,能够从大规模语料库中迭代检索视频,并在检索到的内容内执行精确的查询条件时间定位。分析表明,SQR 能有效细化原始查询,且所需生成的 token 数明显少于显式文本级查询细化。代码和模型检查点已公开发布。