AI 信息流

GITHUB2026年6月17日

llama.cpp b9692 发布：llava_uhd 不再使用批次维度

在 llama.cpp 的 b9692 版本中，多模态视觉编码器的 llava_uhd 组件不再使用批次维度。该更改通过取消 llava_uhd 处理中的批次维度使用，解决了 #24732 号问题。该版本包含多种操作系统和后端的构建状态，但核心变更是批次维度的移除。该修复可能简化了视觉编码，并避免了批处理中的潜在错误。

MEDIUM LARGE LANGUAGE MODELS2026年6月17日

从传统语言模型到实时口语智能

可访问的内容片段表明，文章讨论从传统语言模型向实时口语对话系统的转变。第一部分标题为“从传统语言模型到实时口语智能”。可获取的内容中没有提供进一步的细节、工具或结果。

INFOQ CN2026年6月17日

2026美图影像节开幕，RoboNeo打造“日更级AI短剧团队”

2026年6月17日，2026美图影像节开幕。美图旗下RoboNeo推出了“日更级AI短剧团队”方案，旨在利用AI加速短剧制作，实现高频内容更新。该简短公告未披露更多技术细节或具体产品信息。

MEDIUM LARGE LANGUAGE MODELS2026年6月17日

DeepSeek-V4 无法阅读图像？我让它做到了

一篇简短教程声称无需等待官方多模态版本，即可让纯文本的 DeepSeek-V4 模型具备解读图像的能力。现有片段未提供方法细节，完整内容需跳转 Medium 阅读。

V2EX2026年6月17日

V2EX用户零基础求VLA学习路线

一名零基础的V2EX用户询问视觉-语言-动作（VLA）模型的学习路线和资料，目标是在一个多月内深入了解，并能在AI辅助下完成真实项目。该帖直接向社区大佬请求指导。

ITHOME2026年6月17日重点

阿里云推出世界模型 HappyOyster 1.0：一句话生成可实时交互、可探索的数字世界

阿里云发布了开放世界模型HappyOyster 1.0，可通过一句话生成完整的可交互数字世界。该模型深度学习物理状态转移规律，能主动推演动作到反馈的因果链，并保持角色与环境的长程一致性。它基于原生多模态架构，支持多模态输入与音视频实时联合生成，生成过程中可持续响应用户指令。官网提供两种玩法：实时导演（可随时叫停并改写剧情）和世界探索（用键盘控制角色移动、攻击、跳跃，漫游极光冰原、深海等场景）。产品已于2025年4月16日开放内测，至7月17日每日登录可领取体验积分。

过滤噪音，保留 AI 信号。