商汤预览SenseNova-U1 Pro:原生8K输出,跨5种场景直接对标GPT-Image-2
商汤预览了下一代多模态模型SenseNova-U1 Pro,宣称支持原生8K分辨率输出(对比GPT-Image-2的原生4K)。该模型采用统一的“理解-生成-行动”架构,瞄准专业设计工作流。直接对比显示U1 Pro在信息图、长卷画布局、杂志跨页、学术海报和高分辨率分镜故事板共5个场景中优于GPT-Image-2。该模型还端到端生成了整场股东会20余页的PPT。邀约测试将于2026年7月启动。
商汤预览了下一代多模态模型SenseNova-U1 Pro,宣称支持原生8K分辨率输出(对比GPT-Image-2的原生4K)。该模型采用统一的“理解-生成-行动”架构,瞄准专业设计工作流。直接对比显示U1 Pro在信息图、长卷画布局、杂志跨页、学术海报和高分辨率分镜故事板共5个场景中优于GPT-Image-2。该模型还端到端生成了整场股东会20余页的PPT。邀约测试将于2026年7月启动。
一位用户发现一种方法,通过让语言模型从零开始重建每一帧的完整语义状态,而非依赖IPAdapter或角色LoRAs等图像记忆,生成几乎无限张高分辨率且角色一致性的图像。该工作流将整个故事写成单条提示,包含详细的角色设定和场景描述;一个Qwen VLM节点拆分故事,为每个面板完全重写每个角色的描述,再送入Krea 2。结果出人意料地保持了一致性,无需任何参考图像或参考图技巧。该方法在Krea 2上效果良好,可能也适用于其他强模型,完整的ComfyUI工作流已公开,供他人在Flux、HiDream或Seedream上尝试。
(Deno) Local LLM Loader 是一款新的 ComfyUI 节点,可将本地大语言模型(Ollama、LM Studio、llama.cpp、vLLM 或任何 OpenAI 兼容的本地服务)直接接入图像生成工作流。它支持将简短想法扩展为详细提示词、借助视觉模型从图像生成或审查提示词,以及串联多个 LLM 步骤(如草稿→审阅→最终整理)。配套的 (Deno) Local LLM Reviewer 节点能根据审阅文本通过或阻断图像输出,从而在 ComfyUI 内实现迭代优化。该节点以本地优先为设计理念,无需远程 API 密钥,并在提示链运行时保持模型加载。节点可通过 ComfyUI Manager 搜索“Deno Custom Nodes”安装,代码托管在 GitHub。
一位Reddit用户重新分享了生成2x2(四格)电影故事板的工作流,该工作流使用Krea2 Turbo生成图像,并用Gemma 4 12B进行提示词工程。工作流包含一个LM Studio节点,通过精心设计的系统提示让Gemma为Krea2生成高度详细的提示词。Krea2 Turbo目前难以处理较大网格,常产生不对称的面板,因此用户正在开发自定义节点来解决此问题,但尚未包含在内。生成故事板只需提供简单场景描述,帖中给出了奇幻儿童电影和黑客场景等示例。工作流文件通过Google Drive提供。
研究人员提出弹性扩散Transformer(E-DiT),一个利用样本相关稀疏性自适应加速扩散Transformer的框架。每个DiT模块配备轻量路由器,动态决定是否跳过该模块或缩减其MLP宽度,并引入无需训练的模块级特征缓存机制进一步消除冗余计算。在Qwen-Image、FLUX和Hunyuan3D-3.0上的实验实现了近2倍加速,质量损失可忽略不计。论文与代码已公开。