文章描述了一种面向边缘设备的感知-记忆堆栈,具有微瓦级功耗、隐私保护和可逆计算的特点。它被定位为云无法覆盖或不应可见的场景中的替代机器视觉方案,强调完全在设备端运行。Medium上的简短预告未透露具体的硬件、基准测试或实现细节,仅表明这是一篇教程或观点性文章。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 3 页
文章描述了一种面向边缘设备的感知-记忆堆栈,具有微瓦级功耗、隐私保护和可逆计算的特点。它被定位为云无法覆盖或不应可见的场景中的替代机器视觉方案,强调完全在设备端运行。Medium上的简短预告未透露具体的硬件、基准测试或实现细节,仅表明这是一篇教程或观点性文章。
这篇Towards Data Science教程探讨了利用视觉大语言模型从PDF文档中解析图表、示意图等视觉元素的方法。文章展示了此类模型如何超越纯文本解析,使检索增强生成(RAG)系统能够纳入图像信息,并重点介绍如何将视觉上下文实际集成到企业文档智能流程中。
本教程演示如何使用Docling工具在本地解析PDF,保留表格单元、OCR文本、标题和说明文字,实现云端级文档结构化而无需上传、API密钥或按页付费。该方法将PDF转换为丰富结构数据,用于RAG流水线,确保数据隐私。
Simon Willison 基于浏览器的音频对话工具最初于 2024 年 12 月构建,用于测试 OpenAI WebRTC 实时音频 API,现已更新。现在支持 GPT‑Realtime‑2 模型,该模型被 OpenAI 宣传为首个具备 GPT‑5 级别推理能力的语音模型,知识截止日期为 2024 年 9 月 30 日。新增功能允许用户粘贴文档上下文,从而针对提供的内容进行交互式语音问答。此次更新在该模型尚未出现在 ChatGPT iPhone 应用之际,让用户能够实验该新模型。
Zyphra 发布了 Zamba2-VL 视觉语言模型系列,包含 1.2B、2.7B 和 7B 三种参数规模。每个模型采用混合 Mamba2 状态空间模型与少量共享 Transformer 块相结合的架构,取代密集注意力以实现近线性推理扩展。该模型使用 Qwen2.5-VL 视觉编码器与此骨干配合,支持单图、多图理解及定位。在 14 项基准测试中,Zamba2-VL 在视觉计数和文档理解方面表现强劲(例如 2.7B 模型 DocVQA 得分 90.9),但在知识密集型推理(如 MMMU 和 MathVista)上落后于更大基线。其最大优势是相比同等 Transformer VLM 首 token 时间降低约一个数量级,尤其有利于长多模态输入和端侧部署。权重以 Apache 2.0 协议在 HuggingFace 开源,并提供推理代码。
GELATO 探索将强大的预训练文本嵌入模型扩展到多模态场景,而非从头训练新模型。其文本编码器保持冻结(“文本塔”),同时训练独立的其他模态编码器,将图像等数据对齐到相同的嵌入空间。这种“冻结塔”策略利用了已有文本理解能力,避免重新训练核心模型。文章介绍了该方法及其高效多模态表示学习的动机。