MARKTECHPOST··重点
Qwen 团队发布了 Qwen-RobotSuite,包含三款独立的具身 AI 基础模型。Qwen-RobotManip 基于 Qwen3.5-4B 构建,是一个视觉-语言-动作模型,可将异构操作数据对齐到统一的 80 维动作向量,在 RoboChallenge Table30-v1 上排名第一,并展现出强大的跨具身迁移能力。Qwen-RobotWorld 是一个语言条件的视频世界模型,采用 60 层双流 MMDiT 和冻结的 Qwen2.5-VL 编码器,在 EWMBench 和 DreamGen Bench 上均获总体第一。Qwen-RobotNav 是基于 Qwen3-VL 的可扩展导航模型,具有参数化观察接口,在 VLN-CE RxR 上达到 76.5% 成功率,并支持智能体规划。RobotManip 和 RobotNav 已在 GitHub 开源;RobotWorld 以论文形式发布。
MARKTECHPOST·
Nous Research 的开源个人代理 Hermes Agent 现在提供非阻塞的 async_delegation 工具集(GitHub issue #5586)。原先的 delegate_task 会让父聊天冻结直至所有子代理完成,现在补充了异步版本:delegate_task_async 立即返回 task_id,而 check_task、steer_task、collect_task、cancel_task 和 list_task 可管理后台运行。子代理依然严格隔离,各自拥有全新对话,仅最终摘要返回父级以保持上下文窗口精简。后台代理以进程内线程运行,复用相同的 AIAgent 机制、模型路由和凭证池;用户执行 `hermes update` 即可启用。
MARKTECHPOST·
开源框架 MetaGPT 背后的团队推出了 vibe coding 平台 Atoms,它使用一组 AI 智能体覆盖完整产品生命周期。智能体包括 Iris(深度研究员)、Emma(产品经理)、Bob(架构师)、Alex(工程师)、Sarah(SEO 专员)、Adrian(广告专员)、David(数据分析师)和 Mike(团队负责人),协同完成市场研究、需求定义、全栈开发、部署、SEO 和 Google Ads 广告活动管理。每个应用都配有 Atoms Cloud,提供内置身份验证、实时数据库、Stripe 支付、可扩展托管和一键部署。Race Mode 可同时用多个前沿模型运行提示词,将输出质量提升至多 3 倍;用户拥有完整代码所有权,可导出到 GitHub。Atoms 提供每天 15 个积分的免费套餐,Pro 套餐每月 20 美元起,通过将市场研究和增长工具融入构建流程,与 Lovable 和 Base44 形成差异化。
MARKTECHPOST··重点
谷歌云发布了开放知识格式(OKF)v0.1,这是一个开放的、供应商中立的规范,将LLM-wiki模式形式化为带有YAML前置内容的Markdown文件目录。OKF并非服务或平台,无需SDK、运行时或注册中心,一个包可在GitHub上渲染、作为tar包分发或挂载到任意文件系统。每个概念为一个Markdown文件,以路径为标识,前置内容中仅需一个必填字段(type);文件间的交叉链接形成知识图谱,代理可直接导航而无需转换。谷歌同时发布了参考工具:一个BigQuery增强代理、一个静态HTML可视化器和示例包。该格式针对分散的内部知识问题,让代理直接读取和编辑已管理的、版本化的上下文,有别于检索增强生成(RAG)。
MARKTECHPOST·
本教程展示了使用 Docling Parse 构建完整解析流水线的方法,从包含多元素(分栏、表格、矢量图形、嵌入图像)的测试 PDF 中提取词、字符、行及其页面坐标。包括环境配置、PDF 生成、结构化 JSON/CSV 导出、基于坐标重建布局感知阅读顺序、渲染单元覆盖图以及多线程解析性能测试。该流水线可支撑版面分析、表格提取及为检索增强生成(RAG)做数据准备等文档智能任务。
MARKTECHPOST·
内容加工暂时不可用。请通过原文链接查看该条目的完整信息。此降级结果用于保持加工契约兼容。