Loading / 加载中

AI 信息流

Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

10 条内容

REDDIT LOCALLLAMA2026年6月11日重点

NVIDIA发布NVFP4量化版DiffusionGemma 26B A4B IT模型

Google DeepMind的DiffusionGemma 26B A4B IT是一个开放权重的多模态模型，使用离散扩散从文本、图像和视频输入生成文本。该模型总参数25.2B，激活参数3.8B（MoE），支持256K上下文窗口，在NVIDIA H100 GPU上生成速度超过1100 tokens/秒。NVIDIA通过Model Optimizer将其量化为NVFP4精度，并发布在Hugging Face上，可用于商业和非商业用途。该模型还具备可配置的思考模式、原生函数调用和35+语言的多语言推理能力。

REDDIT LOCALLLAMA2026年6月11日

AMD 推广统一内存架构，提及锐龙 AI MAX 400（Gorgon Halo）系列

AMD 强调其统一内存架构（UMA）将影响未来芯片路线图，并具体提到了锐龙 AI MAX 400 系列（即此前的 Gorgon Halo 系统）作为采用 UMA 的产品。该 Reddit 帖子链接了一篇 Wccftech 文章以及社区早前关于 UMA 在本地 AI 应用的讨论。帖子未提供具体技术参数或发布日期。

REDDIT LOCALLLAMA2026年6月10日

谷歌新的设备端听写应用Eloquen音频转录失效严重，基准测试显示半数听写丢失

一名用户尝试对谷歌新发布的设备端听写应用Eloquent进行基准测试，发现约一半的听写内容会被丢弃，返回的文本严重缺失。在50次测试中，仅15次获得完整转录，词错误率约24%，与Qwen3-ASR的21%相近。多数情况下，一段20多词的音频仅转录出5-10个词。用户怀疑底层的对话式AI模型有时会拒绝转录并回复道歉，这一现象在直接使用Gemma 3n模型时同样出现，表明基于对话模型的听写方式存在根本性可用性问题。

REDDIT LOCALLLAMA2026年6月10日

苹果发布Core AI，微软推出Surface Laptop Ultra主推本地AI，股市尚未反应

苹果发布了Core AI，一套本地、私密、免费的设备端AI模型和工具，并在GitHub上提供模型和基准测试。同时，微软推出了搭载Nvidia RTX Spark芯片的Surface Laptop Ultra，主打本地优先AI。这些发布凸显了行业向设备端AI处理转变的重大趋势，减少对云服务的依赖。Reddit上的一篇讨论指出，股市尚未对这一同步发布的战略影响做出定价。

REDDIT LOCALLLAMA2026年6月9日重点

苹果在WWDC发布CoreAI端侧推理引擎，面向苹果芯片支持更大规模模型

苹果在WWDC上发布了CoreAI，作为CoreML的未来替代品，专为iPhone、iPad等苹果芯片设备优化端侧推理。CoreAI支持比CoreML更大的模型，苹果展示了可在设备上部署的200亿参数惰性加载混合专家模型。支持的模型列表已在GitHub公布，目前仅限2025年中期的模型，需通过Python脚本转换权重。此举暗示对Apple Neural Engine操作进行了重大更新，但尚未公布性能数据。CoreAI成为MLX、llama.cpp和PyTorch的端侧部署替代方案。

REDDIT LOCALLLAMA2026年6月9日

silx-ai/Quasar-Preview 模型在 Hugging Face 发布，支持 500 万 Token 上下文

一个名为 Quasar-Preview 的新语言模型由 silx-ai 在 Hugging Face 发布。该发布声称支持最高 500 万 token 的上下文长度。来源中没有提供关于架构、训练或评估的更多细节。它被描述为一个预览版本。