REDDIT LOCALLLAMA · 2026年6月11日 · 重点
Google DeepMind的DiffusionGemma 26B A4B IT是一个开放权重的多模态模型,使用离散扩散从文本、图像和视频输入生成文本。该模型总参数25.2B,激活参数3.8B(MoE),支持256K上下文窗口,在NVIDIA H100 GPU上生成速度超过1100 tokens/秒。NVIDIA通过Model Optimizer将其量化为NVFP4精度,并发布在Hugging Face上,可用于商业和非商业用途。该模型还具备可配置的思考模式、原生函数调用和35+语言的多语言推理能力。
REDDIT LOCALLLAMA · 2026年6月11日
AMD 强调其统一内存架构(UMA)将影响未来芯片路线图,并具体提到了锐龙 AI MAX 400 系列(即此前的 Gorgon Halo 系统)作为采用 UMA 的产品。该 Reddit 帖子链接了一篇 Wccftech 文章以及社区早前关于 UMA 在本地 AI 应用的讨论。帖子未提供具体技术参数或发布日期。
REDDIT LOCALLLAMA · 2026年6月10日
一名用户尝试对谷歌新发布的设备端听写应用Eloquent进行基准测试,发现约一半的听写内容会被丢弃,返回的文本严重缺失。在50次测试中,仅15次获得完整转录,词错误率约24%,与Qwen3-ASR的21%相近。多数情况下,一段20多词的音频仅转录出5-10个词。用户怀疑底层的对话式AI模型有时会拒绝转录并回复道歉,这一现象在直接使用Gemma 3n模型时同样出现,表明基于对话模型的听写方式存在根本性可用性问题。
REDDIT LOCALLLAMA · 2026年6月10日
苹果发布了Core AI,一套本地、私密、免费的设备端AI模型和工具,并在GitHub上提供模型和基准测试。同时,微软推出了搭载Nvidia RTX Spark芯片的Surface Laptop Ultra,主打本地优先AI。这些发布凸显了行业向设备端AI处理转变的重大趋势,减少对云服务的依赖。Reddit上的一篇讨论指出,股市尚未对这一同步发布的战略影响做出定价。
REDDIT LOCALLLAMA · 2026年6月9日 · 重点
苹果在WWDC上发布了CoreAI,作为CoreML的未来替代品,专为iPhone、iPad等苹果芯片设备优化端侧推理。CoreAI支持比CoreML更大的模型,苹果展示了可在设备上部署的200亿参数惰性加载混合专家模型。支持的模型列表已在GitHub公布,目前仅限2025年中期的模型,需通过Python脚本转换权重。此举暗示对Apple Neural Engine操作进行了重大更新,但尚未公布性能数据。CoreAI成为MLX、llama.cpp和PyTorch的端侧部署替代方案。
REDDIT LOCALLLAMA · 2026年6月9日
一个名为 Quasar-Preview 的新语言模型由 silx-ai 在 Hugging Face 发布。该发布声称支持最高 500 万 token 的上下文长度。来源中没有提供关于架构、训练或评估的更多细节。它被描述为一个预览版本。