R LOCALLLAMA·
一位用户提出了一种实验范式,检验大型语言模型能否从其在Three.js任务上的优势中提取可复用的“过程脚手架”,并将其迁移至小模型,使其无需微调即可生成更深层的输出。该范式采用跨领域设计:大模型先在领域一(复杂场景)上生成脚手架,再将其应用到小模型的领域二任务(低多边形炮塔)中。一个不知情的第三方大模型作为盲审评委,对小模型在有无脚手架情况下的渲染图像进行评分,比较视觉质量和结构连贯性。该实验尚未执行;核心假设是,若添加脚手架的小模型在未见领域上的表现优于基线,则证明其具备可迁移的过程性知识。
R LOCALLLAMA··重点
一项公开评估让来自11个开发家族的55个LLM回答了198个人工编写的问题,随后模型之间进行盲审互评,排除自我评分后共获得22,254次判断。所有有足够数据的8个家族均显示出统计显著的同家族评分偏差:Qwen裁判对其他Qwen模型评分平均高出0.91分,而Mistral裁判对其他Mistral模型评分低出1.02分,为绝对值最大的偏差。其余家族偏差介于xAI的+0.75到Meta的-0.68之间。综合排行榜掩盖了类别差异——九个类别中有六个不同的模型夺冠,且代码类任务的裁判分歧最大。完整数据集、代码和提示词以MIT许可证开放,作者提出了锚定真实答案、分离裁判偏差与回答质量等后续改进方向。
R LOCALLLAMA·
一位Reddit用户发表了一个推测性的思想实验,探讨将轻量级游戏特定适配层整合到DLSS或FSR等AI游戏升频器中。该想法旨在通过增加一个小型专用层来捕捉游戏的渲染特性,并利用现有基础模型,从而让掌机设备能从极低的内部分辨率(如360p)重建800p或1080p图像。用户提到了AMD正为低功耗设备开发更轻量的FSR版本,但好奇游戏特定调优是否能进一步提升效率。该帖未引用任何具体研究、实现或基准测试,仅询问这一方向是否已被探索或存在根本性限制。
R LOCALLLAMA··重点
Spectral Labs 推出校准感知量化方法 SpectralQuant,通过识别行为敏感方向的权重并塑造量化误差以保护关键权重。他们发布了 Qwen3.5 0.8B 的 Q4_K_M GGUF 量化版本,严格保持 4.52 BPW(415.7 MiB),无 FP 保留模块或动态格式。在 heldout120 评估中,SpectralQuant 的提示损失为 2.9961,而标准 llama.cpp 纯 Q4_K_M 为 3.4135,恢复了与 BF16 差距的 96.5%。在相同 heldout120 上,它还优于比特率更高的 Unsloth 量化版本(Q4_K_S、Q4_K_M、IQ4_NL、IQ4_XS,比特率 5.11--5.52 BPW)。在 C4 验证上,Unsloth 的 Q4_K_M 略优但多占用约 92 MB。该模型是标准 GGUF,可直接用于 llama.cpp 的 llama-cli 和 llama-server。
R LOCALLLAMA··重点
Orthrus扩散头项目已完成测试,准备发布适配Qwen 3.5、Qwen 3.6和Gemma 4基础语言模型的检查点。开发者通过Reddit宣布,将同时开源完整的端到端训练和评估代码,仓库更新即将推送。Hugging Face上已有Orthrus-Qwen3-8B页面,更多模型即将到来。社区指出目前尚无llama.cpp推理支持。