AI 信息流

HUGGINGFACE2026年7月2日

微软发布安全对齐模型 HARC-Qwen2.5-7B-Instruct

微软发布了 HARC-Qwen2.5-7B-Instruct，这是基于 Qwen2.5-7B-Instruct 进行安全对齐微调的对话模型。该模型为基于 Transformer 的文本生成模型，以 Apache 2.0 许可证在 Hugging Face 上开放，采用 safetensors 格式，支持 text-generation-inference 和 Hugging Face 端点。此发布与论文 arXiv:2607.00572 相关。

HUGGINGFACE2026年7月2日

微软发布HARC-Llama-3.1-8B-Instruct安全对齐模型

微软在Hugging Face上发布了HARC-Llama-3.1-8B-Instruct。该模型是基于Meta的Llama 3.1 8B Instruct构建的文本生成模型。仓库标签显示其专注安全、对齐和对话应用。模型卡片未提供基准测试、训练细节或具体能力声明。该模型以Llama 3.1许可证分发。

HUGGINGFACE2026年7月2日重点

AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

AGVBench是一个综合性基准，在五个公开的掌静脉和指静脉数据集上，使用七种骨干架构（包括CNN、视觉Transformer和静脉专用模型）评估了30种数据增强策略。多图像混合方法（MixUp、PuzzleMix、StarMixup）取得了最高的识别精度，但校准性差且容易受到对抗扰动攻击。剧烈的几何变换通常因特征错位或空间裁剪导致性能下降。结果表明，仅以精度为中心的评价不足以满足生物特征数据增强的需求，必须考虑安全性和鲁棒性。AGVBench提供了标准化协议和开源代码，以推动可复现且安全的静脉识别研究。

HUGGINGFACE2026年7月1日重点

Cross-Domain Generalization Failure in Lightweight Intrusion Detection Models for IIoT Networks

该研究在一种IIoT入侵检测数据集上训练四种轻量级架构，并在两种结构不同的数据集上不做再训练直接评估，使用三者共有的特征子集。表现最好的两个模型都严重依赖粗粒度的端口类别特征，其中最具影响力的类别在源域攻击流量中的出现频率是目标域的96到435倍，表明粗化端口分辨率只是移动而非消除了已知的捷径。在自然类不平衡条件下，评估协议可以颠倒哪个目标网络看起来更难泛化。对抗鲁棒性与跨网络泛化无关，通过少量目标域数据恢复的效果因架构而异。结果表明，部署就绪性应基于真实分布下的跨网络评估，而非仅看域内准确率。

HUGGINGFACE2026年7月1日

MemSyco-Bench: Benchmarking Sycophancy in Agent Memory

该论文提出了 MemSyco-Bench，一个用于评估基于大语言模型的代理系统中记忆诱发迎合性的基准。它针对检索记忆导致代理过度迎合用户、牺牲事实准确性的问题，设计了五项任务：拒绝将记忆视为事实证据、尊重记忆适用范围、解决记忆与客观证据的冲突、跟踪记忆更新，以及使用有效记忆进行个性化。所有资源已在 GitHub 上公开。

HUGGINGFACE2026年6月29日重点

SafePyramid: A Hierarchical Benchmark for In-context Policy Guardrailing

SafePyramid是一个新的基准测试，用于评估上下文策略护栏能力，包含1000个多轮对话、3000个应用特定策略以及10个领域的61699条不同自然语言规则。该基准将评估分为三个难度层级：L0（单规则理解）、L1（规则依赖推理）和L2（全新型策略框架适配）。对10个前沿大语言模型和5个可配置策略的护栏的评估显示，即使是表现最好的GPT-5.5，在L0、L1、L2上正确识别全部违规规则的比例也仅分别为54.0%、35.3%和12.9%。这些结果突显了上下文策略护栏在解决规则依赖和适应新策略方面仍面临的重大挑战。