本教程流式处理了FineWeb sample-10BT的3,000篇文档,无需下载完整的多TB语料。复现了Gopher、C4及自定义质量过滤器,由于数据已预过滤,大部分文档通过检测。使用128个哈希排列和0.7阈值的MinHash去重仅发现极少数近似重复对,证实了每次爬取已去重。通过与存储字段对比验证GPT-2分词数,平均绝对差接近0,高度一致。分析涵盖token分布、语言得分、每字符token数和顶级域名,为大规模语料预处理管线提供了可操作的参考。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 7 页
本教程流式处理了FineWeb sample-10BT的3,000篇文档,无需下载完整的多TB语料。复现了Gopher、C4及自定义质量过滤器,由于数据已预过滤,大部分文档通过检测。使用128个哈希排列和0.7阈值的MinHash去重仅发现极少数近似重复对,证实了每次爬取已去重。通过与存储字段对比验证GPT-2分词数,平均绝对差接近0,高度一致。分析涵盖token分布、语言得分、每字符token数和顶级域名,为大规模语料预处理管线提供了可操作的参考。
Databricks 发布了 Omnigent,一个 Apache 2.0 开源元编排器,它统一了命令行编程代理(Claude Code、Codex、Pi)和代理 SDK 的接口,使其成为可互换的组件。它在这些代理之上增加了一个共享层,支持组合(通过一行代码切换代理)、上下文控制(如在花费达限时暂停、在安装 npm 包后要求人工批准 git 推送)和协作(通过 URL 共享实时代理会话)。架构包含一个沙盒化运行器(提供统一 API)和策略服务器,会话在终端、Web UI 和移动端同步。操作系统沙盒 Omnibox 仅在批准的代理请求中注入凭据以保护安全。两个内置示例代理展示了编排和多模型模式,交互式概念演示展示了并行代理委托和策略执行。
本文展示了一项利用小型开源语言模型为内部威胁检测生成安全运营中心(SOC)叙事文本的实操研究。实验基于 CERT R4.2 数据集和 Qwen3 模型,对比了四种方法:零样本提示、少样本提示、基于 LoRA 的有监督微调(SFT LoRA)以及组相对策略优化(GRPO)。该研究给出了使用小型大语言模型解读内部威胁的实用流程,突显了开源模型微调的易用性。
本教程展示了在 Google Colab 中搭建完整的 QwenPaw 智能体工作区。流程包括安装、环境配置和随机密码认证。系统自动从 Colab 密文配置大语言模型提供商(OpenAI、OpenRouter、DashScope、DeepSeek 或 Gemini),并创建自定义 research_brief 技能以及演示知识文件。QwenPaw 控制台在可配置端口启动,通过 Colab 代理和可选的 Cloudflare 隧道暴露访问,随后使用流式聊天 API 客户端测试智能体的响应。最终得到一个可复现、安全且可扩展的本地优先智能体平台,适用于研究与自动化流程。
本教程演示如何使用Docling工具在本地解析PDF,保留表格单元、OCR文本、标题和说明文字,实现云端级文档结构化而无需上传、API密钥或按页付费。该方法将PDF转换为丰富结构数据,用于RAG流水线,确保数据隐私。
月之暗面发布了 Kimi K2.7-Code,一款基于 Modified MIT 许可的开源代码专用代理模型。它采用混合专家架构,总参数 1 万亿,每令牌激活 32B,包含 384 个专家(每步选 8+1 共享),使用 MLA 注意力、SwiGLU 前馈网络和一个 400M 参数的 MoonViT 视觉编码器。模型支持 256K 上下文窗口,原生 INT4 量化,强制开启思考模式并固定采样参数(温度 1.0、top_p 0.95、n 1)。公司公布的基准测试显示,K2.7-Code 在 Kimi Code Bench v2 上得分为 62.0(相对 K2.6 提升 21.8%),在 MCP Mark Verified 上得分为 81.1(超过 Claude Opus 4.8 的 76.4),推理 token 消耗比 K2.6 减少约 30%,在代理工作流中降低成本和延迟。模型权重约 595 GB,已发布在 Hugging Face,可通过 vLLM、SGLang 或 KTransformers 自托管;API 使用 kimi-k2.7-code 模型名,兼容 OpenAI 接口。