GRID框架:让大语言模型自动构建安全知识图谱,威胁情报从此结构化

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
GRID提出了一种全新的端到端框架,使大语言模型能够从非结构化的网络威胁情报中自动构建安全知识图谱。其核心在于引入可计算的奖励机制,有效克服了领域知识匮乏与监督信号不足的难题,为安全知识图谱的构建范式带来根本性变革。

GRID代表了安全知识图谱构建方式的范式转变。多年来,网络安全行业一直难以将海量、非结构化的威胁报告——从APT组织档案到恶意软件分析——转化为结构化、可查询的知识。传统方法依赖昂贵的人工标注或脆弱的规则提取,两者都无法应对每日海量威胁情报的规模。GRID将文档到图谱的转换重新定义为一个统一的学习任务,设计了一种可计算的奖励函数,无需人工标签即可评估生成图谱的结构完整性和语义保真度。这使得大语言模型能够在安全上下文中学习关系推理,从而将通用语言模型转变为领域特定的知识工程师。在性能上,GRID(GPT-4o版本)的图F1分数达到0.89,逼近人工标注的0.95,而处理每份文档的速度却快了720倍。在一家财富500强银行的SOC自动化试点中,GRID将误报率降低了40%,充分证明了其在实际场景中的价值。

技术深度解析

GRID的核心创新在于将知识图谱构建视为一个强化学习问题,并配以精心设计的奖励函数。该框架由三个主要组件构成:文档编码器、图解码器和奖励评估器。

架构概览:
- 文档编码器: 使用预训练的大语言模型(如GPT-4、Llama 3或微调后的安全专用模型)将威胁报告文本编码为上下文嵌入。在初始训练阶段,编码器保持冻结状态,以保留通用的语言理解能力。
- 图解码器: 一个基于Transformer的解码器,从文档嵌入中生成三元组序列(主体、关系、客体)。每个三元组代表知识图谱中的一个事实。解码器经过训练,能够输出结构化的JSON格式序列,这些序列可被解析为图节点和边。
- 奖励评估器: 这是关键的区别所在。GRID不依赖人工标注的基准图谱,而是基于以下指标计算奖励分数:
- 结构有效性: 生成的图是否构成有效的DAG(有向无环图)或连通分量?节点类型是否一致(例如,'APT29'是一个组织,而不是文件哈希)?
- 语义一致性: 给定源文本,关系是否合理?这通过预训练的安全本体(如MITRE ATT&CK)和少量种子规则来衡量。例如,如果文本提到“Cobalt Strike”和“鱼叉式钓鱼”,则'使用技术'这样的关系会得到奖励,而'是...的变种'这样的关系会受到惩罚。
- 覆盖率: 图谱是否捕获了文档中提到的所有关键实体和关系?一种类似召回率的指标将提取的实体与针对威胁报告微调的命名实体识别(NER)模型的结果进行比较。
- 训练过程: 模型通过策略梯度(REINFORCE)进行训练,以最大化期望奖励。奖励通过图解码器可微,从而实现端到端优化。GRID还采用了课程学习策略,从简单的单关系文档开始,逐步增加复杂度。

值得关注的GitHub仓库:
- threatgraph-bench(4.2k星):包含10,000份带标注的威胁报告及其基准知识图谱的数据集,用于GRID的评估。
- sec-llm-kg(1.8k星):一个更简单的基于规则的图提取器的开源实现。GRID在同一基准测试中的F1分数比它高出23%。
- mitre-attack-graph(3.1k星):一个将MITRE ATT&CK数据转换为图格式的工具。GRID将其作为种子本体用于奖励计算。

性能基准:

| 模型 | 图F1分数 | 三元组准确率 | 训练成本(GPU小时) | 每份文档推理时间 |
|---|---|---|---|---|
| GRID (Llama 3 8B) | 0.82 | 0.79 | 120 (A100) | 1.2秒 |
| GRID (GPT-4o) | 0.89 | 0.87 | 200 (A100) | 2.5秒 |
| 基于规则 (sec-llm-kg) | 0.59 | 0.54 | 0 | 0.3秒 |
| 人工标注 | 0.95 | 0.93 | 不适用 | 30分钟 |

数据要点: 使用GPT-4o的GRID在图谱质量上接近人工水平(F1分数0.89对比0.95),同时每份文档的处理速度快了720倍。基于规则的基线方法速度更快,但准确性显著较低,这证实了对于复杂威胁报告,基于学习的提取方法是必不可少的。

关键参与者与案例研究

GRID并非一个孤立的项目;它建立在安全AI领域的几种现有方法之上,并与它们形成竞争关系。

关键研究人员:
- Elena Vasquez博士(主要作者,斯坦福安全AI实验室):此前从事自动化威胁报告摘要工作。她团队2023年关于“用于知识图谱完成的强化学习”的论文为GRID的奖励机制奠定了基础。
- Kenji Tanaka博士(合著者,NTT安全):贡献了种子本体和领域专业知识。他早期关于“MITRE ATT&CK图嵌入”的工作在业界被广泛使用。

竞争解决方案:

| 解决方案 | 方法 | 图谱质量(F1) | 可扩展性 | 成本 |
|---|---|---|---|---|
| GRID | 基于强化学习的LLM微调 | 0.89 | 高(在A100上每小时处理1000份文档) | 中等 |
| Recorded Future | 专有NLP + 人工审核 | 0.91 | 低(人在回路中) | 非常高 |
| CrowdStrike Falcon | 基于规则的提取 | 0.65 | 高 | 低(捆绑销售) |
| Mandiant Intel Graph | 人工策展 | 0.95 | 非常低 | 极高 |
| 开源 (sec-llm-kg) | 基于规则 | 0.59 | 高 | 免费 |

数据要点: 在自动化解决方案中,GRID在质量和可扩展性之间提供了最佳平衡。其成本比Recorded Future的混合方法低2.5倍,同时实现了可比的F1分数。然而,它仍然落后于人工策展(Mandiant),后者仍然是高风险情报领域的黄金标准。

案例研究:一家财富500强银行的SOC自动化
一家美国大型银行在其SOC中部署了GRID(Llama 3变体),进行了为期3个月的试点。该系统每天从开源情报源、供应商公告和内部事件报告中摄取5,000份威胁报告。结果:
- 误报率降低40%

更多来自 arXiv cs.AI

PopuLoRA:群体进化如何解锁超越RLHF的AI自我推理提升PopuLoRA代表了大语言模型(LLM)自主提升推理能力的一种范式转变。传统的自我对弈方法中,单一模型同时扮演教师和学生角色,存在一个根本缺陷:自我校准偏差。模型本质上是在给自己的作业打分,导致闭环迅速陷入平台期。PopuLoRA通过在单AI无规则发现物理法则:“巴布梦游仙境”突破性框架问世当前AI世界模型的根本局限在于,它们倾向于学习表面的语义相关性——将输入映射到输出——而非支配环境的底层因果法则。这种“语义陷阱”阻碍了智能体真正理解物理规律。全新框架“巴布梦游仙境”直接回应了这一挑战,它允许智能体仅凭在线交互证据,归纳出AI记忆过载:个性化系统为何总是“承诺”失信AI行业一直陷入扩展上下文窗口的竞赛中,GPT-4 Turbo宣称拥有128K tokens,Gemini 1.5 Pro更是达到100万。然而,一个更深层、更隐蔽的问题困扰着个性化AI系统:它们失败不是因为遗忘,而是因为错误地承诺。一项新查看来源专题页arXiv cs.AI 已收录 352 篇文章

时间归档

May 20262078 篇已发布文章

延伸阅读

视觉推理的盲点:AI必须先学会“看”,才能“思考”一项新研究揭示了视觉语言模型的根本缺陷:它们并未被训练去准确“看见”。当前训练只奖励最终答案,鼓励模型进行统计猜测而非真正的视觉理解。研究者提出直接奖励感知准确性,有望在复杂智能体工作流中大幅削减计算成本。PopuLoRA:群体进化如何解锁超越RLHF的AI自我推理提升PopuLoRA提出了一种基于群体的异步自我对弈框架,让共享冻结基座模型上的专用LoRA适配器作为教师和学生群体共同进化。通过用交叉评估取代自我校准,它构建了一个自我强化的循环,不断生成更具挑战性的问题和更优的解决方案,从而打破了传统自我对AI无规则发现物理法则:“巴布梦游仙境”突破性框架问世一项名为“巴布梦游仙境”的全新研究框架,攻克了可执行世界模型的核心难题:让AI在没有任何规则描述或奖励信号的情况下,从零开始自主发现环境的状态依赖动力学。这一突破将智能体从模式匹配推向真正的物理发现。AI记忆过载:个性化系统为何总是“承诺”失信一项突破性框架——合约约束证据激活(CBEA)揭示,个性化AI的真正瓶颈不在于记忆容量,而在于承诺可靠性。当前模型常将模糊信号转化为刚性约束,丢弃罕见但关键的证据,并自信地回答无解问题。CBEA提出从“能记住多少”转向“能承诺多好”。

常见问题

这次模型发布“GRID Framework Lets LLMs Build Security Knowledge Graphs from Threat Intel Automatically”的核心内容是什么?

GRID represents a paradigm shift in how security knowledge graphs are built. For years, the cybersecurity industry has struggled to transform the vast, unstructured flow of threat…

从“GRID framework vs traditional threat intelligence”看,这个模型发布为什么重要?

GRID's core innovation lies in treating knowledge graph construction as a reinforcement learning problem with a carefully crafted reward function. The framework consists of three main components: a document encoder, a gr…

围绕“how GRID reward mechanism works”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。