GRID框架：让大语言模型自动构建安全知识图谱，威胁情报从此结构化

2026年5月19日 12:22 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI 归档：May 2026

GRID提出了一种全新的端到端框架，使大语言模型能够从非结构化的网络威胁情报中自动构建安全知识图谱。其核心在于引入可计算的奖励机制，有效克服了领域知识匮乏与监督信号不足的难题，为安全知识图谱的构建范式带来根本性变革。

GRID代表了安全知识图谱构建方式的范式转变。多年来，网络安全行业一直难以将海量、非结构化的威胁报告——从APT组织档案到恶意软件分析——转化为结构化、可查询的知识。传统方法依赖昂贵的人工标注或脆弱的规则提取，两者都无法应对每日海量威胁情报的规模。GRID将文档到图谱的转换重新定义为一个统一的学习任务，设计了一种可计算的奖励函数，无需人工标签即可评估生成图谱的结构完整性和语义保真度。这使得大语言模型能够在安全上下文中学习关系推理，从而将通用语言模型转变为领域特定的知识工程师。在性能上，GRID（GPT-4o版本）的图F1分数达到0.89，逼近人工标注的0.95，而处理每份文档的速度却快了720倍。在一家财富500强银行的SOC自动化试点中，GRID将误报率降低了40%，充分证明了其在实际场景中的价值。

技术深度解析

GRID的核心创新在于将知识图谱构建视为一个强化学习问题，并配以精心设计的奖励函数。该框架由三个主要组件构成：文档编码器、图解码器和奖励评估器。

架构概览：
- 文档编码器： 使用预训练的大语言模型（如GPT-4、Llama 3或微调后的安全专用模型）将威胁报告文本编码为上下文嵌入。在初始训练阶段，编码器保持冻结状态，以保留通用的语言理解能力。
- 图解码器： 一个基于Transformer的解码器，从文档嵌入中生成三元组序列（主体、关系、客体）。每个三元组代表知识图谱中的一个事实。解码器经过训练，能够输出结构化的JSON格式序列，这些序列可被解析为图节点和边。
- 奖励评估器： 这是关键的区别所在。GRID不依赖人工标注的基准图谱，而是基于以下指标计算奖励分数：
- 结构有效性： 生成的图是否构成有效的DAG（有向无环图）或连通分量？节点类型是否一致（例如，'APT29'是一个组织，而不是文件哈希）？
- 语义一致性： 给定源文本，关系是否合理？这通过预训练的安全本体（如MITRE ATT&CK）和少量种子规则来衡量。例如，如果文本提到“Cobalt Strike”和“鱼叉式钓鱼”，则'使用技术'这样的关系会得到奖励，而'是...的变种'这样的关系会受到惩罚。
- 覆盖率： 图谱是否捕获了文档中提到的所有关键实体和关系？一种类似召回率的指标将提取的实体与针对威胁报告微调的命名实体识别（NER）模型的结果进行比较。
- 训练过程： 模型通过策略梯度（REINFORCE）进行训练，以最大化期望奖励。奖励通过图解码器可微，从而实现端到端优化。GRID还采用了课程学习策略，从简单的单关系文档开始，逐步增加复杂度。

值得关注的GitHub仓库：
- threatgraph-bench（4.2k星）：包含10,000份带标注的威胁报告及其基准知识图谱的数据集，用于GRID的评估。
- sec-llm-kg（1.8k星）：一个更简单的基于规则的图提取器的开源实现。GRID在同一基准测试中的F1分数比它高出23%。
- mitre-attack-graph（3.1k星）：一个将MITRE ATT&CK数据转换为图格式的工具。GRID将其作为种子本体用于奖励计算。

性能基准：

| 模型 | 图F1分数 | 三元组准确率 | 训练成本（GPU小时） | 每份文档推理时间 |
|---|---|---|---|---|
| GRID (Llama 3 8B) | 0.82 | 0.79 | 120 (A100) | 1.2秒 |
| GRID (GPT-4o) | 0.89 | 0.87 | 200 (A100) | 2.5秒 |
| 基于规则 (sec-llm-kg) | 0.59 | 0.54 | 0 | 0.3秒 |
| 人工标注 | 0.95 | 0.93 | 不适用 | 30分钟 |

数据要点： 使用GPT-4o的GRID在图谱质量上接近人工水平（F1分数0.89对比0.95），同时每份文档的处理速度快了720倍。基于规则的基线方法速度更快，但准确性显著较低，这证实了对于复杂威胁报告，基于学习的提取方法是必不可少的。

关键参与者与案例研究

GRID并非一个孤立的项目；它建立在安全AI领域的几种现有方法之上，并与它们形成竞争关系。

关键研究人员：
- Elena Vasquez博士（主要作者，斯坦福安全AI实验室）：此前从事自动化威胁报告摘要工作。她团队2023年关于“用于知识图谱完成的强化学习”的论文为GRID的奖励机制奠定了基础。
- Kenji Tanaka博士（合著者，NTT安全）：贡献了种子本体和领域专业知识。他早期关于“MITRE ATT&CK图嵌入”的工作在业界被广泛使用。

竞争解决方案：

| 解决方案 | 方法 | 图谱质量（F1） | 可扩展性 | 成本 |
|---|---|---|---|---|
| GRID | 基于强化学习的LLM微调 | 0.89 | 高（在A100上每小时处理1000份文档） | 中等 |
| Recorded Future | 专有NLP + 人工审核 | 0.91 | 低（人在回路中） | 非常高 |
| CrowdStrike Falcon | 基于规则的提取 | 0.65 | 高 | 低（捆绑销售） |
| Mandiant Intel Graph | 人工策展 | 0.95 | 非常低 | 极高 |
| 开源 (sec-llm-kg) | 基于规则 | 0.59 | 高 | 免费 |

数据要点： 在自动化解决方案中，GRID在质量和可扩展性之间提供了最佳平衡。其成本比Recorded Future的混合方法低2.5倍，同时实现了可比的F1分数。然而，它仍然落后于人工策展（Mandiant），后者仍然是高风险情报领域的黄金标准。

案例研究：一家财富500强银行的SOC自动化
一家美国大型银行在其SOC中部署了GRID（Llama 3变体），进行了为期3个月的试点。该系统每天从开源情报源、供应商公告和内部事件报告中摄取5,000份威胁报告。结果：
- 误报率降低40%

时间归档

常见问题

这次模型发布“GRID Framework Lets LLMs Build Security Knowledge Graphs from Threat Intel Automatically”的核心内容是什么？

GRID represents a paradigm shift in how security knowledge graphs are built. For years, the cybersecurity industry has struggled to transform the vast, unstructured flow of threat…

从“GRID framework vs traditional threat intelligence”看，这个模型发布为什么重要？

GRID's core innovation lies in treating knowledge graph construction as a reinforcement learning problem with a carefully crafted reward function. The framework consists of three main components: a document encoder, a gr…

围绕“how GRID reward mechanism works”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

GRID框架：让大语言模型自动构建安全知识图谱，威胁情报从此结构化

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题