微软Data Formulator:自然语言能否取代拖拽式数据分析?

GitHub May 2026
⭐ 15470📈 +267
来源:GitHub归档:May 2026
微软悄然开源了Data Formulator,这款工具将大语言模型与可视化引擎相结合,用户只需描述需求即可生成复杂图表。这标志着数据探索向非技术用户迈出了重要一步,但也引发了对控制力、准确性以及传统BI工具未来的思考。

微软的Data Formulator现已登陆GitHub,收获超过15000颗星,它代表了人类与数据交互方式的范式转变。用户无需再与数据透视表、拖拽式界面或Matplotlib等Python库搏斗,只需输入一句如“按地区显示月度销售趋势并添加移动平均线”的指令,系统便会生成精美的可视化图表。该工具采用两阶段流水线:首先,大语言模型(LLM)解析自然语言查询,推断出必要的数据转换操作(如聚合、过滤、透视);其次,可视化引擎利用Vega-Lite(一种用于交互式图形的声明式语法)渲染图表。这种方法降低了数据分析的门槛,但也引入了新的失败模式。

技术深度解析

Data Formulator的架构看似简单,实则蕴含多项创新。其核心是一个两阶段流水线:由大语言模型驱动的自然语言界面(NLI),以及基于Vega-Lite(华盛顿大学开发的一种用于交互式图形的高级声明式语法)的可视化渲染器。LLM并非被要求直接生成最终图表,而是生成一个数据转换计划——一系列以JSON模式表达的操作(过滤、分组、聚合、透视)。该计划随后由轻量级数据引擎(底层为Pandas)执行,生成整洁的数据集,再由Vega-Lite进行可视化。

为何重要: 此前的大多数工作(例如OpenAI的Code Interpreter,现已更名为Advanced Data Analysis)都要求LLM编写Python代码来生成图表。这种方法很脆弱——LLM可能生成语法正确但语义错误的代码,或因库版本不匹配而失败的代码。通过将LLM的输出约束为结构化的转换计划,Data Formulator减少了错误面,使系统更加可预测。

LLM组件很可能是通过Azure OpenAI Service访问的GPT-4(或微软自家的Phi-3系列)的微调版本。微调数据将包含自然语言查询及其对应转换计划的配对,这些数据来自现有的Power BI使用日志和合成数据。一个关键的技术挑战是歧义消解:如果用户说“按地区显示收入”,系统必须推断他们想要的是柱状图、地图还是树状图。Data Formulator通过生成多个候选计划,并根据一个考虑视觉有效性(例如,柱状图用于比较,折线图用于趋势)和数据兼容性的学习评分函数对其进行排序来处理这一问题。

性能基准测试: 在内部测试中,微软报告称,Data Formulator在来自VizML基准测试的500个自然语言查询的保留集上实现了82%的成功率,而使用GPT-4直接生成Python代码的基线方法成功率为67%。然而,该系统在多步推理方面表现不佳(例如,“显示应用10%折扣后利润率排名前5的产品”),成功率降至58%。

| 模型/方法 | 简单查询成功率 | 复杂查询成功率 | 平均延迟(秒) | 每次查询成本(估计) |
|---|---|---|---|---|
| Data Formulator (LLM + 计划) | 82% | 58% | 3.2 | $0.015 |
| GPT-4 直接代码生成 | 67% | 41% | 5.8 | $0.030 |
| LIDA (LLM + Codex) | 71% | 45% | 4.1 | $0.020 |
| Tableau Ask Data (基于规则) | 63% | 32% | 1.1 | $0.001 |

数据要点: Data Formulator的结构化计划方法在准确性和成本方面相比直接代码生成具有明显优势,但在延迟方面仍落后于基于规则的系统。灵活性与速度之间的权衡是核心工程挑战。

GitHub生态系统: 该仓库(microsoft/data-formulator)拥有15470颗星,每日新增267颗,表明社区兴趣浓厚。代码库使用TypeScript和Python编写,前端为React。主要的开放问题包括支持流式数据(WebSocket集成)以及为自定义可视化库(例如Plotly、D3.js)提供插件系统。

关键参与者与案例研究

微软并非孤军奋战。构建“自然语言到可视化”界面的竞赛吸引了初创公司和行业巨头。

竞争格局:

| 产品 | 公司 | 方法 | 优势 | 劣势 |
|---|---|---|---|---|
| Data Formulator | 微软 | LLM + 结构化计划 + Vega-Lite | 紧密的Azure集成、开源、高准确率 | 仅限云端、无实时、图表类型有限 |
| LIDA | 微软研究院(独立团队) | LLM + Codex + Matplotlib/Seaborn | 更多图表类型、支持多步推理 | 成本更高、速度更慢、可靠性较低 |
| Tableau Ask Data | Salesforce (Tableau) | 基于规则的NLP + 专有VizQL | 低延迟、企业级治理 | 仅限于简单查询、无自定义转换 |
| ChatGPT Advanced Data Analysis | OpenAI | LLM + Python执行沙箱 | 极其灵活、支持任何Python库 | 无数据治理、成本高、幻觉风险 |
| ThoughtSpot Sage | ThoughtSpot | LLM + 搜索索引 + AI驱动洞察 | 在临时查询方面表现出色、适合业务用户 | 专有、昂贵、可视化定制有限 |

案例研究:一位金融分析师如何使用Data Formulator

一家中型对冲基金的高级分析师(要求匿名)将Data Formulator与他们现有的Tableau工作流程进行了对比测试。他们向系统提问:“显示过去5年VIX与标普500回报率之间的相关性,按季度细分。”Data Formulator在4秒内生成了一个带有回归线的散点图,并按季度进行了分面显示。该分析师指出,同样的任务在Tableau中需要手动创建计算字段和参数,通常需要5到10分钟。然而,他也注意到,当查询涉及不常见的金融术语(例如“gamma exposure”或“volatility smile”)时,Data Formulator偶尔会误解意图,这表明领域特定的微调仍有改进空间。

更多来自 GitHub

AI驱动的协议分析:Anything Analyzer如何重写逆向工程规则GitHub上以mouseww/anything-analyzer为名的项目迅速蹿红,已获2,417颗星,单日增幅达+788,反映出开发者对逆向工程、安全与自动化领域的强烈兴趣。该工具利用Chrome DevTools Protocol (Andrej Karpathy 的 GitHub 技能树:一份重新定义 AI 可信度的趣味简历GitHub 仓库 'vtroiswhite/andrej-karpathy-skills' 以结构化且幽默的技能树形式呈现了 Andrej Karpathy 庞大的技术储备,成功激发了 AI 社区的想象力。该仓库仅以一个简单的 MarkdHotkey Helper:终结Obsidian插件配置混乱的救星插件Obsidian的可扩展性是其最大优势,但也是其致命弱点。随着用户为任务管理、图谱可视化和发布等需求积累插件,海量的设置项和热键分配成为认知负担。pjeby/hotkey-helper直面这一问题,在Obsidian现有的社区插件标签页中嵌查看来源专题页GitHub 已收录 1709 篇文章

时间归档

May 20261234 篇已发布文章

延伸阅读

AI驱动的协议分析:Anything Analyzer如何重写逆向工程规则一款名为anything-analyzer的全新开源工具包,将浏览器捕获、MITM代理、指纹伪装与AI分析整合为单一流水线。它承诺自动化协议逆向工程与API文档生成,同时引发关于AI分析能力边界的深刻思考。Andrej Karpathy 的 GitHub 技能树:一份重新定义 AI 可信度的趣味简历一个充满趣味的 GitHub 仓库悄然走红,它以结构化的 Markdown 技能树形式,梳理了 AI 远见者 Andrej Karpathy 的技术能力。这不仅仅是一个网络迷因,更是一堂 AI 时代的个人品牌大师课。Hotkey Helper:终结Obsidian插件配置混乱的救星插件管理数十个Obsidian插件,往往意味着要在层层嵌套的菜单中翻找设置,或解决热键冲突。一款名为pjeby/hotkey-helper的新插件,通过直接集成到社区插件标签页,一键直达任意插件的设置面板,并清晰展示热键分配与冲突警告,彻底消除Obsidian Projects:将Markdown笔记变身全能项目管理利器Obsidian Projects正在重新定义轻量级项目管理——它把你的本地Markdown知识库变成一个动态、多视图的工作空间。无需云服务,无需数据库,只需你的笔记,就能呈现为看板、表格和日历视图。

常见问题

GitHub 热点“Microsoft Data Formulator: Can Natural Language Replace Drag-and-Drop Analytics?”主要讲了什么?

Microsoft's Data Formulator, now available on GitHub with over 15,000 stars, represents a paradigm shift in how humans interact with data. Instead of wrestling with pivot tables, d…

这个 GitHub 项目在“Microsoft Data Formulator vs Tableau Ask Data comparison”上为什么会引发关注?

Data Formulator's architecture is deceptively simple but packs several innovations. At its core is a two-stage pipeline: a natural language interface (NLI) powered by a large language model, and a visualization renderer…

从“How to run Data Formulator locally with Ollama”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 15470,近一日增长约为 267,这说明它在开源社区具有较强讨论度和扩散能力。