一人对抗241个政府门户:公共数据的数字废墟

Hacker News April 2026
来源:Hacker News归档:April 2026
一位独立开发者耗时四个月,从英国241个地方议会规划门户中抓取了260万条规划决策记录,揭示了一个支离破碎的数字景观——从2004年的ASP.NET界面到AWS WAF封锁,'公共数据'被锁在过时系统之中。这不仅是技术壮举,更是对数字透明度失灵的无声抗议。

在个人主动性与体制惰性之间的鲜明对比中,一位独立开发者成功从241个独立的英国地方规划门户中提取了260万条规划决策记录。这个耗时四个月、不懈努力的项目,暴露出一片混乱的IT系统拼凑景象——有些运行着2004年的ASP.NET框架,另一些则由AWS Web应用防火墙保护,每个系统都有独特的数据模式和访问限制。这并非孤立案例,而是一种系统性失败:英国的规划数据本应是公共资产,却散落在241个数字孤岛中,每个孤岛都像中世纪的封地一样,拥有自己的规则和壁垒。开发者的工作实际上从这片混乱中创建了一个统一、可查询的数据集,展示了个人能力如何填补政府数字治理的空白。

技术深度解析

开发者的方法堪称自适应数据提取的教科书级案例。241个规划门户中的每一个都是独特的技术产物,代表了政府IT采购的不同时代。有些运行在遗留的ASP.NET Web Forms上,另一些则基于现代的React单页应用,还有少数采用自定义PHP后端。核心挑战不仅在于抓取,更在于模式映射:每个门户使用不同的字段名、日期格式和决策类别。例如,一个门户可能将'申请类型'标记为'app_type',另一个标记为'planning_type',第三个则标记为'category'。开发者采用了一个多阶段流水线:

1. 发现阶段:自动扫描以识别门户端点、认证要求和速率限制机制。
2. 自适应解析:结合正则表达式模式和轻量级NLP模型,从HTML表格、JSON API甚至嵌入页面的PDF文档中提取结构化数据。
3. 反机器人规避:轮换用户代理字符串、使用住宅代理网络,并实施随机延迟以避免触发AWS WAF或Cloudflare保护。部分门户需要会话Cookie管理和CAPTCHA验证,这通过第三方CAPTCHA解决服务处理。
4. 模式标准化:一个自定义Python库将每个门户的模式映射到统一的数据模型,处理日期格式(DD/MM/YYYY与YYYY-MM-DD)、地址解析和决策代码。

GitHub仓库(仓库名:`uk-planning-scraper`,目前已有1200多颗星)包含抓取方法论的详细文档以及生成的SQLite数据库。开发者指出,大约15%的门户因非标准界面或搜索功能损坏而需要手动干预。

性能数据表:
| 指标 | 数值 |
|---|---|
| 抓取门户总数 | 241 |
| 收集记录总数 | 2,600,000 |
| 每个门户平均记录数 | 10,788 |
| 总耗时 | 4个月 |
| 估计请求次数 | 1500万+ |
| 需要CAPTCHA的门户 | 38(15.8%) |
| 搜索功能损坏的门户 | 12(5.0%) |
| 每个门户平均映射字段数 | 22 |

数据要点: 15%的手动干预率和5%的门户损坏率颇具说服力:即便经过二十年的数字化转型,仍有相当一部分政府系统在自动化访问方面基本失灵,这从根本上动摇了'公共数据'这一概念。

关键参与者与案例研究

该项目并非孤立存在。以下组织与工具与之相关:

- OpenDataSoft:一家法国公司,为城市提供统一数据平台。其平台被部分英国议会使用,但采用率参差不齐。开发者的工作实际上创建了一个竞争对手(尽管是非官方的)。
- Scrapy与Playwright:开发者使用Scrapy进行初始抓取,使用Playwright处理JavaScript密集型门户。Playwright处理现代单页应用的能力对约30%的门户至关重要。
- 英国规划监察局:负责监督规划上诉的国家机构。他们维护一个单独的数据库,但不包含地方层面的决策。该项目填补了这一空白。
- LocalGov Digital:一个由英国议会数字官员组成的网络。他们在标准化规划数据方面的努力进展缓慢,截至2023年,只有40%的议会使用通用模式。

对比表:数据访问解决方案
| 解决方案 | 覆盖范围 | 更新频率 | 成本 | 数据质量 |
|---|---|---|---|---|
| 英国规划门户(官方) | 241个议会(部分) | 每周 | 免费(有限) | 不一致 |
| 本开发者数据集 | 241个议会(完整) | 一次性(2024年) | 免费 | 高(标准化) |
| OpenDataSoft(商业) | 50个议会 | 每日 | 付费 | 高 |
| LocalGov Digital模式 | 96个议会 | 不定 | 免费 | 中等 |

数据要点: 尽管是一次性快照,但开发者的数据集在覆盖范围和标准化程度上均优于官方或商业替代方案,凸显了政府承诺与现实之间的差距。

行业影响与市场动态

其影响远不止规划数据。该项目是一种新型服务的概念验证:数据解放即服务(DLaaS)。随着AI模型需要越来越庞大和多样化的训练数据集,对结构化公共数据的需求正在爆炸式增长。然而,政府IT系统并非为机器消费而设计。这为能够抓取、标准化并销售公共数据访问权限的公司创造了市场机会。

市场数据表:
| 细分市场 | 2023年市场规模 | 2028年预测规模 | 年复合增长率 |
|---|---|---|---|
| 公共数据抓取服务 | 12亿美元 | 38亿美元 | 25.8% |
| 政府IT现代化 | 450亿美元 | 780亿美元 | 11.6% |
| AI训练数据市场 | 25亿美元 | 87亿美元 | 28.3% |

数据要点: 公共数据抓取市场的增长速度超过了政府IT现代化,这表明

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

英伟达“影子库”脚本被判纯侵权:AI数据管道面临生死劫美国联邦法官裁定,英伟达用于从受版权保护作品中构建AI训练数据集的内部脚本“除侵权外别无他用”,直接驳回了该公司的合理使用辩护,标志着AI公司获取训练数据的方式将面临前所未有的严格审查。Anthropic 扼杀 Mythos 与 Fable:AI 狂野创造力终结?Anthropic 突然下架了其最大胆的叙事 AI 模型 Claude Mythos 5 和 Claude Fable 5。这一关停标志着从实验性创造力向更安全的企业级应用的战略撤退,引发了关于 AI 生成想象力未来的紧迫质疑。Anthropic's Trust Crisis: When AI Safety Becomes a Marketing LabelAnthropic, the AI startup built on a promise of safety-first development, is facing a severe credibility gap. An AINews Fable销毁80%供应量,Codex悄然构建:AI治理新范式浮出水面Fable将其代币供应量削减80%,并推出全新的编排与审计层;与此同时,Codex在幕后加速推进其构建阶段。这一协同行动标志着从炒作驱动的代币经济学向持久、可信的AI基础设施的关键转折。

常见问题

这篇关于“One Developer vs 241 Government Portals: The Digital Ruins of Public Data”的文章讲了什么?

In a striking demonstration of individual initiative versus institutional inertia, a solo developer has successfully extracted 2.6 million planning decision records from 241 separa…

从“how to scrape UK planning data legally”看,这件事为什么值得关注?

The developer's approach is a masterclass in adaptive data extraction. Each of the 241 planning portals is a unique technical artifact, representing a different era of government IT procurement. Some run on legacy ASP.NE…

如果想继续追踪“best tools for scraping government websites”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。