一人对抗241个政府门户:公共数据的数字废墟

Hacker News April 2026
来源:Hacker News归档:April 2026
一位独立开发者耗时四个月,从英国241个地方议会规划门户中抓取了260万条规划决策记录,揭示了一个支离破碎的数字景观——从2004年的ASP.NET界面到AWS WAF封锁,'公共数据'被锁在过时系统之中。这不仅是技术壮举,更是对数字透明度失灵的无声抗议。

在个人主动性与体制惰性之间的鲜明对比中,一位独立开发者成功从241个独立的英国地方规划门户中提取了260万条规划决策记录。这个耗时四个月、不懈努力的项目,暴露出一片混乱的IT系统拼凑景象——有些运行着2004年的ASP.NET框架,另一些则由AWS Web应用防火墙保护,每个系统都有独特的数据模式和访问限制。这并非孤立案例,而是一种系统性失败:英国的规划数据本应是公共资产,却散落在241个数字孤岛中,每个孤岛都像中世纪的封地一样,拥有自己的规则和壁垒。开发者的工作实际上从这片混乱中创建了一个统一、可查询的数据集,展示了个人能力如何填补政府数字治理的空白。

技术深度解析

开发者的方法堪称自适应数据提取的教科书级案例。241个规划门户中的每一个都是独特的技术产物,代表了政府IT采购的不同时代。有些运行在遗留的ASP.NET Web Forms上,另一些则基于现代的React单页应用,还有少数采用自定义PHP后端。核心挑战不仅在于抓取,更在于模式映射:每个门户使用不同的字段名、日期格式和决策类别。例如,一个门户可能将'申请类型'标记为'app_type',另一个标记为'planning_type',第三个则标记为'category'。开发者采用了一个多阶段流水线:

1. 发现阶段:自动扫描以识别门户端点、认证要求和速率限制机制。
2. 自适应解析:结合正则表达式模式和轻量级NLP模型,从HTML表格、JSON API甚至嵌入页面的PDF文档中提取结构化数据。
3. 反机器人规避:轮换用户代理字符串、使用住宅代理网络,并实施随机延迟以避免触发AWS WAF或Cloudflare保护。部分门户需要会话Cookie管理和CAPTCHA验证,这通过第三方CAPTCHA解决服务处理。
4. 模式标准化:一个自定义Python库将每个门户的模式映射到统一的数据模型,处理日期格式(DD/MM/YYYY与YYYY-MM-DD)、地址解析和决策代码。

GitHub仓库(仓库名:`uk-planning-scraper`,目前已有1200多颗星)包含抓取方法论的详细文档以及生成的SQLite数据库。开发者指出,大约15%的门户因非标准界面或搜索功能损坏而需要手动干预。

性能数据表:
| 指标 | 数值 |
|---|---|
| 抓取门户总数 | 241 |
| 收集记录总数 | 2,600,000 |
| 每个门户平均记录数 | 10,788 |
| 总耗时 | 4个月 |
| 估计请求次数 | 1500万+ |
| 需要CAPTCHA的门户 | 38(15.8%) |
| 搜索功能损坏的门户 | 12(5.0%) |
| 每个门户平均映射字段数 | 22 |

数据要点: 15%的手动干预率和5%的门户损坏率颇具说服力:即便经过二十年的数字化转型,仍有相当一部分政府系统在自动化访问方面基本失灵,这从根本上动摇了'公共数据'这一概念。

关键参与者与案例研究

该项目并非孤立存在。以下组织与工具与之相关:

- OpenDataSoft:一家法国公司,为城市提供统一数据平台。其平台被部分英国议会使用,但采用率参差不齐。开发者的工作实际上创建了一个竞争对手(尽管是非官方的)。
- Scrapy与Playwright:开发者使用Scrapy进行初始抓取,使用Playwright处理JavaScript密集型门户。Playwright处理现代单页应用的能力对约30%的门户至关重要。
- 英国规划监察局:负责监督规划上诉的国家机构。他们维护一个单独的数据库,但不包含地方层面的决策。该项目填补了这一空白。
- LocalGov Digital:一个由英国议会数字官员组成的网络。他们在标准化规划数据方面的努力进展缓慢,截至2023年,只有40%的议会使用通用模式。

对比表:数据访问解决方案
| 解决方案 | 覆盖范围 | 更新频率 | 成本 | 数据质量 |
|---|---|---|---|---|
| 英国规划门户(官方) | 241个议会(部分) | 每周 | 免费(有限) | 不一致 |
| 本开发者数据集 | 241个议会(完整) | 一次性(2024年) | 免费 | 高(标准化) |
| OpenDataSoft(商业) | 50个议会 | 每日 | 付费 | 高 |
| LocalGov Digital模式 | 96个议会 | 不定 | 免费 | 中等 |

数据要点: 尽管是一次性快照,但开发者的数据集在覆盖范围和标准化程度上均优于官方或商业替代方案,凸显了政府承诺与现实之间的差距。

行业影响与市场动态

其影响远不止规划数据。该项目是一种新型服务的概念验证:数据解放即服务(DLaaS)。随着AI模型需要越来越庞大和多样化的训练数据集,对结构化公共数据的需求正在爆炸式增长。然而,政府IT系统并非为机器消费而设计。这为能够抓取、标准化并销售公共数据访问权限的公司创造了市场机会。

市场数据表:
| 细分市场 | 2023年市场规模 | 2028年预测规模 | 年复合增长率 |
|---|---|---|---|
| 公共数据抓取服务 | 12亿美元 | 38亿美元 | 25.8% |
| 政府IT现代化 | 450亿美元 | 780亿美元 | 11.6% |
| AI训练数据市场 | 25亿美元 | 87亿美元 | 28.3% |

数据要点: 公共数据抓取市场的增长速度超过了政府IT现代化,这表明

更多来自 Hacker News

你的SDK准备好迎接AI了吗?这款开源CLI工具一测便知随着Claude Code、Codex等代理式编程工具的崛起,一个关键短板暴露无遗:绝大多数SDK是为人类开发者设计的,而非AI代理。一款全新的开源CLI工具直击这一痛点,提供了一套系统化的方法来评估SDK的“AI兼容性”。该工具的工作原理“无聊”技术栈逆袭:React+Python+Laravel+Redis 为何成为企业级 RAG 的隐形赢家一场静悄悄的革命正在企业 AI 领域上演。最成功的 RAG(检索增强生成)部署,并非建立在最新的 AI 原生框架之上,而是一套被许多人视为过时的技术栈:React 做前端、Python 做 AI 引擎、Laravel 做中间件、Redis VibeBrowser:让AI代理接管你的真实浏览器——安全噩梦还是未来趋势?AINews独家揭秘VibeBrowser——一款从根本上改变AI代理与网页交互方式的工具。与在沙盒化无头浏览器中运行或依赖脆弱API不同,VibeBrowser利用模型上下文协议(MCP)将AI代理直接连接到用户现有的、已登录的浏览器会话查看来源专题页Hacker News 已收录 2602 篇文章

时间归档

April 20262773 篇已发布文章

延伸阅读

等待AI回复,或将成为你最爱用的App功能一位开发者提出了解决大模型推理延迟问题的新思路:与其盯着加载转圈,不如在模型生成回复时玩一把小游戏。这种微交互设计将被动等待转化为主动参与,有望成为AI原生界面的新标准。Claude Pro的Opus付费墙:无限AI访问的终结与计量智能的崛起Anthropic悄然更新了其Claude Pro订阅服务,要求用户手动启用“额外使用”开关才能访问旗舰模型Opus。这标志着从无限访问向消费门槛的战略转变,预示着“随心用”AI订阅时代的终结。邮政暗网:邮购魔法如何重塑信息获取的革命在算法与加密技术诞生之前,印刷目录与邮政系统构建了一个去中心化的知识市场,专门流通秘传智慧。这并非魔法故事,而是一场基础设施的反叛——一份如何利用现有媒介实现激进信息获取的蓝图。非网管交换机:企业网络安全中沉默的后门非网管交换机是企业网络安全中被忽视的薄弱环节。其即插即用的简便性背后,隐藏着认证、流量日志和访问控制的严重缺失,使其成为横向移动的理想跳板。随着物联网设备涌入网络,这一漏洞正升级为系统性风险,亟需一种全新的设备类别来应对。

常见问题

这篇关于“One Developer vs 241 Government Portals: The Digital Ruins of Public Data”的文章讲了什么?

In a striking demonstration of individual initiative versus institutional inertia, a solo developer has successfully extracted 2.6 million planning decision records from 241 separa…

从“how to scrape UK planning data legally”看,这件事为什么值得关注?

The developer's approach is a masterclass in adaptive data extraction. Each of the 241 planning portals is a unique technical artifact, representing a different era of government IT procurement. Some run on legacy ASP.NE…

如果想继续追踪“best tools for scraping government websites”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。