后LLM时代的面试革命:代码测试已死,工程思维为王

Hacker News June 2026
来源:Hacker News归档:June 2026
大型语言模型让传统编程测试彻底过时。AINews深入调查技术招聘的范式转变:定义问题与批判性评估AI输出的能力,如今已远超手写代码的速度。未来的面试,将是一场与AI副驾驶的协作。

软件工程面试正经历自白板时代以来最激进的变革。GPT-4o、Claude 3.5 Sonnet等大型语言模型,以及Code Llama、DeepSeek-Coder等开源替代方案的广泛采用,从根本上改变了“高效工程师”的定义。如今,候选人借助AI助手,能在三分钟内完成一道LeetCode Hard难题——而这类题目曾是衡量原始编码能力的可靠标尺。这并非作弊泛滥,而是岗位本身的进化。瓶颈已从写出语法正确的代码,转向将模糊的业务问题分解为清晰、可测试的规范,设计稳健的系统架构,以及批判性地验证AI输出。

技术深度解析

传统编程面试的崩塌源于一个简单的技术现实:LLM已将样板代码和算法解决方案的生成商品化。GPT-4o和Claude 3.5 Sonnet等模型在给定清晰问题陈述时,对标准LeetCode中等难度题目的准确率超过90%。真正的差异化因素不再是回忆特定算法(如Dijkstra算法或线段树)的能力,而是以LLM能够正确解决的方式表述问题的能力。

这需要一套新技能:用于问题分解的提示工程。候选人必须将一个模糊的产品需求拆解为原子化、可验证的子问题。例如,与其要求“编写一个函数来查找前K个热门话题”,熟练的工程师必须指定数据源、时间窗口、“热门”的定义(例如,速度vs.绝对计数)以及所需的输出格式。然后LLM生成代码,但工程师必须批判性地评估其正确性、边界情况和性能影响。

多个开源仓库正在加速这一转变。Continue.dev(GitHub星标超过25,000)提供了一个开源AI代码助手,可直接集成到VS Code和JetBrains等IDE中。它允许面试官模拟真实的AI增强环境。Aider(星标超过20,000)是一个命令行工具,可以编辑git仓库中的代码,实现一种“结对编程”工作流,候选人可以迭代地优化AI的输出。Sweep AI(星标超过10,000)可自动处理小型GitHub问题,展示了AI如何处理日常编码任务,进一步凸显了工程师需要定义问题而非编写解决方案。

基准数据揭示了测试原始编码能力的收益递减:

| 基准测试 | 人类专家(中位数) | GPT-4o(零样本) | Claude 3.5 Sonnet(零样本) | DeepSeek-Coder V2(零样本) |
|---|---|---|---|---|
| HumanEval(Pass@1) | 92% | 90.2% | 92.0% | 90.5% |
| MBPP(Pass@1) | 88% | 87.5% | 88.3% | 87.8% |
| SWE-bench Lite(已解决) | 45% | 43.1% | 49.2% | 42.5% |
| LeetCode Hard(竞赛) | 40% | 38.5% | 41.0% | 39.2% |

数据要点: 顶级LLM现在在标准编码基准测试上达到或超过人类专家中位数。测试孤立的编码能力不再是一个有效的信号。候选人之间的差异将由更高阶的技能驱动:问题框架、系统设计和AI输出验证。

因此,新的面试形式必须评估协作式调试。AI生成的解决方案通常包含细微的错误,例如差一错误、错误的API使用或性能瓶颈。候选人通过系统推理识别这些缺陷的能力——即使他们没有自己编写代码——成为主要信号。这反映了现实场景:工程师花费更多时间阅读、审查和调试代码,而不是从头编写代码。

关键参与者与案例研究

几家有远见的公司已经在试点新的面试形式。Stripe引入了一个“系统设计与AI结对编程”环节,候选人会获得一个高层次的产品目标(例如,“设计一个实时支付欺诈检测系统”)并可以使用LLM。面试官评估候选人如何分解问题、向AI提出什么问题以及如何验证AI的架构建议。早期内部数据表明,这种形式与工作绩效的相关性比他们之前的算法面试高出30%。

Airbnb尝试了一种“AI辅助调试”练习。候选人会看到一个存在已知问题的损坏代码库。他们可以使用LLM帮助诊断和修复问题。评估侧重于候选人的调试策略:他们是盲目信任AI的修复,还是编写单元测试来验证解决方案?他们是否理解根本原因,还是仅仅应用了表面补丁?这种方法已被证明可以将误报率(招聘到在算法上表现良好但在实际任务中表现不佳的候选人)降低约25%。

Google已公开承认这一挑战,但适应速度较慢。他们的内部研究表明,虽然LLM可以解决许多面试问题,但解释解决方案背后推理的能力仍然是一个有价值的信号。然而,批评者认为,这仍然是在衡量对解释的记忆,而不是真正的解决问题的能力。Google目前的方法是提出更开放、系统级的问题,这些问题更难让LLM直接回答,例如“设计一个具有强一致性的分布式键值存储”。这是朝着正确方向迈出的一步,但它仍然依赖于候选人回忆和综合已知模式的能力,而不是在AI增强环境中导航。

当前面试形式的比较

更多来自 Hacker News

超越短期奖励:有益强化学习如何重塑AI信任与安全强化学习长期以来一直是驱动AI能力快速提升的引擎,但其对即时奖励的执着追求也带来了意想不到的副作用——从奖励黑客行为到不安全的涌现行为。OpenAI的最新研究提出了一种名为「有益强化学习」(BRL)的新框架,从根本上重新思考了RL的目标。B你的名字在AI权重中:新工具曝光大模型里的数字身份一款新发布的工具使个人能够同时查询多个大语言模型,以确定这些模型是否拥有关于他们的知识——包括姓名、职业、显著成就或其他个人标识符。通过向一系列多样化的模型发送相同的提示——从GPT-4o和Claude 3.5等前沿系统,到Llama 3和LLM将内核调优从分钟级压缩至秒级:实时AI优化的黎明传统的内核自动调优方法一直依赖蛮力搜索:穷举编译器标志、循环变换和内存布局的组合空间,以找到最优配置。虽然有效,但这一过程极其缓慢,复杂内核往往需要数分钟甚至数小时。如今,一种新颖方法借助大型语言模型彻底改变了这一格局。LLM不再将搜索空间查看来源专题页Hacker News 已收录 4904 篇文章

时间归档

June 20261804 篇已发布文章

延伸阅读

超越短期奖励:有益强化学习如何重塑AI信任与安全OpenAI全新推出的「有益强化学习」框架,标志着从短期奖励优化向长期、情境感知的有益行为转变。这一突破有望重新定义大模型与自主智能体的AI安全、信任与商业可行性。LLM将内核调优从分钟级压缩至秒级:实时AI优化的黎明一项突破性技术利用大型语言模型引导Helion内核的自动调优,将优化时间从数分钟压缩至数秒。这标志着高性能计算领域的范式转变——LLM从代码生成器进化为智能搜索导航器,为动态AI工作负载实现实时、民主化的内核优化。AI Commander:解锁云端AI代理的远程桌面时刻AINews独家发现一款突破性平台AI Commander,它能让AI代理无需任何网络配置即可远程控制任何电脑。通过轻量级桌面应用生成即时连接码,该方案彻底消除了VPN/SSH部署障碍,有望重塑企业如何在分布式员工中部署AI代理。浏览器端AI助手终结服务器成本:云依赖聊天机器人的末日来临一个全新平台让网站所有者嵌入完全在浏览器中运行的AI常见问题解答助手——无需服务器、无需API调用、数据不离开设备。这标志着客户支持领域向轻量级、隐私保护型AI的激进转变。

常见问题

这次模型发布“The Post-LLM Interview Revolution: Why Code Tests Are Dead and Engineering Thinking Reigns Supreme”的核心内容是什么?

The software engineering interview is undergoing its most radical transformation since the advent of the whiteboard. The widespread adoption of large language models (LLMs) like GP…

从“How to prepare for AI-assisted coding interviews in 2026”看,这个模型发布为什么重要?

The collapse of the traditional coding interview is rooted in a simple technical reality: LLMs have commoditized the generation of boilerplate and algorithmic solutions. Models like GPT-4o and Claude 3.5 Sonnet achieve >…

围绕“Best open-source tools for practicing pair programming interviews”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。