last30days-skill AI智能体:如何自动化执行跨社交媒体与全网实时研究

GitHub March 2026
⭐ 15211📈 +15211
来源:GitHubopen-source AI tools归档:March 2026
开源项目‘last30days-skill’代表了自主AI研究领域的重大飞跃。它允许用户指令一个智能体,在主流社交平台和开放网络上爬取过去一个月的讨论,将碎片化的数字杂音合成为连贯、基于事实的摘要,不仅挑战了传统研究流程,更引发了关于信息处理范式的深层思考。

GitHub仓库`mvanhorn/last30days-skill`迅速走红,已获得超过15,000颗星,其成功在于为信息过载这一普遍现代难题提供了务实解决方案。该项目是一个AI智能体‘技能’——一个模块化、可执行的函数。它接受用户查询,自动在一系列精选的动态来源(包括Reddit、X(原Twitter)、YouTube、Hacker News、Polymarket及通用网页搜索)中进行研究,并返回一份聚焦过去30天活动的综合摘要。其核心价值主张在于即时性与广度。用户无需手动访问多个界面和算法各异的平台,只需发出单一指令。智能体负责整个编排过程:制定搜索查询、调用各平台API、处理内容并最终生成报告。这实质上是将传统上耗时数小时甚至数天的横向研究过程,压缩至几分钟内完成。该项目不仅是一个工具,更是一种方法论,它展示了模块化AI智能体如何通过编排现有工具和API来执行复杂、多步骤的现实世界任务。其开源特性允许社区审查、改进和扩展其功能,使其成为一个不断发展的生态系统,而非封闭的黑箱服务。

技术深度解析

`last30days-skill`智能体被设计为一个由离散、编排好的模块组成的流水线,这反映了构建可靠AI智能体的现代最佳实践。其工作流程可分解为四个主要阶段:查询规划与源选择、数据获取、内容处理、以及综合与事实锚定。

1. 查询规划与源选择: 当接收到自然语言查询(例如,“Sora对独立电影制作的影响”)时,智能体首先使用一个LLM(可能根据用户选择的提供商配置,如OpenAI的GPT-4或Anthropic的Claude)将查询分解为针对各平台优化的搜索字符串。同时,它还会判断每个集成来源的相关性。对于一个科技话题,Hacker News和Reddit的r/technology子版块可能会被优先考虑;对于一个投机市场事件,Polymarket和X的权重则会更高。

2. 数据获取: 这是机械复杂度最高的层面。智能体混合使用官方API和非官方爬取路径与平台交互:
- Reddit: 使用`praw`库访问子版块和帖子,并遵守速率限制。
- X: 依赖v2 API,或者鉴于其限制性成本,可能采用轻量级爬虫如`twscrape`来获取推文和讨论串。
- YouTube: 利用`youtube-transcript-api`和`pytube`库获取视频元数据,关键是获取转录文本,从而将视频内容转化为可处理的文本。
- Hacker News: 使用公共的Algolia API或简单的`hn` Python库来获取故事和评论。
- Polymarket: 可能直接查询该平台的GraphQL API以获取市场数据和解决概率。
- 网页搜索: 集成`duckduckgo-search`或`google-search-results`包以实现广泛的网络覆盖。

此处的一个关键工程挑战是管理异步调用、速率限制和超时,以确保智能体在合理的时间框架内(理想情况下在60秒内)完成研究。

3. 内容处理: 原始数据被清理和分块。去除HTML标签,格式化转录文本,并识别重复内容。关键一步是“信息降噪”——使用启发式方法和嵌入向量来过滤垃圾信息、低质量评论和明显离题的内容。智能体可能会计算一些基本指标,如Reddit/HN的赞踩比或X上的互动指标,以加权衡量某条内容的感知重要性。

4. 综合与事实锚定: 所有处理后的文本块,连同精心设计的系统提示词,被输入核心LLM。该提示词指示模型扮演中立分析师的角色,综合关键点,突出共识和争议领域,并且最重要的是——为其主张引用具体来源。这种“事实锚定”通过要求模型引用用户名、子版块或视频标题来实现,尽管它并非完美的检索增强生成系统,仍可能产生虚假引用。

| 处理阶段 | 关键库/工具 | 延迟贡献 | 主要挑战 |
|---|---|---|---|
| 查询规划 | LLM (GPT-4, Claude等) | 2-5秒 | 成本优化与提示词可靠性 |
| 数据获取 | `praw`, `twscrape`, `pytube`, DDG搜索 | 20-40秒 | 速率限制与API稳定性 |
| 内容处理 | `beautifulsoup4`, `sentence-transformers` | 5-10秒 | 降噪与相关性评分 |
| 综合与事实锚定 | LLM (上下文窗口: 128K+) | 10-20秒 | 幻觉与引用准确性 |

数据启示: 延迟细分显示该智能体受I/O限制,大部分时间花在从外部平台获取数据上。成本和性能主要由两次LLM调用主导:一次用于规划,一次用于综合。优化数据获取层并为热门话题实施更智能的缓存,将带来最显著的用户体验提升。

关键参与者与案例研究

`last30days-skill`项目存在于一个旨在驯服在线信息洪流的工具竞争格局中。它通过开源、多平台和以智能体为导向的特性脱颖而出。

商业竞争对手:
- Perplexity AI: 最直接的比较对象。Perplexity提供了一个对话式搜索界面,能提供来自网络的简洁、带引用的答案,并在其Pro层级允许用户将搜索聚焦于特定来源如Reddit或YouTube。然而,它是一个中心化的服务,拥有专有的前端和模型微调。
- Mendable / Glean(面向企业): 这些是面向公司的AI搜索和知识库平台。它们可以摄取内部文档和公共网络内容,但并非专为实时、跨平台的社交情绪分析而构建。
- Brandwatch, Talkwalker: 老牌社交聆听平台。它们提供深度分析、历史数据和情绪跟踪,但以企业为中心、价格昂贵,且较少关注生成叙事性摘要。

更多来自 GitHub

MumuAINovel:开源AI小说家,重塑创意写作的边界开源社区正围绕MumuAINovel凝聚力量,这是一款专注于小说写作的AI工具。与将所有文本生成一视同仁的通用AI助手不同,MumuAINovel优先考虑叙事逻辑、长篇文本连贯性以及角色弧光的一致性。其架构很可能结合了前端编辑器与后端AI服Shadowsocks-libev 进入维护模式:为何 Rust 是安全代理工具的未来Shadowsocks-libev 项目因其极小的内存占用和通过 libev 实现的高效异步 I/O,长期以来一直是嵌入式设备和 OpenWrt 路由器的首选代理工具。如今,该项目已正式进入仅修复 Bug 的维护模式,核心团队将所有新功能开Tun2socks 遇上 gVisor:用户态网络重新定义全局代理性能开源项目 xjasonlyu/tun2socks 凭借对经典网络工具的重新构想,已在 GitHub 上收获超过 5,100 颗星。传统 tun2socks 实现依赖内核级 TUN 设备,常因用户态与内核态之间的频繁上下文切换而遭遇性能瓶颈。查看来源专题页GitHub 已收录 1794 篇文章

相关专题

open-source AI tools33 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

个人AI基础设施:开源智能体系统如何重新定义人类能力Daniel Miessler 的 personal_ai_infrastructure 项目在 GitHub 上星标数已突破 12,000,它提供了一套模块化、开源的蓝图,用于构建能够增强人类决策能力的智能体 AI 系统。这不仅仅是一个工Garden Skills:ConardLi 的开源 AI 工具包,重塑开发者工作流ConardLi 打造的 Garden Skills 正以惊人速度崛起,成为备受瞩目的开源仓库。它提供了一套模块化的 AI 工具集合,涵盖网页设计、知识检索与图像生成。凭借 4161 颗星标与每日 540 颗的激增速度,这个工具包凭借其实用MergeVal:一条命令搞定模型合并与评测,LLM工作流迎来新范式MergeVal 是一款轻量级开源工具,将模型合并(基于 mergekit)与标准化基准评测(基于 lm-eval-harness)整合为一条命令,让 AI 研究者与开发者彻底告别手动切换工具的繁琐流程。尽管该项目尚处早期阶段,GitHubHermes WebUI 异军突起:为何这款开源 LLM 界面每日狂揽 400 颗星Hermes WebUI,一款通过 Ollama 在本地运行大语言模型的轻量级 Web 界面,以惊人的速度在开源社区蹿红,短短数日便斩获近 4000 颗 GitHub Star。AINews 深入探究这款工具的独特之处,以及开发者社区为何纷

常见问题

GitHub 热点“How last30days-skill AI Agent Automates Real-Time Research Across Social Media and Web”主要讲了什么?

The GitHub repository mvanhorn/last30days-skill has rapidly gained traction, amassing over 15,000 stars, by offering a pragmatic solution to a pervasive modern problem: information…

这个 GitHub 项目在“How to set up last30days-skill API keys for all platforms”上为什么会引发关注?

The last30days-skill agent is architected as a pipeline of discrete, orchestrated modules, reflecting modern best practices for building reliable AI agents. The workflow can be decomposed into four primary stages: Query…

从“last30days-skill vs Perplexity AI cost and accuracy comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 15211,近一日增长约为 15211,这说明它在开源社区具有较强讨论度和扩散能力。