中文诗歌数据库:51K星GitHub仓库,NLP与文化AI的基石

GitHub June 2026
⭐ 51910📈 +529
来源:GitHub归档:June 2026
一个托管超过31.5万首结构化中文诗歌的GitHub仓库,意外成为NLP研究者与文化AI开发者的核心资源。chinese-poetry/chinese-poetry项目提供了最全面的唐宋诗歌结构化数据库,现已收获51,910颗星,且仍在增长。

chinese-poetry/chinese-poetry仓库在GitHub上悄然崛起,成为中文自然语言处理与数字人文学科最重要的开源资源之一。拥有51,910颗星,日均新增529星,它收录了近5.5万首唐诗、26万首宋诗以及2.1万首宋词,涵盖超过1.4万名诗人。该项目的核心创新在于对古典诗歌进行系统化的JSON格式整理与去重,将数百年的文学遗产转化为机器可读数据。这一结构化语料库现被用于训练大语言模型、构建教育应用以及开展计算文学分析。该仓库的流行反映了市场对高质量、文化丰富的数据集日益增长的需求,这类数据集正成为连接古典人文学科与现代AI的桥梁。

技术深度解析

chinese-poetry/chinese-poetry仓库并非简单的文本文件集合,而是一个经过精心设计、针对机器消费优化的数据集。其核心技术成就在于将非结构化的古典中文诗歌转化为统一的JSON格式,并在所有朝代和体裁中保持一致的架构。

数据架构:
每首诗条目遵循标准化的JSON结构:
```json
{
"id": "tang_001",
"title": "静夜思",
"author": "李白",
"dynasty": "唐",
"content": ["床前明月光", "疑是地上霜", "举头望明月", "低头思故乡"],
"tags": ["五言绝句", "思乡"],
"source": "全唐诗"
}
```
此架构支持直接导入NLP流水线,无需预处理。仓库包含独立目录,分别存放唐诗(quan_tang_shi)、宋诗(quan_song_shi)和宋词(song_ci),各有其元数据约定。

去重算法:
古典诗歌集的高重复率是一项重大工程挑战。同一首诗常出现在多个选集中,且存在细微差异。项目采用模糊去重方法,包括:
- 字符级编辑距离(Levenshtein),阈值为0.85
- 标题标准化(去除标点、繁简转换)
- 作者名消歧(处理笔名、字号)

数据质量指标:
| 指标 | 唐诗 | 宋诗 | 宋词 |
|---|---|---|---|
| 总条目数 | 54,892 | 261,734 | 21,050 |
| 去重后独特诗作数 | 49,231 | 238,107 | 19,842 |
| 去重率 | 10.3% | 9.0% | 5.7% |
| 平均诗长(字符) | 40.2 | 56.8 | 78.4 |
| 独特作者数 | 2,200+ | 9,000+ | 1,564 |

数据要点: 去重工作不容小觑——移除10%的唐诗显著提升了NLP模型的训练信噪比。平均诗长的差异反映了体裁特征:唐诗更简洁(通常4-8行),而宋词更长且变化更多。

编码与预处理:
仓库采用UTF-8编码,保留繁体中文。配套的预处理脚本(位于tools/目录)提供:
- 使用OpenCC进行繁简转换
- 通过pypinyin进行拼音罗马化
- 使用jieba配合自定义诗歌词典进行词性标注
- 基于古典音韵学规则的押韵模式检测

技术局限:
当前架构缺乏针对诗歌手法(押韵、对仗、用典)的行级注释。这限制了其在高级文学分析中的应用,除非额外添加标注。仓库也未包含韵律元数据(声调模式、格律),添加这些需要深厚的语言学专业知识。

关键参与者与案例研究

尽管该仓库由社区维护,其影响力已遍及多个商业和学术项目:

商业应用:
| 公司/产品 | 应用场景 | 实现方式 |
|---|---|---|
| 字节跳动(豆包) | 社交应用中的诗歌生成 | 在宋诗子集上微调,实现风格迁移 |
| 百度(ERNIE 4.0) | 古典中文理解基准 | 用作古典文本理解的评估数据集 |
| 腾讯(混元) | 教育聊天机器人 | 集成作为诗歌问答的知识库 |
| 阿里巴巴(Qwen 2.5) | 文化AI功能 | 纳入训练混合集,提升古典文本生成能力 |

学术研究:
- 北京大学数字人文实验室使用该数据集进行唐诗作者的风格计量分析
- 清华大学NLP团队发表论文《诗歌风格迁移》,以该语料库为训练数据
- 斯坦福大学中国文学项目将其数据集与自身手稿数字化工作进行交叉引用

独立开发者:
- 热门移动应用“每日一诗”(下载量超100万)以该仓库为主要数据源
- 多个GitHub项目(如poem-generator-bert、ci-poetry-rnn)明确致谢该仓库提供训练数据

数据要点: 该仓库的采用范围从科技巨头延伸至独立开发者,彰显其作为基础资源的价值。所有主要中国AI实验室都(直接或间接)使用它来开发古典中文能力,这凸显了其战略重要性。

行业影响与市场动态

chinese-poetry仓库处于两大增长市场的交汇点:中文AI与数字人文学科。

市场增长:
| 细分市场 | 2023年市场规模 | 2028年预测 | 年复合增长率 |
|---|---|---|---|
| 中文NLP市场 | 28亿美元 | 85亿美元 | 24.8% |
| 数字人文工具 | 4亿美元 | 12亿美元 | 24.6% |
| 文化AI应用 | 11亿美元 | 39亿美元 | 28.5% |

竞争格局:
尽管chinese-poetry是最大的开源诗歌数据集,但存在替代方案:
- Chinese-Poetry-BERT(GitHub,2.3K星):规模较小但带有押韵和声调标签的注释数据集
- Classical-Chine(GitHub,1.8K星):专注于先秦诗歌,格式类似但覆盖范围更窄
- Poetry-Spirit(商业产品):提供API接口,但数据来源不透明且需付费

数据要点: chinese-poetry的竞争优势在于其规模、结构一致性以及社区活跃度。然而,缺乏高级注释为专业数据集(如Chinese-Poetry-BERT)留下了差异化空间。未来,该仓库可能需整合更多元数据(如韵律、注释)以维持其领先地位。

更多来自 GitHub

Mistral-Finetune:开源微调工具,如何改写企业AI定制规则总部位于巴黎的 AI 实验室 Mistral AI,以其高效的开源权重模型闻名,近日推出了 Mistral-Finetune——一个专为微调其 Mistral 7B 和 Mixtral 8x7B 模型而设计的工具库。该工具旨在解决企业面临的Iroh重写互联网协议栈:用“拨号密钥”取代IP地址互联网的基础寻址系统——IP地址——已显老态:它们会变动、会被劫持,并将身份绑定在物理网络位置上。Iroh,这个来自n0-computer团队(IPFS项目Earthstar的原班人马)的开源项目,提出了一个激进的替代方案:拨号密钥。不同于Mondrian OLAP:实时商业智能背后默默无闻的引擎Mondrian 不仅仅是一个 OLAP 引擎,它更是一块基础性基础设施,十多年来悄无声息地驱动着无数商业智能仪表盘和报表工具。作为 Pentaho 套件的核心分析组件,Mondrian 将复杂的 MDX 查询转化为优化的 SQL,让用户能查看来源专题页GitHub 已收录 2720 篇文章

时间归档

June 20261654 篇已发布文章

延伸阅读

Mistral-Finetune:开源微调工具,如何改写企业AI定制规则Mistral AI 正式发布 Mistral-Finetune,一款专为其开源模型打造的微调工具包。通过 LoRA 与 QLoRA 等参数高效方法,该工具大幅降低企业定制门槛,但仅支持自家模型的策略,也引发了关于生态锁定与社区采纳的深层讨Iroh重写互联网协议栈:用“拨号密钥”取代IP地址n0-computer团队推出的模块化Rust网络栈Iroh,正引领一场从IP地址向稳定“拨号密钥”的范式转移。基于QUIC协议与内容寻址网络,它为去中心化应用提供了更具韧性、更安全的基础设施。Mondrian OLAP:实时商业智能背后默默无闻的引擎作为 Pentaho 生态系统的核心,开源 OLAP 服务器 Mondrian 通过 MDX 查询实现对海量数据集的实时交互式分析。本文深入剖析其架构、性能特征以及在不断演变的 BI 领域中的战略重要性。Quartz Scheduler: The Unsung Hero of Java Task Orchestration Still Dominates in 2025Quartz Scheduler, the battle-tested open-source job scheduling library for Java, continues to power mission-critical bat

常见问题

GitHub 热点“Chinese Poetry Database: The 51K-Star GitHub Repo Powering NLP and Cultural AI”主要讲了什么?

The chinese-poetry/chinese-poetry repository on GitHub has quietly become one of the most important open-source resources for Chinese natural language processing and digital humani…

这个 GitHub 项目在“How to use chinese-poetry dataset for fine-tuning LLMs”上为什么会引发关注?

The chinese-poetry/chinese-poetry repository is not merely a collection of text files but a meticulously engineered dataset optimized for machine consumption. The core technical achievement is the transformation of unstr…

从“chinese-poetry GitHub deduplication algorithm explained”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 51910,近一日增长约为 529,这说明它在开源社区具有较强讨论度和扩散能力。