MNBVC：超大规模中文语料数据集

xiaoyong 9月 06, 2023 9.69k 浏览 0

MNBVC：超大规模中文语料数据集, 目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等各种形式的纯文本中文数据。不但包括主流文化，也包括各个小众文化甚至火星文的数据。

项目目前进度为19.96%，总数据量为7984GB。目标是达到ChatGPT的40T数据。

Github：https://github.com/esbatmop/MNBVC

清洗好的分类数据：https://huggingface.co/datasets/liwu/MNBVC

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/52478.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

MNBVC：超大规模中文语料数据集

文章推荐：

标签