好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

MNBVC:超大规模中文语料数据集

MNBVC:超大规模中文语料数据集, 目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等各种形式的纯文本中文数据。不但包括主流文化,也包括各个小众文化甚至火星文的数据

项目目前进度为19.96%,总数据量为7984GB。目标是达到ChatGPT的40T数据。

Github:https://github.com/esbatmop/MNBVC

清洗好的分类数据:https://huggingface.co/datasets/liwu/MNBVC

上一篇:

下一篇:


标签