BERT的预训练阶段使用了哪些大规模语料库？-PassingAI Open Community

BERT的预训练阶段使用了哪些大规模语料库？

2023-08-27 / 资讯 / 73 阅读

BERT的预训练阶段使用了两个大规模语料库：BookCorpus和英语维基百科（English Wikipedia）。

1. BookCorpus：这个语料库由开源项目Project Gutenberg提供的11,038本英文电子书构成，总计包含了8亿个单词。这些书籍来自各个领域，涵盖了各种不同的主题，包括小说、历史、科学、技术等。这个语料库的内容丰富多样，适合用于训练通用的语言模型。

2. 英语维基百科：BERT的预训练也包括了从英语维基百科中收集的文本。维基百科是一个由志愿者贡献的免费百科全书，它包含了丰富的知识和信息，涵盖了几乎所有的领域和主题。通过使用维基百科的文本，BERT能够获取更多领域和主题的知识，并且能够对广泛的文本类型进行更好的理解。

这两个大规模语料库的使用可以帮助BERT在预训练阶段学习到更多通用的语言知识和语义信息，从而提高其在各种下游自然语言处理任务中的性能。

本站所展示的一切内容和信息资源等仅限于学习和研究目的，未经允许不得转载，不得将本站内容用于商业或者非法用途。
本站信息均来自AI问答，版权争议与本站无关，所生成内容未经充分论证，本站已做充分告知，请勿作为科学参考依据，否则一切后果自行承担。如对内容有疑议，请及时与本站联系。