BERT的预训练阶段使用了哪些大规模语料库?

2023-08-27 / 资讯 / 73 阅读

  BERT的预训练阶段使用了两个大规模语料库:BookCorpus和英语维基百科(English Wikipedia)。

  1. BookCorpus:这个语料库由开源项目Project Gutenberg提供的11,038本英文电子书构成,总计包含了8亿个单词。这些书籍来自各个领域,涵盖了各种不同的主题,包括小说、历史、科学、技术等。这个语料库的内容丰富多样,适合用于训练通用的语言模型。

  2. 英语维基百科:BERT的预训练也包括了从英语维基百科中收集的文本。维基百科是一个由志愿者贡献的免费百科全书,它包含了丰富的知识和信息,涵盖了几乎所有的领域和主题。通过使用维基百科的文本,BERT能够获取更多领域和主题的知识,并且能够对广泛的文本类型进行更好的理解。

  这两个大规模语料库的使用可以帮助BERT在预训练阶段学习到更多通用的语言知识和语义信息,从而提高其在各种下游自然语言处理任务中的性能。

#免责声明#

  本站所展示的一切内容和信息资源等仅限于学习和研究目的,未经允许不得转载,不得将本站内容用于商业或者非法用途。
  本站信息均来自AI问答,版权争议与本站无关,所生成内容未经充分论证,本站已做充分告知,请勿作为科学参考依据,否则一切后果自行承担。如对内容有疑议,请及时与本站联系。