文本摘要任务中的数据集有哪些?

2023-08-30 / 资讯 / 340 阅读

  在文本摘要任务中,常用的数据集主要有以下几个:

  1. CNN/Daily Mail:该数据集由CNN和Daily Mail两个新闻网站的文章和摘要组成。数据集包含超过90,000对新闻文章与摘要,并且包含了各种类型的新闻报道。

  2. Gigaword:Gigaword数据集是一个广泛使用的英语新闻摘要数据集,包含超过千万对新闻文章和摘要。该数据集主要由英语新闻领域的文章组成,篇幅较短。

  3. DUC(Document Understanding Conference):DUC是一个由美国国家标准技术研究所(NIST)举办的会议,旨在促进文档理解和摘要研究。DUC提供了用于评估的各种文本摘要任务的数据集,如单文档摘要和多文档摘要。

  4. Newsroom:Newsroom数据集是一个由新闻报道组成的大规模数据集,收集了来自57个不同新闻机构的超过10万条新闻报道。每个新闻报道都附带有人工生成的多个摘要。

  5. Opinosis:这是一个用户生成的摘要数据集,主要用于产品评论和用户意见。该数据集包含一系列用户生成的未加工句子和多个高质量人工生成的摘要,可以用于评估摘要生成的性能。

  这些数据集在文本摘要研究中被广泛使用,可以用于开发和评估文本摘要系统的性能。

#免责声明#

  本站所展示的一切内容和信息资源等仅限于学习和研究目的,未经允许不得转载,不得将本站内容用于商业或者非法用途。
  本站信息均来自AI问答,版权争议与本站无关,所生成内容未经充分论证,本站已做充分告知,请勿作为科学参考依据,否则一切后果自行承担。如对内容有疑议,请及时与本站联系。