有没有中文的命名实体识别数据集?

2023-08-29 / 资讯 / 100 阅读

  是的,有很多中文的命名实体识别数据集供使用。以下是一些常用的中文命名实体识别数据集:

  1. MSRA微软亚洲研究院(CMNLP):这是一个常用的中文啊命名实体识别数据集,包含新闻和微博等文本,标注了人名、地名和组织名等实体。

  2. SIGHAN Bakeoff 2005:这个数据集是由中文的SIGHAN组织举办的一个比赛中使用的,包含新闻文本和网络文本,标注了人名、地名和组织名等实体。

  3. OntoNotes 4.0:这是LDC(Linguistic Data Consortium)发布的一个大规模多语种语料库,其中包含中文的命名实体标注数据。

  4. WeiboNER:这是一个基于微博文本的中文命名实体标注数据集,包含人名、地名和组织名等实体。

  5. CEC-Corpus:这个数据集是清华大学提供的,包含了新闻和网络文本数据,标注了人名、地名和组织名等实体。

  这些数据集都可以用于中文命名实体识别任务,可以用于训练和评估中文命名实体识别模型。还有一些其他的数据集也可用于中文命名实体识别,你可以根据自己的需求选择合适的数据集。

#免责声明#

  本站所展示的一切内容和信息资源等仅限于学习和研究目的,未经允许不得转载,不得将本站内容用于商业或者非法用途。
  本站信息均来自AI问答,版权争议与本站无关,所生成内容未经充分论证,本站已做充分告知,请勿作为科学参考依据,否则一切后果自行承担。如对内容有疑议,请及时与本站联系。