有没有中文的命名实体识别数据集？-PassingAI Open Community

有没有中文的命名实体识别数据集？

2023-08-29 / 资讯 / 115 阅读

是的，有很多中文的命名实体识别数据集供使用。以下是一些常用的中文命名实体识别数据集：

1. MSRA微软亚洲研究院(CMNLP)：这是一个常用的中文啊命名实体识别数据集，包含新闻和微博等文本，标注了人名、地名和组织名等实体。

2. SIGHAN Bakeoff 2005：这个数据集是由中文的SIGHAN组织举办的一个比赛中使用的，包含新闻文本和网络文本，标注了人名、地名和组织名等实体。

3. OntoNotes 4.0：这是LDC(Linguistic Data Consortium)发布的一个大规模多语种语料库，其中包含中文的命名实体标注数据。

4. WeiboNER：这是一个基于微博文本的中文命名实体标注数据集，包含人名、地名和组织名等实体。

5. CEC-Corpus：这个数据集是清华大学提供的，包含了新闻和网络文本数据，标注了人名、地名和组织名等实体。

这些数据集都可以用于中文命名实体识别任务，可以用于训练和评估中文命名实体识别模型。还有一些其他的数据集也可用于中文命名实体识别，你可以根据自己的需求选择合适的数据集。

本站所展示的一切内容和信息资源等仅限于学习和研究目的，未经允许不得转载，不得将本站内容用于商业或者非法用途。
本站信息均来自AI问答，版权争议与本站无关，所生成内容未经充分论证，本站已做充分告知，请勿作为科学参考依据，否则一切后果自行承担。如对内容有疑议，请及时与本站联系。