论文部分内容阅读
THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库.原始语料从2016年的天山网维文版① http:∥uy.ts.cn/下载,题材内容包含新闻、法律、财经、生活等.语料库构建步骤为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象.语料库包含10596个文档、69200个句子,词语类型为89923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/.该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源.