基于维基百科的中文命名实体语料库构建研究

来源 :苏州大学 | 被引量 : 8次 | 上传用户:biao_oaib
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息抽取的一个子任务,命名实体识别是自然语言处理研究中十分基础而又重要的工作,在机器翻译、自动问答系统、实体关系抽取等工作中有着重要的应用。基于统计机器学习的命名实体识别方法需要大量人工标注的语料,这些语料的标注,需要投入大量的人力,并且语料的规模及其领域范围都相对有限。针对这些问题,本文基于中文维基百科,自动构建了中文命名实体语料库,主要研究内容如下:(1)中文维基百科条目的实体分类。中文维基百科目前已收录86万多个条目,这些条目中包含了大量的命名实体。本文从维基百科页面中提取信息框和页面分类中的有效特征,并结合中文特点,加入扩展特征及词义特征,采用基于SVM的方法对中文维基百科条目进行实体分类;(2)基于维基百科的命名实体语料库构建。本文利用维基百科中的内链接信息和对应的实体类别信息自动标注维基百科文本中的命名实体,再通过补充标注和句子选择来自动构造大规模的命名实体语料。最后通过抽样统计和封闭测试来评估语料的标注质量;(3)维基百科命名实体语料库的应用。本文将自动标注语料与手工标注语料进行了封闭测试的性能对比,并且通过混合测试和跨领域测试来验证自动标注语料的有效性。本文的实验表明,维基百科条目的命名实体分类可以取得很高的性能,在此基础上自动构建的命名实体标注语料,虽然总体性能还不能和人工标注的语料相比,但在混合测试中显示了其对手工标注语料的帮助,在特定的领域中也可以超过某些语料库。因此基于维基百科自动产生的命名实体语料库具有较好的研究和应用潜力。
其他文献
在母亲节,许多人将康乃馨赠给母亲,这源于1934年5月美国首次发行母亲节纪念邮票。邮票上一位慈祥的母亲,双手放在膝上,欣喜地看着前面的花瓶中一束鲜艳美丽的康乃罄。随着邮票的
目的:了解小儿病毒性脑炎治疗中抗生素使用情况。方法:抽查出院诊断为病毒性脑炎的病例54份,统计抗生素类药物使用情况。结果:52例给予抗生素治疗,使用率为96.3%(52/54),且起点高、联用
广州增城大桥采用飞燕式、无横撑外加斜靠拱的设计方案,主跨为(30+100+30)m,采用钢箱的刚性系杆并进行张拉,以此来平衡墩底的水平推力。文中通过方案对比确定了最优系杆张拉方法,使主
棚室是进行设施园艺生产的基础。设施农业,是一项改造自然的工程,是农业生产方式的一场革命。发展设施农业,是加快发展现代农业的积极措施。无论在技术、经济方面,还是在环境、能
维生素A缺乏(Vitamin A Deficiency,VAD)的判断标准为:血清维生素A浓度1.05~2.07μmol/L为正常,0.70~1.05μmol/L为亚临床可疑缺乏,低于0.70μmol/L为亚临床缺乏,其中0.50~0.70μmol/L为轻度缺乏,0.3
"三俗"文化虽早已侵染了高校学生文化圈,但因受制于严重的功能困境,思想政治理论课并没有作出相应反应。文章提出了"角色维度"这一创新功能,借以破解功能矛盾,进而增强理论感召力
高铁血红蛋白(methemoglobin,MetHb)是遗传因素或吸收毒性化合物后由红细胞产生的,其含量超过一定水平即可引起高铁血红蛋白血症(methemoglobinemia),分为获得性和遗传性两大类。遗
真正的哲学是"时代精神的精华",是"文明的活的灵魂"。哲学是"发展"着的一门学问,它总是随着时代和实践发展而不断改变自己的实现形式。人类社会每一次重大跃迁,人类文明每一
现行税收制度与当前经济社会高质量发展的要求存在诸多不适应之处,需要进一步深化税制改革。主要表现为:我国税收营商环境有待优化、税收收入分享体制亟待完善、纳税人分类制
岩石强度准则中待定参数因拟合方法不同而有所差异。文中基于3种常规三轴强度准则和12种岩石的试验数据,采用3种拟合方法确定强度准则中待定参数并对其进行评价。结果表明,利