维吾尔文机构名识别研究

被引量 : 0次 | 上传用户:gongleiwp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是信息处理任务的前提和基础,在命名实体中机构名占有相当大的比重,而且是最难识别的一部分。与英文、中文命名实体识别取得的成绩相比,维吾尔文命名实体识别还处于一个初步研究的阶段。维吾尔文机构名具有独特的语法和语义特性,因此维吾尔文机构名的识别并不是英语和汉语中广泛使用的技术的简单移植。本文初步的研究了维吾尔文机构名的识别方法,并通过分析维吾尔文机构名的结构特点,分别采用基于语法语义知识的维吾尔文机构名识别方法和基于条件随机场的维吾尔文机构名识别方法对机构名识别进行初步探讨。最后总结了这两种方法的优点和缺点。首先,根据维吾尔文机构名的语法和语义特性,总结出简单机构名和复杂机构名的构成规律,设计出有效的识别规则和相应的知识库,并设计了基于状态转移原理的高效的识别算法。我们从天山网新闻数据中选取有代表性的实例构建机构名识别的测试集,实验结果显示我们的机构名识别系统具有很高的处理速度和精度,F值为86.06%。其次,进行机构名识别时,把问题转换为序列标注的问题来解决,即用统计的方法来进行机构名识别。由于条件随机场模型能够使用更复杂的特征进行训练和推理,它不仅能够充分利用上下文信息作为特征,还能够任意添加其他的外部特征,目前它是最优秀的序列标注模型之一。因此,本文选择条件随机场来进行机构名识别。本文将传统的词形特征、词性特征以及使用前一个方法时所建立的机构名特征词库、修饰词库和地名词库作为词典特征来进行机构名识别。实验证明,采用CRF识别机构名时,这些特征的有效性基本令人满意,在新疆维吾尔自治区广播电台的新闻语料进行测试,F值为83.92%。
其他文献
湘西土家族非物质文化遗产是国家级非物质文化遗产的重要组成部分,它是了解与认识湘西土家族文化的重要窗口。保护与开发被现代文明边缘化、濒危化的土家族非物质文化遗产是
诗歌是任何一个民族最早的文学类型,是文学家族的长子。孔子曰:“入其国,其教可知也。其为人也温柔敦厚,《诗》教也。”高中语文通过精讲古诗词优秀作品进行教学,能够使学生
中日关系是近现代乃至当代中国最重要的对外关系之一,也是中国对外关系中最复杂、最敏感的关系之一。研究近代以来的中口关系成为历史学界、政治学界、外交学的重点和热点。
锦鸡芦笙是苗族鸟图腾支系的一种集舞曲一起的民间艺术,目前濒临失传的境地,作为人类精神财富的一部分,应通过资料征集、工艺和舞乐传承教育等加强抢救保护和传承。
人的生老病死是自然规律,谁也无法抗拒,随着社会财富的日益积累,人们越来越希望自己的财产在死后能够更好的发挥作用、留给自己最亲近的继承人。但是在没有制定遗嘱的情况下,被继
炎症小体(inflammasome)是免疫细胞内由多种蛋白质所组成的复合体,属于胞浆型模式识别受体(pattern recognition receptor,PRR)。它作为固有免疫系统的重要组分在机体免疫反
本课题研究的是汉语修辞造词,也就是运用修辞手段创造出来的词。通过对《现代汉语词典》(第五版)的穷尽性考察,对修辞造词的情况进行了统计分析,并分别探讨了意义方面的修辞造词、
随着黑龙江省经济的不断发展,加之不同的行业、组织结构、企业文化等,导致大企业在税务风险方面存在极大差异。传统的税收管理办法已远远不能满足税务机关对大企业管理的要求。
加快建立新型农业社会化服务体系,是深化农村改革、推动农村社会主义市场经济发展的一项伟大事业,对于稳定和完善家庭承包经营制度、健全双层经营体制、促进农业现代化都具有
介绍了冰核细菌促进成冰的机制 ,并结合国外有关报道和我们的研究结果 ,论述了冰核细菌在食品冷冻浓缩中导致冰晶形成的结构、冷冻效率、应用前的预处理及食用级冰核细菌在果