中文名实体识别与新词发现技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yifanvip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名实体及新词是能够准确反映文本内容的基本信息元素,是正确理解文本的基础。名实体识别及新词发现技术广泛应用于诸多自然语言处理任务中,如信息检索、机器翻译、文本分类以及自动文摘等,所以名实体识别及新词发现的研究成果必将推动自然语言处理领域的相关研究。本文主要对中文名实体识别及新词发现进行了研究,具体的研究内容主要包括以下几个方面:1.针对当前名实体识别中识别效率低下,实用性不高以及对复杂名实体识别效果差的问题,本文根据中文名实体具有嵌套的特点,利用层次隐马尔科夫模型来分别对简单地名、人名;地名简称;复杂地名、机构名分层进行识别。在识别过程中自行设计了粗切分方法,在粗分的基础上利用自行设计的标记集来分层标注,最终识别出想要的名实体。在每一层利用N-best思想,输出N个结果给下一层,以求找到最优的解。2.针对层次隐马尔科夫模型中数据稀疏以及系统移植性差的问题,在上面的分层处理结束后我们利用改进的基于转换的学习方法作为后处理技术来自行改进识别效果。由于对TBL学习到的规则进行了优化,目前的后处理具有较好的效率。在2004年863标准测试集上进行了开放测试,测试结果的F值达到83%。3.针对当前新词发现中新词长度受限、领域受限以及对发现的正确新词不能优先排序等问题,本文利用统计与规则相结合的策略来进行新词发现。利用重复串频度查找来构建新词候选集;然后利用停用词集、停用词性集、头部停用词性集、尾部停用词性集、有限窗口过滤等技术来进行垃圾串滤除。对于得到的新词集,本文使用基于频度比和基于TF/IDF两种策略来进行重排序。最终,基于频度比的策略具有最好的新词发现性能,而基于TF/IDF的策略对于专业术语具有较好的识别性能。本文中,对新词发现的准确率在60%以上,召回率接近90%。
其他文献
Rijndael在2000年被确定为美国高级加密标准(AES),现在已成为商业数据加密的国际标准。AES(Advanced Encryption Standard)的密码分析和应用研究已越来越受到人们的重视。由于
安全生产是煤矿安全的一个永恒话题,其中安全运输是安全生产中的一个重要组成部分。目前,国内煤矿井下都安装了视频设备,但如何充分利用这些设备提高井下机车撞人等轨道事故
现今的很多门户网站,为了满足各类用户的信息查询和浏览要求,往往都做得比较复杂;并且当不同用户访问同一页面时,看到的都是相同的内容,而忽略了用户的个性化需求。随着互联
在过去几十年无线传感器网络(Wireless Sensor Networks, WSNs)得到了快速、全面的发展,其应用领域也在逐渐扩大。求解可同时传输的链路数目问题是无线传感器网络研究的基本
手写输入与语音输入是人机交互中最自然、最符合人类习惯的交互方式,而手写体识别与语音识别也是多模式人机交互领域中的重要研究对象。这两种对象具有一个共同的特点,那就是
面向服务架构(SOA)是新一代的架构思想,用于分布式软件开发。由于SOA具有良好的松耦合、与平台无关等特性,很好的解决了系统的灵活性和互操作问题,因而具有广泛的应用。目前,作为
随着计算机网络及其相关技术的发展和不断完善,尤其是在初步实现教育信息化的今天,人们正在企图以计算机网络为操作平台,探讨教学质量评估技术,保证评估结果的公平、公正,从而提高
美国ARGOS卫星对利用SIHFT软件容错技术进行容错的商用器件的抗辐射性能进行了在轨实验,结果证明在不需要专用硬件的情况下,使用软件技术也能达到航天应用的可靠性要求。这个
煤炭工业在有力推动我国经济发展的同时,所带来的煤矿事故也给国家、社会造成了重大的损失。作为近年来煤矿应急救援领域逐渐发展起来的一种新型救援方式,钻孔救援已在全世界
隐性知识管理是当前知识管理的一个研究热点,而案例知识是一种隐性知识,如何对案例知识进行有效管理是本文研究的目标。 首先,本文介绍了知识和知识管理的概念,并区分了知