基于指示词语义扩展的词义识别方法的研究

被引量 : 0次 | 上传用户:finallove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机设备和网络应用的发展,人们越来越关注汉语的信息化建设。通过对与文本有关的词义识别技术的研究,可以使计算机更能理解一篇文章的内容。因此词义识别技术的进步能促进计算机理解人类语言的快速发展。现今,自然语言技术的研究方法中一种显著的方法是建立在统计学理论之上的研究方法,而这种方法的发展又依赖于词典和语料。词义识别统计学方法受到语料的规模的大小、词汇分布不平衡、资源知识不完备等几个因素的限制,其内在体现是数据稀疏和小概率词汇频繁出现的瓶颈。本文通过讨论分析词义识别方法和知识资源,本文提出一种新的方法以解决现有词义识别的关键问题。在给出相关方法和资源的介绍和分析后,提出基于指示词语义扩展的解决方法。本文根据词位词群的理论依据,将词典资源和网络文本资源整合起来,扩充语料知识,从而大大的提高词义识别的效能并成功的解决数据稀疏和小概率词汇频繁出现这两个突破的关键性问题。本文首先采用指示词方法来实现词义识别系统。指示词的识别方法里,用最为简单的信息增益熵算法来找到指示词。然后结合同义词词林的上下文环境,收集和研究网络上的词汇,在指示词属于同一语义层次上,找到词汇集合。对这样的集合和网络上搜索的文本句子实例,加工成符合要求的新的词汇集合资源。使用半指导的方法和语言学上的不同的词位集合构成词群的补充性的知识对指示词进行语义扩展计算,得到增强作用的指示词。这两个方法共同作用于指示词词义识别技术研究当中,从而达到在较少的时间内获得较优秀的性能。换而言之,本文通过解决数据稀疏和小概率词汇频繁出现的难题,采用对指示词的语义扩展计算,深层次的挖掘出语料知识,并提高在现有有限的语料规模下语料的效能。经实验证明,指示词的语义扩展计算方法确实提高解决数据稀疏和小概率词汇频繁出现的问题,其实验结果的宏平均准确度得到明显提高。
其他文献
本文简要介绍汕头大学工学院结合我国的工程教育实际,在CDIO国际工程教育与人才培养模式的基础上提出的EIP-CDIO培养模式,提出在EIP-CDIO教学理念实施过程中培养学生的自主创
本文在对机构知识库基础理论进行概述的基础上,论述了发展机构知识库公开与免费、平等与自由和个性化与人性化的基本核心思想。然后根据对国内外机构知识库理论及实践的调研
目的:了解在BPH手术治疗中,经尿道前列腺增生腺瘤切除术(TUEB)与经膀胱前列腺增生腺瘤切除术(SPP)是否在同一手术层面即外科包膜层面进行。方法:TUEB组532例,SPP组8例。先行S
当今世界,能源出现危机,机动车辆排气污染严重,电动汽车作为无污染交通工具,在市场上具有很大的优越性,其中以锂电池为动力的纯电动汽车已成为国际竞争的热点。但充电站和充
轻量化是航空航天、轨道交通等行业一直追求的目标。铝合金整体壁板和镁合金复杂截面型材作为典型的轻量化结构件,在运载火箭、导弹、飞机以及汽车交通领域有着广泛的使用价
商品期货的特点是转移风险、价格发现以及资源配置。现如今开展的商品期货交易的实际意义主要在于能够为投资者供应一种行之有效的风险规避方式,有利于培养机构的投资者,强化
随着我国经济的发展,国内各行业宏观环境发生巨大变化,服装业的经营环境也随之出现重大变革。面对进入国际市场竞争环境的服装企业,寻求合适的供应链及品牌经营之路,商业模式
东方朔是汉武帝时期著名的辞赋家之一,又是一位在历史上颇具有传奇色彩的滑稽人物。本文在前人的研究成果的基础上,对其作品进行较为全面的整理和研究。本文分为两大部分。第
目的了解河北省城乡社区人群老年性痴呆的分布规律及流行特征,探讨其相关影响因素,为制定社区老年痴呆防治对策及老年健康保健服务提供参考依据。方法采用多级分层整群抽样方
发射率是描述物体热辐射性质的基本参数之一,它在航天航空、军事国防和工农业生产中都具有重要的作用。如卫星的热控、制导与隐身、太阳能利用、红外加热和辐射测温领域中都