基于语境信息的中文分词消歧研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:winnerdj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界已经进入了信息社会,随着全球信息化进程的快速推进,网络与人们的工作学习生活越来越密不可分。可以说,现代社会的每分每秒、每件工作都离不开网络的帮助。而如何更好的更高效准确的利用网络信息,是中文信息处理的目标所在。中文自动分词是中文信息处理的基石和前提,而歧义的消解是中文分词领域的重点和难点。因此,研究和实现歧义在中文分词中的更好的解决和应用,具有重要的价值和现实意义。众所周知,词是能够独立使用的、具有意义的最小语言单位。而与外语不同,中文句子中没有明显的空格标记,所以,中文分词技术由此产生。经过多年的探索发展,中文分词已经取得了很大的进步,但仍面临着单词的边界界定、未登录词识别、分词的规范性和词义的消解等问题。本文的主要目标是对歧义消解问题的探索,尤其是很多歧义往往只能在相应的语境中才能的得到相应正确切分的问题。一般的,中文分词消歧方法主要有基于统计大规模语料库、基于词典和规则的以及两者相结合的方法,但是这些消歧方法大都很少考虑到词语相关度、语法和语义等语境中的信息,导致一些歧义问题并不能很好的解决。在对现有中文分词理论和消歧模型算法进行深入研究的基础上,针对那些需要相应语境中信息才能解决的歧义问题,对基于语境信息的中文分词消歧方法进行探索研究,本论文研究的主要内容如下:(1)本文介绍和分析了中文分词技术及消歧理论,讨论了中文自动分词的基本方法和优缺点,并对几种中文切分歧义消解统计模型进行详细阐述。(2)利用虚词停顿的分词方法和改进的双向最大匹配算法对输入的文本进行粗、细分词,并通过预处理和词性标注等,完成文本的切分,获取歧义字段的几种切分结果。(3)针对歧义字段的消歧问题,本文通过模拟人类根据语境消解歧义的思维过程,融合了词长、词性、tf-idf和语义相似度等语境中的信息,构建TextRank图模型进行关键词提取,结合统计和语义方法,以实现语境中的信息得全面提取和充分利用。(4)在知网语料库和基于语境信息的关键词提取算法的基础上,利用语义相似度和关联度相结合的语义相关度,本文给出了一种基于语境信息的中文分词消歧模型,来获得歧义的正确切分结果。(5)设计和实现一个基于语境信息的分词消歧系统,并对该系统进行实验测试。
其他文献
加压富氧流化床燃烧技术是一种具有良好应用前景的CO_2捕集技术之一,近年来受到国内外的广泛关注。本文开展加压流化床中气固流动特性研究工作,针对加压鼓泡流化床、加压循环流化床,研究了操作压力及流化风速等参数对临界流化风速、气泡特性、气流分布、颗粒分布及运动等方面的影响,为加压流化床的设计和放大提供一定的理论参考。首先,搭建加压鼓泡流化床实验台,研究操作压力(1bar6bar)、流化数等对临界流化风速
网络社交回避是在近年来移动互联网蓬勃发展,社交媒体迅猛增加背景下所产生的现象。尽管这种现象已经越来越多地被人们所关注,但学者对网络社交回避的相关研究仍较少,更缺乏网络社交回避的测量工具。因此,本文首先运用心理科学的测量方法编制出了网络社交回避的量表,为后续理论模型的构建打下基础。在理论模型的构建中,本文主要运用资源损耗理论、资源保存理论以及压力源-压力-结果框架,构建了以工作生活相互打断对网络社交
非晶合金具有很多优良的性能,这得益于其长程无序、短程有序的原子结构。探索研究非晶合金新的功能及性能具有重要的科学意义和应用价值。本文采用差示扫描量热法(DSC)和快速加热法对不同成分组元的Zr基非晶合金的燃烧进行了实验研究。此外还用流体动力学软件FLUENT对Zr55Cu30Ni5Al10非晶合金的燃烧进行了数值模拟研究。实验研究发现,在大于2000 K/s的速率加热下,Zr55Cu30Ni5Al
裸鼠因其毛发生长异常和胸腺发育不全所致的T淋巴细胞免疫功能缺失的遗传特征,成为了生物医学研究领域重要的动物模型。由于雌裸鼠无法哺育后代,动物饲养单位常选用杂交方式
黑荆树是豆科金合欢属植物,主要分布于我国的南方地区,其树皮提取物含有丰富的原花色素,而原花色素是一种重要的可再生的天然聚合物。黑荆树皮原花色素过去主要用于工业制革和胶粘剂生产,民间也将其作为止血剂使用。本论文旨在研究黑荆树皮原花色素的组成、抗氧化性质及其在治疗II糖尿病中的应用,得到如下结论:(1)通过结合电喷雾质谱与基质辅助激光解吸电离飞行时间质谱分析方法证明了黑荆树皮中类黄酮化合物原花色素的单
相变材料在热能存储方面有着很高的应用价值,在建筑材料领域有储能、调节室内温度分布的作用,但是由于相变材料本身的性质,导致其在和建筑材料结合应用的过程中,存在着泄露和
崩岗红土层是崩岗抗侵蚀能力最强的土层,对整个崩岗具有保护作用,对其岩土力学性质的了解有助于研究崩岗发生机理。本研究在福建省安溪县选取了 3个典型崩岗红土层为研究对象
光场粒子图像测速(light-field particle image velocimetry,LFPIV)是一种新兴且有发展潜力的单相机三维流场测量技术。现存的其他三维粒子图像测速技术有以下几个局限性:(1)
受人类工程活动的影响,我国黄土高原地区的甘肃省黑方台与陕西省顾屯产生了表层黄土盐分聚集现象。此类现象是由于大量的灌溉等人类工程活动使黄土层中地下水不断抬升,土体中易溶盐溶解使地下水含盐量增加,盐分随地下水升高进入黄土表部,强蒸发导致盐分不断积聚。研究区内表层黄土盐分增加导致耕地质量下降,直接影响作物产量,因此,研究表层黄土盐分分布特征、盐分含量变化和盐分估算防控等科学问题,对研究区内耕地种植规划以
本研究在2014年明确光氮互作敏感性差异与产量稳定性的关系和筛选出光氮互作下不同敏感型水稻品种的基础上,2015-2016年分别以两个稳产型、两个不稳产型双季早、晚稻品种(201