中文词汇知识获取算法和语义计算研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dorawu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使其成为全球信息传播和共享的最重要资源,其数据成几何级数增长,然而要从互联网上获取有用的知识却非常困难,“数据爆炸,知识贫乏”已成为当前诸多专家学者需要迫切解决的问题。目前知识获取的大多数研究都是从单纯的计算机技术角度出发,采取诸如规则、句式等从语法逻辑结构层面来挖掘、提取知识,然而新概念的不断涌现,导致许多新词汇被创造出来。这些新词汇由多个语素或多个词组成,当前的分词系统,在收录这些词之前,会将它们切分成多个语素或词,而导致当前已有的知识获取方法无法正确识别,更难于在语义层面上进行比较。这将给知识获取带来新的难题,也使得当前以信息检索为主要技术的搜索引擎在处理网页时采取了“非语义”的关键词匹配的方式,以致于内容查找准确率低,语义计算的引入将有望改善这种状况。本文的主要研究工作有两部分:中文词汇知识获取算法和中文词汇语义计算方法。本文基于分词系统之上,进行合成词的识别,解决未登录词无法正确识别的问题;为合成词建立词性标注模型,对合成词进行词性标注,消除词性歧义,解决当前词性标注模型无法直接应用于合成词的词性标注的问题,同时修正分词结果。在实现合成词识别的基础上进行文本主题词的提取,建立词汇语义计算模型,使词与词之间可比较,用语义计算代替传统的关键词匹配,是实现智能信息检索的一个根本途径;同时也是构建词汇语义知识库、实现知识推理的一个关键基础性研究工作,具有重要的研究意义。本文最后实现了一个中文词汇知识获取和语义计算平台,通过应用上述算法,建立了一个包含中文词汇知识获取以及中文词汇语义计算的综合系统,验证了本文各项研究工作的意义和算法的有效性。本文的创新性工作主要有以下几点:1、针对当前未登录词识别的难点问题,提出了基于词性探测和词共现有向图的合成词识别算法CWRWCDG,该算法先采用词性探测从文本中获取词串,进而由获取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,则该路径所对应的词串为合成词。实验结果表明该算法要优于同类算法。2、中文合成词标注的难点在于词性的确定,针对该问题,提出了基于核心属性渗透理论的中文合成词词性标注算法,核心属性渗透理论最早由Lieber于1980年提出,他认为在英语中合成词的词性由合成词的核心成分决定,本文将该理论应用于中文合成词词性的标注,并根据实际情况需要提供显式标注和隐式标注两种方式。3、当前文本主题词提取算法主要从词频角度出发,基于TF/IDF值,然而对于词语分布较均衡的文本效果不理想,针对这种情况,提出了基于词位置权重和增量词集频率的主题词提取算法TTEITS。该算法认为同一个词在文本的不同位置出现,对该词是否成为主题词的影响是不一样的,同时,在确定一个候选主题词是否真正成为主题词时,不但计算该单个词的权重(频率),而且计算它对整个主题词集的增量权重(频率),若该增量大于某个给定的阈值,则判定该词为主题词,否则算法结束。该算法的优点在于当各候选主题词出现次数都比较低、较平均时,仍然能够提取出最合适的主题词。4、研究主题词集在自动文摘上的应用,提出了基于主题词集的中文自动文摘算法CASTTS。该算法先通过TTEITS算法提取文本主题词,再由主题词权重进行加权计算各主题词所在的句子权重,从而得出主题词集对应的每个句子的总权重,最后根据自动文摘比例选取句子权重较大的几个句子并按原文顺序输出文摘。实验结果表明,该方法所获得的文摘质量高,较接近于参考文摘,取得了良好的效果。5、针对现有词汇语义计算及文本相似度计算中存在的一些不足,基于知网,巧妙的将文本相似度计算转换为计算文本主题词集相似度,提出了基于主题词集的文本相似度计算方法TSCTTS。该方法先通过TTEITS算法提取文本主题词,然后在知网义原层次体系结中构获取两个词语的语义距离,经转换公式得到两个词语的语义相似度,最后由主题词集的语义相似度得到文本相似度。该算法应用于文本分类实验,结果表明该算法有较好的分类性能。
其他文献
脾脏是人体主要的免疫器官之一 ,正常情况下发挥清除入侵微生物、衰老和死亡细胞 ,合成抗体 ,分泌细胞因子的功能 ,参与体液和细胞免疫 ;病理情况下能阻留、破坏异常细胞 ,与
快速康复外科是2001年由丹麦外科医生Kehlet和Wilmore首先提出的,目前已有16年的临床应用历史,已在许多外科领域中取得了显著的成绩。其核心是减少围手术期的应激反应、降低
本文采用定量研究的方法对近10年(2001~2010)国内12种外语类CSSCI来源刊刊载的有关英语听力的研究进行整合与评述,旨在丰富现有英语听力研究,发现:(1)近10年来国内英语听力研
摘要:目的探讨早期肠内营养预防重症胰腺炎肠梗阻的效果。方法选取2010年1月至2012年6月该院收治的90例重症胰腺炎患者,按随机数字表法分为观察组和对照组,各45例。对照组给予常
目的:统计并分析某三级综合医院2012年1~12月住院患者的抗菌药物处方,为临床合理用药和有效管理提供参考。方法使用限定日剂量(DDD)为分析单位,计算累计DDDs ,以(DDDs ×100)/同期
针对如何更好地提高二外日语的教学水平,文章提出了几点建议,并就具体方法予以归纳总结。
目的探讨肉毒杆菌毒素A结合康复训练治疗儿童脑瘫的临床疗效。方法3B例脑瘫患儿随机分为治疗组和对照组,治疗组18例,采用肉毒杆菌毒素A结合常规康复训练治疗;对照组18例,给予常规
自2009年1月1日起,我国开始施行修订后的《中华人民共和国增值税暂行条例实施细则》,此次增值税转型改革方案的核心是允许企业新购入的机器设备所含进项税额在销项税额中抵扣。
目的 通过比较和分析不同的自身抗体吸收法,寻找一个合适、经济和有效的自身抗体吸收法,以更好地筛选和鉴定自身免疫性溶血性贫血(AIHA)患者血清中的同种抗体。方法 取20例AIHA
目的 研究老年宫颈癌患者的临床病理特点,同时分析有效的预后情况,以便于为临床的诊治工作提供可行参考。方法 选取2011年1月至2018年5月浙江省义乌市妇幼保健计划生育服务中