【摘 要】
:
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目前也有很多种,针对总体研
论文部分内容阅读
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目前也有很多种,针对总体研究情况来看,这些方法缺乏对文本的语义分析,本文主要考虑利用知网提供的词语标注从中文语义角度计算词语相似度,从而提高相似度的精度。作为相似度研究的一个基础环节,中文自动分词处理结果的好坏直接影响最后计算结果的准确性。文章介绍中文自动分词消歧技术的相关研究背景及发展状况。文中采用以语料库为手段的相对词频语境计算模型的算法先对中文文本词语分词消歧,从歧义字段的上下文中求得消歧信息,通过计算上下文信息来达到消歧的目的,使得分词效果较以往方法得到改善。经分词消歧后得到的特征词集利用基于知网语义词典,通过计算特征词之间的语义相似度,将原有特征集经过计算后分成若干特征词集。同一特征词集中的特征词语义相似度较大,而不同特征词集的特征词语义相似度较小。在此基础上,将同一特征词集的所有特征项的特征值相加,并将特征词集中的特征项浓缩成为一个独立的特征,把该方法通过应用在文本分类实验来说明其有效性。最后文章给出中文文本分词及相似度计算的计算机系统实现过程,并以大量文本为例进行了测试,对该系统的功能模块进行尝试性的实践,取得一定的效果。实验结果表明,采用的语义相似度计算方法是行之有效的。这一课题的研究及其成果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。
其他文献
目前,在MMOG(Massively Multiplayer Online Games)中应用的人工智能技术比较简单,强化学习算法可以实现更加复杂的游戏智能。由于MMOG具有实时性的特点,强化学习算法不能被
科学技术的快速发展,人类知识的不断更新,传播知识图书的数量急剧地增加。各类图书馆特别是高校图书馆,为了适应发展,满足读者的需求,图书馆每年都会投入大量的经费来采购图书。而
本体是使Web具有语义性的关键技术,自从20世纪90年代以来,本体已成为知识工程、自然语言处理和知识表示等人工智能研究界的热点研究领域。近来本体也越来越成为智能信息集成
随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的
联邦数据库系统为适应从不同数据源获取数据的需要,集成不同的数据库管理系统,实现不同系统之间的互操作,为用户提供一个统一和透明的访问界面,同时还需要在不同的系统之间保
软件复用可以有效地提高软件的质量和生产率。实践表明,大量可复用软件资产能够有效提高软件复用的效能。软件资产管理包括了对资产进行描述、分类、存储、检索和维护等相关
计算机辅助开票系统的研发是电力自动化一个重要的研究领域,正确无误的开具操作票对变电站日常运行和工作管理具有重要的现实意义。本文在分析了计算机辅助开票系统开发现状
近年来,随着互联网的高速发展,我们迎来了互联网信息时代。网络给人们的生活带来了极大的便利,人们的生活已经融入到互联网时代的大家庭当中了。然而互联网在提供便利的同时,
随着计算机技术的不断发展,基于问题求解规模的现代密码遇到了越来越严峻的考验。虽然一次一密加密算法能保证信息的绝对安全,但如何进行大规模的密钥分发和管理却极大的限制
近年来,随着无线通信技术的飞速发展,越来越多的应用通过无线网络进行信息传输,因而对频谱的需求也不断增加。这使得原本就有限的频谱资源显得更为稀缺。同时,目前大多数主要