基于语料库的中文信息处理技术及其应用研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:hongyin_wangyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机的发展使人们能够搜集和存储海量的信息。由于信息量的不断增大,如何利用计算机自动地精选出所需的资料,是人们关注的焦点。但是目前在文本检索过程中,广泛使用的关键词匹配技术,往往基于这样一种假设:仅在一个文档含有与查询词完全相同的词汇时,它们才相关。因此计算机在关键词匹配检索模式中对关键词没有任何语义分析,只是根据所给出的查询词串的逻辑组合,机械地给出一系列匹配文档,造成垃圾信息过多。要想使计算机更聪明,使信息检索更智能,在自然语言特别是中文的理解和处理方面还需要做大量的基础工作。 概念指的是在文章中词义相关的基本语义单元。一个概念可以对应文中的一个词,也可以对应文中的多个词义相近的词。据研究表明,人们理解一句话或一段文字的是“概念”,而不是表面上的每个“词”。这些“概念”即使用另外一些“词”来表达,人们仍能将其识别出来。因此计算机若要做到智能检索,应该尽量在“概念”而不是“词”的层次上去理解查询词。 基于传统方法的缺点和概念检索的优点,本文设想,可以对查询词进行语义信息分析。要想对词汇进行语义分析,就必须先获得语义信息,这就需要由语料库获得语义信息,对查询词与语料库中的词语计算共现频率、互信息,由互信息得到与查询词最有语义关联的词语集合。 由于受文本集规模的影响,由上述得到的语义关联词语中,有一部分是无效的,并不能正确的搭配查询词。而《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,它是一个网状的有机的知识系统。因此本文提出了基于《知网》的概念相似性词语抽取算法,过滤掉无效的语义关联词语。 实验证明,由基于语料库的语义分析和基于《知网》的概念扩展所得到的查询扩展词语集合,会更好地表达用户的查询意图,也可以在一定程度上消除缺少语义分析的现象。
其他文献
手机支持越来越多的多媒体应用,多媒体应用使用的多媒体数据格式种类越来越多。多媒体应用的核心是多媒体数据处理。多媒体数据处理包括对文本、图形、图像数据的处理,还包括对
医学图像信息配准与融合是当代信息科学、计算机技术与医学影像科学相交叉的一个研究课题,它是医学图像处理学科的一个新的研究热点。应用医学图像信息配准与融合技术可以把不
消防的重点在于预防。高层大型建筑物由于结构复杂,人员疏散逃生困难,是火灾预防的重点之一。我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。而用三维
随着互联网规模的增长,拥塞已经成为一个十分重要的问题。近年来,主动队列管理算法已成为端到端拥塞控制的一个研究热点。它通过评估网络状态、预测拥塞的出现,对分组进行有
学位
形式化方法借助数学方法为系统的说明、开发和验证提供了一个框架,有利于发现目标软件系统需求中的不一致性、不完整性等问题。 统一建模语言UML是当前软件工程领域的研究
随着应用复杂度的增加,软件程序对存储空间的需求也逐步增大。由于星载处理机的存储器容量在物理上的增加往往受到机器自身、系统成本及功耗等的制约,因此将程序代码进行压缩存
海天背景红外图像舰船目标检测能在海战中提前发现敌军舰船,为火控系统提供目标方位指示。除此之外,海天背景红外图像舰船目标检测在捕鱼船监控,海上搜救等民事领域里也有着广泛
互联网时代,信息数字化和传输网络化成为必然趋势,这给信息传递和利用带来便利的同时,也带来了始料未及的风险。由于互联网传输协议的设计问题,互联网信道并不安全。如何保障信息
当今的社会是信息的社会,人们对信息的需求就像对空气和水的需求一样须臾不能离开。据统计,在人们所使用的信息中有80%以上的信息与“位置”有关,且不谈像野外勘探、开山筑路、部