基于特征抽取和转换方法的全文检索研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:gaolch003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械地匹配仅仅包含有指定关键词的文档来获得相关文档,这种方式常常会带来语义理解上的错误,越来越不能满足现状用户的需求和科学研究的需要,于是语义分析和挖掘显现了在检索中的重要性。由于汉语语言的二义性和相关性,在一定程度上造成了不确定性和模糊性,潜在语义分析的方法被广泛用于信息检索领域,它的核心是针对词语和文档进行分析,建立一个矩阵,并作加权转换,用于计算的加权函数又直接影响潜在语义分析的结果。这样建立起的词与词之间的语义关系矩阵,在很大程度上消除了由于词语语义的多样性和随意性导致的对检索结果产生的偏差。然而这种方法依然忽略了语言的模糊性和不确定性,所以将云模型理论引入到信息检索研究中,挖掘出一些潜在的语义信息。LDA模型,被用于挖掘潜在的主题结构,这些主题上分布的词是在语义上相关的。但是主题在语义上具有不确定性。本文在LDA模型的基础上引进云模型理论,利用云模型均值和方差的关系,在抽样时标注了某个主题,就为主题添加主题关系调节因子,建立一个新的特征选择系统。于是新的方法能够抽取出文本的特征集,特征集对于文本具有高的贡献度。新获得的特征集有更少但能最大程度上表示文本的词语。特征词语有不同表示形式的语义信息,两种语义空间下的信息不能直接融合。本文提出了一种特征转换机制,在云空间上对两种语义信息进行转换使其具有一致性,再在一致空间上进行融合,并对标签主题模型进行抽样选择,实现两种语义信息的融合,然后进行查询扩展,运用到检索中,提高检索效果。
其他文献
卷积神经网络(Convolutional Neural Network,CNN)是一种受Hubel-Wiesel生物视觉系统启发的多层变种感知机(Multi-Layer Perception,MLP),它无须改变图像的拓扑结构,能在训练
软件测试的目标是为了发现程序中潜在错误,其中的关键因素就是如何快速自动化的生成测试数据,传统的人工测试耗费大量人力物力,因此自动化测试技术越来越受到人们的重视。测试数
针对应用时间序列方法在处理数据不足、缺失和信息模糊性的问题,本文在Type-2模糊时间序列预测模型基础上,首先,将模糊聚类的算法引入Type-2模糊时间序列模型中,利用物以类聚的思
人脸识别是图像处理和计算机视觉领域的一项重要研究内容,其主要目的是通过匹配数据库来检测输入的测试人脸图像属于哪一类别。脸部识别率指的是正确识别出的脸部图像的比率。
随着高性能计算的发展,超级计算机在功率和能耗方面的不足正在逐步显露。目前超级计算机的系统功耗普遍在5000KW以上,而地球模拟器的峰值功耗则达到了12MW[1],即一天的耗电量可
当今社会,计算机软件与人们的生活息息相关,人们对软件质量的要求也越来越高。软件在运行时发生失效,如何实现快速、高效的、准确的软件故障定位仍是学术界和工业界研究的关
随着计算机网络技术的迅猛发展,网络时间隐通道受到越来越多的关注与研究。网络时间隐通道以数据包可携带的时间变量(time variable)作为信息的载体,通信双方通过改变/观察双方
近年来,随着数据收集与存储技术的提高,人们收集到的数据量呈指数速度增长,传统的离群点检测方法在处理大规模数据集时已开始表现出极大的局限性。大规模数据集具有数据数量大、
社交网络起源较早,伴随无线定位技术的成熟、移动终端设备的普及以及移动互联网的发展,移动社交网络迅速崛起。空间定位技术的发展使得基于位置服务(Location-based service,LBS
随着遥感应用领域及范围的日益扩大,遥感产品生产的规模也越来越大,为了解决遥感产品生产的专业化、规模化、快速化等问题,需要设计构建可读性强,且能被计算机接受的遥感产品生产