互联网文本聚类与检索技术研究

被引量 : 0次 | 上传用户:ayahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络上文本信息的容量与日俱增,人们迫切需要提高在互联网上的信息获取效率。文本挖掘技术用于对文本数据进行知识挖掘,试图有效的解决当前信息过载的问题。文本作为自然语言的语义载体,通过引入相关的自然语言处理技术,深度挖掘文本在语义上的特征,能提高相应的文本挖掘算法在文本挖掘中的准确性和效率。本文主要研究了自然语言处理技术在文本聚类和信息检索系统中相关问题的应用。针对搜索引擎和互联网环境下的文本数据挖掘任务,本文提出了一系列基于相关的自然语言处理技术的方法来改善文本聚类算法的效果以及提高信息检索系统中查询结果与查询的相关性质量,论文的主要内容包括以下四个方面。本文首先提出了一种基于相关自然语言处理技术的文本聚类语义特征降维方法。文本聚类作为一种无监督的数据挖掘方法,相对于有监督的文本分类算法而言,特征的选择通常没有很有效的方法。因此不同特征对聚类效果的影响就无法得到有效的控制,维度过大,聚类结果的准确性易受噪音特征的影响。本文提出了一种基于词法分析技术的特征降维方法,通过提取文本中名词性的词语作为特征进行聚类,有效的降低了文本集合中特征的维数,同时保证了特征的辨别能力。由于名词存在同义性的问题,使得相同的语义有不同的词语表现形式,影响了文本相似度的衡量。本文通过采用相关的语义知识词典对词语进行类别扩展,在一定程度上降低了特征的同义性,在进一步降低特征的维数的同时,促进了聚类结果的准确性。实验表明,基于词法分析技术和语义知识词典扩展的特征降维方法在显著的降低文本特征空间的大小的同时,有效的提高了聚类结果的准确性。相对于搜索引擎线性结果列表中存在的不足,对搜索结果进行聚类是一种更有效的结果呈现方式。搜索结果聚类针对的文档集是搜索结果的摘要描述,尽管这些摘要信息明确,但长度短小,在这样的文本集合上进行聚类,通常的文档相似度算法经常由于特征空间的稀疏而无法得到准确的结果。本文通过引入容错粗糙集技术,利用文档间词语的共现信息对原始结果摘要进行语义上的扩充,扩充后的文档间的相关性得到了强化,避免了特征空间稀疏导致的聚类准确度下降的问题。在聚类算法的选择上,本文提出了一种新的基于词语相关度计算的标签式聚类算法,将搜索结果聚类问题转换成基于搜索结果集合的查询词语义消歧问题。这种聚类算法能生成描述性更清晰、鉴别能力更强的标签描述,同时,与标签对应的结果在内容上也有更好的一致性。实验表明,本文提出的搜索结果聚类算法能有效的挖掘出用户查询在搜索结果中所对应的各种不同的语义,从而帮助用户快速定位他们所需要的文档集合。文本聚类算法通常采用向量空间模型来对文本进行形式化表示,向量空间模型中各个特征之间是没有关联的。这种假设对于文本来说丢失了很多有价值的能有效衡量文档之间相似性的信息,从而降低了聚类的准确性。相对于独立的单个词语特征,不同文档之间频繁出现的词语集合更能反映出文档之间的相似程度。本文采用基于上下文约束的闭频繁词集用于衡量文档之间的相似性,更好的体现了文档之间深层的潜在语义联系。频繁项集挖掘是数据挖掘中经典的用于关联分析的技术,通过改进,本文将这种频繁项集挖掘算法引入到了文本集合中用于挖掘文档集中的频繁词集,并通过对发现的频繁词集加入了不同的上下文距离约束限制,使得频繁模式更能保持语义上的一致性,有效地反映出了文本相对于结构化数据的特点。实验表明,基于这种新的相似度衡量方法的文本聚类算法能生成更加准确的聚类结果。搜索结果的相关度排序是信息检索中的重要研究内容之一。与传统的文本数据不同,网页通常带有大量的与主题无关的噪音信息,严重影响查询结果的相关性,因此本文采用基于内容单元的网页解析与内容提取技术,对网页首先进行净化处理,以减少网页中内容无关信息对检索相关度的影响。目前绝大多数信息检索系统的相关度计算方法是建立在全文的基础之上。但是基于网页的全文往往在内容的表达上不具一致性,存在与主题无关的内容,这也会在一定程度上影响查询结果的相关度。本文提出了一种通过计算用户查询与净化后网页的自动文摘之间的相关度来提高信息检索的质量的方法,相对于全文来说,摘要是从全文中提取的文档的核心内容,具有简洁性、准确性和清晰性等特点,更能反映文档的主题信息。实验表明,相对于全文,基于摘要的检索结果在相关度排序的准确性上能取得更好的效果。
其他文献
21世纪是信息大爆发的时代,在全世界范围内,移动互联技术、人工智能、大数据以及物联网高新技术都得到了空前发展,在这一全新环境下,媒体行业正迎来重大变革,整个传媒生态正
本文论述了国内外球磨机衬板更换机械手的发展概况以及研究现状,结合某公司的大型球磨机机械手的研发,进行了换衬板机械手的概念设计、结构设计以及利用三维软件CATIA进行整
自从上个世纪90年代末以来,可逆加成-断裂链转移活性自由基聚合方法(RAFT)得到了越来越广泛的关注。采用此方法不仅可以得到相对分子质量(后面简称分子量)可控、分子量分布窄
葡萄种植过程中,采取有效的措施提高葡萄产量是种植者的目标。基于此,结合葡萄重视实际情况,提出了提高葡萄产量的主要路径与方法,包括选用适宜的品种,加强肥水、枝叶、花果
资金问题 非洲的资金短缺,一方面表现为由于积欠了巨 额外债,每年偿付到期本息要耗费相当大的一部分出口收入;另一方面,作为资金来源的国内储蓄和从外部流入的资金都在下降,
面对新媒体的挑战,如何培养符合时代要求的广播电视新闻人才,是广播电视学专业人才培养面临的一个重要课题。文章从广播电视学专业的核心课程——《电视采访与写作》着手,以山西
教师是实施新课改的中坚力量,实施新课程改革的基本前提便是要提升教师的专业素养与教学技术。"微格教研"便是指利用微格教学合理内核展开的校本化教研互动,被用来研究提升与
新一轮的基础教育改革在全国各地铺展开来,核心理念是:为了中华民族的复兴,为了每一位学生的发展。这就决定了我国基础教育课程体系要进行转变。如何让每一位学生都得以发展,
随着城市化进程的加快和车辆的普及,交通拥堵问题显得越来越严重,这直接导致了人们在道路上浪费的时间增多,环境污染严重,经济损失巨大。而城市内可供扩建道路的空间非常有限
政府律师制度是一种在西方法治发达国家普遍实行的法律制度,是我国律师制度研究领域的一项新课题,尚属于探索阶段。近年来在我国建立的试点和国外发达国家法律制度的建立说明