基于文本聚类的垂直搜索引擎系统设计与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:hwhxl0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据的快速增长,垂直搜索引擎也迅速发展起来。但是目前垂直搜索引擎仍然不能帮助用户快速找到自己寻求的目标,只能通过输入关键词之后,对返回的结果集进行人工排查。特别是在关键词具有多重含义时,这种状况尤其明显。为了解决上述问题,本文提出了在文本预处理阶段对数据集中的数据进行聚类处理,并将聚类的结果用于以下三方面:第一个方面是将聚类的结果放入对应的原始数据中,同时提高该聚类结果的权重,使得所属聚类结果与关键词相关度更高的文章位于前列。第二个方面是可以将聚类的结果通过搜索页面的分类导航栏呈现给用户,使得用户能够根据聚类结果,进行相关筛选,更快找到自己需要的内容。第三个方面,由于聚类结果的不稳定性,本文提出了由系统人员参考聚类结果,并定义分类规则的方法,然后利用搜索引擎和分类规则对文本自动分类。为了适应不同领域的数据特性,本文设计了企业数据管理与垂直搜索系统,该系统针对不同领域的数据和不同行业的需求,辅助该领域人员定制自己的搜索引擎系统,从而帮助搜索引擎更好地“理解”数据。本文主要工作如下:第一,提出了改进的tf-idf算法与k-mean结合的聚类算法。为了体现位于文章中不同位置的词对该文章的划分有着不同的重要性,并将这些词的重要性体现到聚类后的结果中,本文首先将传统的tf-idf算法进行了改进,使其不同位置有着对应不同的权重,然后将改进的tf-idf算法与k-mean聚类算法结合,这样由不同位置的权重影响聚类的结果。第二,提出了用聚类结果来提升排序效果和自定义分类规则来进行分类。将聚类结果加入到原始数据中,将聚类结果的权重提高,改善搜索排序效果。设置了自定义规则来进行分类的功能。该功能使用Solr自带的搜索查询语句来完成定义规则,而后利用Solr和定制完成的规则对文本自动分类。第三,设计了企业数据管理与垂直搜索系统。为了便于不同行业对于数据更好的管理运作,本文使用SpringBoot框架和MongoDB搭建了企业数据管理与垂直搜索系统。该系统使用SolrCloud建立分布式集群,按照RESTful风格设计了相关API,同时采用了多种第三方解析工具例如tika,tesseract等自动将上传的非文本数据转换成文本数据,并使用hanlp设置了自定义分词器。
其他文献
开启状态下快递柜内的包裹是否存在刑法上的占有,行为人从开启的快递柜中"顺手牵羊"取走他人包裹的行为,能否评价为盗窃犯罪,进入刑法的规制范围,司法实务中存在一定分歧。文
<正> 脏躁症即歇斯底里病。「脏躁」一词最先见于汉张机仲景金匮要略一书,今仍沿用之,吾国亦有译作癔病或「协识脱离」者。公元前460年,古希腊的医学家希波克拉底氏看到这一
房地产行业是我国国民经济重要的构成部分,成为几年来中国经济快速发展的一个基本要素。房地产行业与国民经济的各行业之间存在着巨大的联系,它的发展极大的带动了国民经济其
目的:通过系统收集近10年中药外用治疗膝骨性关节炎(KOA)用药情况并进行分析,归纳使用频数较高的中药以及药对,探讨用药规律。方法:计算机检索2004年至2015年中国知网、维普、万
热轧钢卷运输系统目前主要由步进梁和链条式运输链及汽运组成。双排托盘式运输系统能适应目前我国的轧钢水平,其具有高效稳定的特点,并且能节省运营成本,是热轧钢卷运输系统
根据山西省1998~2016年相关数据,对山西省城乡居民医疗保健支出现状及其与收入的动态关联进行实证研究。结果表明,2009年新医改启动后,农村居民医疗保健支出比重超过城镇居民
现有汽车电泳涂装输送设备主要有多功能穿梭机和RoDip输送机,但其存在制造安装工艺要求高、机构运行维护成本大、采用悬臂梁结构导致其承载能力不足、柔性化水平不高等问题,
从传统文化中汲取自信精神,要认清哪些是可以吸收利用的积极内容,哪些是需要抛弃的消极内容。实现中华优秀传统文化的"创造性转化、创新性发展",要在国家、社会、个人层面全
本文概述了人体补充钙后对大肠息肉及结肠癌发生的影响。