论文部分内容阅读
随着互联网数据的快速增长,垂直搜索引擎也迅速发展起来。但是目前垂直搜索引擎仍然不能帮助用户快速找到自己寻求的目标,只能通过输入关键词之后,对返回的结果集进行人工排查。特别是在关键词具有多重含义时,这种状况尤其明显。为了解决上述问题,本文提出了在文本预处理阶段对数据集中的数据进行聚类处理,并将聚类的结果用于以下三方面:第一个方面是将聚类的结果放入对应的原始数据中,同时提高该聚类结果的权重,使得所属聚类结果与关键词相关度更高的文章位于前列。第二个方面是可以将聚类的结果通过搜索页面的分类导航栏呈现给用户,使得用户能够根据聚类结果,进行相关筛选,更快找到自己需要的内容。第三个方面,由于聚类结果的不稳定性,本文提出了由系统人员参考聚类结果,并定义分类规则的方法,然后利用搜索引擎和分类规则对文本自动分类。为了适应不同领域的数据特性,本文设计了企业数据管理与垂直搜索系统,该系统针对不同领域的数据和不同行业的需求,辅助该领域人员定制自己的搜索引擎系统,从而帮助搜索引擎更好地“理解”数据。本文主要工作如下:第一,提出了改进的tf-idf算法与k-mean结合的聚类算法。为了体现位于文章中不同位置的词对该文章的划分有着不同的重要性,并将这些词的重要性体现到聚类后的结果中,本文首先将传统的tf-idf算法进行了改进,使其不同位置有着对应不同的权重,然后将改进的tf-idf算法与k-mean聚类算法结合,这样由不同位置的权重影响聚类的结果。第二,提出了用聚类结果来提升排序效果和自定义分类规则来进行分类。将聚类结果加入到原始数据中,将聚类结果的权重提高,改善搜索排序效果。设置了自定义规则来进行分类的功能。该功能使用Solr自带的搜索查询语句来完成定义规则,而后利用Solr和定制完成的规则对文本自动分类。第三,设计了企业数据管理与垂直搜索系统。为了便于不同行业对于数据更好的管理运作,本文使用SpringBoot框架和MongoDB搭建了企业数据管理与垂直搜索系统。该系统使用SolrCloud建立分布式集群,按照RESTful风格设计了相关API,同时采用了多种第三方解析工具例如tika,tesseract等自动将上传的非文本数据转换成文本数据,并使用hanlp设置了自定义分词器。