论文部分内容阅读
互联网搜索是计算机领域的一个重要的的工作。在快速而准确的查找的用户所需求的文档的同时,如何更合理的展现出搜索的结果,也是搜索引擎重要的一个方面。输出结构化的搜索结果是一种比较理想的目标。但是动态的对搜索结果进行分类,并输出动态的类别标签,是对传统文本分类研究的一个挑战。
本文研究的目的是在利用现有的分类方法、先验知识的同时,探索和改进更适合帮助输出结构化搜索结果的文本处理方法。
本文在元搜索的基础上,设计了一个搜索后处理的流程,来实现对搜索结果的动态归类。采用文本聚类的方式,动态的划分搜索结果,并设计了从类别里面提取动态类别标签的算法。本文也基于HNC的理论,借用了语境框架的概念和思想,设计了伪语境框架的结构。在伪语境框架知识库和其它可以获得的知识的指导下,也同样完成了搜索后处理的实现。
本文随后比较了以上两种方法之间的优劣。一般而言,聚类的方法具有更强的动态性,而先验知识的方法具有更好的准确率。
在研究中,本文取得了如下成果:
1.提出了搜索后处理来实现结构化搜索结果的基本流程;
2.设计并实现了用热点发现的算法实现聚类结果中提取类别标签的方法,以应用在搜索结果的类别导航中;
3.基于HNC语境框架理论,建立了适合于动态分类标准的分类所参考的先验知识库结构,并探索了利用语境框架这种先验知识对搜索结果进行领域和情景的二层分类方法。