论文部分内容阅读
网络搜索与挖掘技术是一系列新兴的应用驱动的课题,近几年来一直都是研究人员关注的热点。文本分类、数据聚类和相关性排序是其中非常重要的课题。文本分类起源于传统的分类技术,是传统分类技术在网络挖掘中的一个很好的运用;数据聚类也是数据挖掘中的经典技术,同样在网络中有重要的运用,例如将搜索结果的聚类。相关性排序则是搜索引擎的核心技术,是评价一个搜索引擎好坏的重要指标。
网络中充斥着各种各样异质的信息,这使得文本分类变得复杂困难。在本论文中,我们将讨论如何克服这样的困难,将异质的信息整合在一起,从而提高分类效果。这是我们提出的基于hieron分类算法的信息整合算法。
而数据聚类的困难则是它的复杂度过高。在下面的文章中,我们将提出自己的方法,分别讨论如何降低计算复杂度和空间复杂度。为降低计算复杂度我们提出了序贯压缩方法。为降低空间复杂度,我们提出了有限内存局部优化方法。
相关性排序方面的工作由于工程上的需要得到了广泛的支持和发展。但是由于其商业秘密的关系,很多很好的排序算法一直不为人所知。本文中,我们不涉及过多的工程技巧,只从优化和统计学习的角度讨论如何提高相关性排序算法的质量。同时我们提出了自己的风险泛函,并在实验中进行了综合比较。