基于最优化算法的网络搜索与挖掘技术

来源 :北京大学 | 被引量 : 0次 | 上传用户:lzy6259404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络搜索与挖掘技术是一系列新兴的应用驱动的课题,近几年来一直都是研究人员关注的热点。文本分类、数据聚类和相关性排序是其中非常重要的课题。文本分类起源于传统的分类技术,是传统分类技术在网络挖掘中的一个很好的运用;数据聚类也是数据挖掘中的经典技术,同样在网络中有重要的运用,例如将搜索结果的聚类。相关性排序则是搜索引擎的核心技术,是评价一个搜索引擎好坏的重要指标。 网络中充斥着各种各样异质的信息,这使得文本分类变得复杂困难。在本论文中,我们将讨论如何克服这样的困难,将异质的信息整合在一起,从而提高分类效果。这是我们提出的基于hieron分类算法的信息整合算法。 而数据聚类的困难则是它的复杂度过高。在下面的文章中,我们将提出自己的方法,分别讨论如何降低计算复杂度和空间复杂度。为降低计算复杂度我们提出了序贯压缩方法。为降低空间复杂度,我们提出了有限内存局部优化方法。 相关性排序方面的工作由于工程上的需要得到了广泛的支持和发展。但是由于其商业秘密的关系,很多很好的排序算法一直不为人所知。本文中,我们不涉及过多的工程技巧,只从优化和统计学习的角度讨论如何提高相关性排序算法的质量。同时我们提出了自己的风险泛函,并在实验中进行了综合比较。
其他文献
本文对安全多方计算及其应用进行了研究。首先介绍了安全多方计算的背景和意义;然后从简单的两方情形着手给出了在两个不同模型-半诚实模型和恶意模型下的安全计算的定义,并分
本文对椭圆曲线密码进行了研究。文章包含两部分: 第一部分完善了赵、徐[46]提出的基于p进数域的椭圆曲线密码框架.通过使用新的提升算法,去除了曲线选择时的某些额外限制条
奇异值分解是计量心理学,统计学,信号处理,控制论和系统论中广泛使用的数学工具,无论是进行矩阵分析还是开展数值计算,奇异值分解都起着非常重要的作用。本文简短回顾了奇异值分解
学位
本文研究了带协调运输的单机排序问题,在这个问题中,每个工件需要先在同一台机器上无中断的连续加工,加工完成后由运输车辆派送给同一个客户,且每个工件在运输过程中需要不同的存储空间,该问题的目标是最小化这个过程中所需要的总完成时间.针对这个问题我们讨论了两种情况,一种情况是,工件在机器上加工完成后由3台相同车辆分批派送给一个客户,我们给出了最坏情况界为2的近似算法,并且证明该界是紧的,该算法的时间复杂性
学位
在古典风险模型的基础上,进一步考虑兔赔额和赔偿限额,从而建立了几类理赔额受限风险模型。首先,在理赔额受限的情况下,考虑古典风险模型,得到了理赔额受限风险模型的破产概率。并
科技实力代表了一个国家或地区的综合实力,对科技实力的评估研究体系也日趋完善,但是科技实力代表的是一个由诸多因素组成的复杂系统,对科技实力的评价需要因地制宜,因时而变。本文通过对福建省的科技实力进行科学客观的分析研究,研究福建省科技实力的发展趋势以及福建省各地市的发展情况,明确福建省的科技发展的重点与趋势,早日实现福建省“十三五”科技发展规划。本文利用多维时间序列分析相关方法深入探讨了2002-20
学位
激酶功能位点的预测在生物学上有着非常重要的意义。本文提出了一种基于分层随机语言模型的识别方法,通过对一维残基序列的分析来实现激酶功能位点的预测和分类。首先我们统计
信号检测是人们获取信息的一个重要手段,目前在许多领域中具有广泛的应用。然而在实际工程应用中,往往存在有用信号很弱,而噪声较强的情况。近年来,弱信号的检测一直是国内外学者
本论文主要研究了随机库存的最优策略及其有关性质。   在第一章里,主要讨论了(r,Q)和(s,S)库存系统的有关性质。我们先证明了当需求是离散的情况下由(1.2.1)和(1.2.2)定义的
学位
本文讨论了国内证券市场上的可转换债券的定价问题。由于对标的证券的卖空限制,用传统的Black-Scholes期权定价方法得出的结果与可转债市场存在较大的差异。我们采用了一种在