基于最优化算法的网络搜索与挖掘技术

来源 :北京大学 | 被引量 : 0次 | 上传用户：lzy6259404

【摘要】

：

网络搜索与挖掘技术是一系列新兴的应用驱动的课题，近几年来一直都是研究人员关注的热点。文本分类、数据聚类和相关性排序是其中非常重要的课题。文本分类起源于传统的分类技

【作者】

：

杨怀渊

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2006年期

【关键词】

：

文本分类数据聚类相关性排序网络搜索数据挖掘最优化算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络搜索与挖掘技术是一系列新兴的应用驱动的课题，近几年来一直都是研究人员关注的热点。文本分类、数据聚类和相关性排序是其中非常重要的课题。文本分类起源于传统的分类技术，是传统分类技术在网络挖掘中的一个很好的运用；数据聚类也是数据挖掘中的经典技术，同样在网络中有重要的运用，例如将搜索结果的聚类。相关性排序则是搜索引擎的核心技术，是评价一个搜索引擎好坏的重要指标。网络中充斥着各种各样异质的信息，这使得文本分类变得复杂困难。在本论文中，我们将讨论如何克服这样的困难，将异质的信息整合在一起，从而提高分类效果。这是我们提出的基于hieron分类算法的信息整合算法。而数据聚类的困难则是它的复杂度过高。在下面的文章中，我们将提出自己的方法，分别讨论如何降低计算复杂度和空间复杂度。为降低计算复杂度我们提出了序贯压缩方法。为降低空间复杂度，我们提出了有限内存局部优化方法。相关性排序方面的工作由于工程上的需要得到了广泛的支持和发展。但是由于其商业秘密的关系，很多很好的排序算法一直不为人所知。本文中，我们不涉及过多的工程技巧，只从优化和统计学习的角度讨论如何提高相关性排序算法的质量。同时我们提出了自己的风险泛函，并在实验中进行了综合比较。

其他文献

多方安全计算及其应用

本文对安全多方计算及其应用进行了研究。首先介绍了安全多方计算的背景和意义；然后从简单的两方情形着手给出了在两个不同模型-半诚实模型和恶意模型下的安全计算的定义，并分

学位

多方安全计算半诚实模型恶意模型多方矩阵乘积协议

关于椭圆曲线密码的一些新探讨

本文对椭圆曲线密码进行了研究。文章包含两部分：第一部分完善了赵、徐[46]提出的基于p进数域的椭圆曲线密码框架.通过使用新的提升算法，去除了曲线选择时的某些额外限制条

学位

椭圆曲线密码体系梳子算法

广义奇异值分解及其应用研究

奇异值分解是计量心理学，统计学，信号处理，控制论和系统论中广泛使用的数学工具，无论是进行矩阵分析还是开展数值计算，奇异值分解都起着非常重要的作用。本文简短回顾了奇异值分解

学位

矩阵广义

带协调运输的单机排序问题的若干研究

本文研究了带协调运输的单机排序问题,在这个问题中,每个工件需要先在同一台机器上无中断的连续加工,加工完成后由运输车辆派送给同一个客户,且每个工件在运输过程中需要不同的存储空间,该问题的目标是最小化这个过程中所需要的总完成时间.针对这个问题我们讨论了两种情况,一种情况是,工件在机器上加工完成后由3台相同车辆分批派送给一个客户,我们给出了最坏情况界为2的近似算法,并且证明该界是紧的,该算法的时间复杂性

学位

理赔额受限下风险模型的研究

在古典风险模型的基础上，进一步考虑兔赔额和赔偿限额，从而建立了几类理赔额受限风险模型。首先，在理赔额受限的情况下，考虑古典风险模型，得到了理赔额受限风险模型的破产概率。并

学位

赔偿限额破产概率调节系数通货膨胀风险模型

福建省科技实力综合评价研究

科技实力代表了一个国家或地区的综合实力,对科技实力的评估研究体系也日趋完善,但是科技实力代表的是一个由诸多因素组成的复杂系统,对科技实力的评价需要因地制宜,因时而变。本文通过对福建省的科技实力进行科学客观的分析研究,研究福建省科技实力的发展趋势以及福建省各地市的发展情况,明确福建省的科技发展的重点与趋势,早日实现福建省“十三五”科技发展规划。本文利用多维时间序列分析相关方法深入探讨了2002-20

学位

基于分层随机语言模型的激酶功能位点预测和分类

激酶功能位点的预测在生物学上有着非常重要的意义。本文提出了一种基于分层随机语言模型的识别方法，通过对一维残基序列的分析来实现激酶功能位点的预测和分类。首先我们统计

学位

分层随机语言模型功能分类交叉验证n-tuple一维残基序列激酶功能位点

局部多项式估计在弱信号检测中的应用

信号检测是人们获取信息的一个重要手段，目前在许多领域中具有广泛的应用。然而在实际工程应用中，往往存在有用信号很弱，而噪声较强的情况。近年来，弱信号的检测一直是国内外学者

学位

强混沌噪声多元局部多项式估计弱信号Duffing振子

随机库存系统的控制与优化

本论文主要研究了随机库存的最优策略及其有关性质。　　在第一章里，主要讨论了(r，Q)和(s，S)库存系统的有关性质。我们先证明了当需求是离散的情况下由(1.2.1)和(1.2.2)定义的

学位

随机库存

国内证券市场可转换债券的定价研究

本文讨论了国内证券市场上的可转换债券的定价问题。由于对标的证券的卖空限制，用传统的Black-Scholes期权定价方法得出的结果与可转债市场存在较大的差异。我们采用了一种在

学位

可转债效用无差异定价二叉树风险中性定价

基于最优化算法的网络搜索与挖掘技术

与本文相关的学术论文