基于nutch的页面排序算法研究

来源 :杭州电子科技大学第六届研究生IT创新学术论坛 | 被引量 : 0次 | 上传用户:byang1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,它面向特定用户提供垂直搜索.网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源.Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好的满足专业用户的需求,设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中.实验表明改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用.
其他文献
增量支持向量机(Incremental Support Vector Machine,ISVM)模型通过每次加入一个或者一批样本进行学习,将大规模问题分解成一系列子问题,以提高支持向量机(Support Vector Machine,SVM)处理大规模数据的学习效率,但传统ISVM (Traditional ISVM,TISVM)模型中增量样本的选择方法不当可能降低其效率和泛化能力。针对ISVM中
形式概念分析是用于知识表示和知识发现的一个重要方法。本文将布尔矩阵方法引入形式概念分析之中,提出布尔形式背景的概念,利用布尔向量和布尔矩阵的蕴含运算,给出了布尔形式概念的定义,研究了布尔形式概念的计算和性质。同时,针对布尔形式背景的与、或和乘积运算,研究了对应的布尔形式概念的计算问题。
概率推理是进行数据分析的重要理论工具,利用专家经验值的充分似然率和必然似然率可以进行主观概率推理。以主观贝叶斯概率推理理论为依据,讨论了决策形式背景中条件属性与决策属性之间的关系,将推理方法推广到包含度的形式,得出了无需先验概率的包含度计算方法。
结构分析的隐变量发现方法难以有效地发现隐变量且可解释性较差。基于因果关系和局部结构的不确定性,提出了一种基于局部因果关系分析的隐变量发现方法(LCAHD),LCAHD方法给出了因果结构熵的定义,将因果知识和不确定性知识相融合,以因果关系的不确定性程度作为隐变量存在的判定依据,并对这一依据进行了理论上的论证;LCAHD方法首先寻找目标变量的马尔科夫毯提取局部依赖结构,然后基于扰动学习获得扰动数据,联
云制造为企业间的合作提供了一种全新的网络化应用新模式。为实现高效智能地从已发布的大规模候选云服务中选择满足企业合作需求的云服务,在对云服务进行规范化的语义描述和本体建模基础上,提出一种分阶段的云服务智能选择算法。首先利用服务类别语义相似度和状态信息对候选云服务进行初步选择,接着根据候选云服务和请求云服务输入输出功能的语义包含关系以及服务功能属性对候选云服务进行再选择,最后对候选云服务的非功能属性进
基因特征选择是基因表达数据分析中的一种重要方法。粗糙集是一种处理不确定性、不一致性、不精确性数据的有效分类工具,其特点是保持基因表达数据集的分类能力不变,进行基因特征选择。为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失,将邻域粗糙集特征选择方法应用于基因的特征选取,提出了基于邻域粗糙集的基因选择方法。该方法从所有特征出发,根据特征重要度逐步删除冗余的特征,最后得到关键特征组进行分类
研究发现抑郁症病人静息态EEG存在左右脑半球神经电活动强度不对称的现象。研究进一步分析了抑郁症的大脑前后部脑电信号不对称性的变化,并在正常组、抑郁症未用药组和抑郁症用药组三组被试中进行了初步分析。分析过程首先将静息态EEG进行快速傅里叶变换(FFT),将时域的EEG信号转换为频域的相关信息。再将频域划分频带,导出各个频带各个通道的电压密度后,用电压密度值计算比较脑前后部神经电活动的相对强弱。结果发
目前海量数据挖掘、XML解析、生物信息处理、内存数据库优化等领域的数据密集应用日益增多,其应用特征主要表现为小计算量数据处理与非规则访存的频繁交织执行。利用我们提出的基于交织预取控制策略的帮助线程方法,可显著提升这类应用性能,然而,通过手工方法优选帮助线程的控制参数取值十分耗时,且极易漏解。为此,提出一种面向交织预取帮助线程控制参数的智能选值算法,实验结果表明,该方法可发现手动方法未找到的最好取值
学习其实是一个问题解决的过程,如何有效的解决问题,如何从发现的问题中去分析问题,从而解决问题,这已经成为学习的目的。因此,对于问题解决中学习的神经机制的研究,就具有一定的现实意义。研究中采用功能磁共振成像(fMRI)技术,对四方趣题任务的学习过程进行fMRI扫描,目的是揭示启发式问题解决中技能学习的神经机制。研究结果表明,在学习后,被试做题的反应时降低、正确率上升;双侧的梭状回、双侧的后顶叶、双侧
本文在Copeland和Taylor (2009)模型的基础上,建立了碳排放的EKC曲线的理论模型,根据《中国能源统计年鉴》中各省历年能源消费数据对二氧化碳排放量进行测算,选用2005-2010年的数据通过严格的经济计量方法和统计检验,采用变系数的面板模型来验证人均二氧化碳的库兹涅茨曲线,分析出各省的EKC曲线特征及所处的阶段,之后对各地区的拐点进行预测,从而为我国实现经济与低碳的双赢发展提供政策
会议