论文部分内容阅读
面向特定主题的信息采集是垂直搜索引擎的关键技术之一,直接影响到搜索结果的速度和相关性。研究面向特定主题的信息采集,应用分步骤判断方法计算页面相似度,改进PageRank链接评价法实现网页测评,应用隐马尔科夫模型(HMM)学习用户浏览路径,构建包含页面的语义的概念图并确定页面链接的结构,最终实现整体信息采集。研究对信息爆炸情况下的个性化搜索有重要意义,并具有重要的理论价值和实际应用潜力。
应用分步骤判断方法计算页面相似度,首先计算扩展元数据特征项相似度,其次判定页面相似度。扩展网页主题,提取扩展元数据特征项:采用TFC的方法计算特征向量的权重,应用机器学习训练特征向量,通过向量余弦值计算扩展元数据与主题的相似度;页面相似度计算:若数据相似度在阈值范围内,则进一步计算页面内容,判定页面的相似度。算法基于HTML的特征采集方式,经试验验证可在不影响召回率的情况下,提高查准率并降低计算时间。
改进PageRank链接评价法实现网页测评,在分析主题页面在Web上的分布特征、传统的链接相关度评价用于链接评价的方法的基础上,融合各种评价算法,实现了基于主题PageRank预测算法,在理论上分析其有效性,并用实际的数据测试论证其可行性。
应用隐马尔科夫模型(HMM)学习用户浏览路径。研究通过基于隐马尔可夫模型)的预测学习判定统一资源定位符(Universal Resource Locator,URL)与主题信息的相关性。应用HMM模型学习用户浏览路径;最终构建包含页面的语义的概念图并确定页面链接的结构,利用训练后的HMM模型在主题信息采集中对相关的URL进行指导采集。最后实验证明该方法的有效性,基于HMM的主题信息采集算法比Best—First算法反馈更多相关主题页面,并具有更高的查准率。
在上述理论基础上,本文设计并实现了一个自然灾害风险垂直搜索引擎系统,提供了自然灾害相关领域的信息检索,具有良好的扩展性和主题针对性,并成功应用到了中国风险网的搜索引擎中。