基于PageRank值的文本相似度改进模型

被引量 : 4次 | 上传用户:w2119h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎做为互联网的核心技术之一,它对互联网发展的贡献是巨大的。搜索引擎的目的就是为了给用户提供高效的检索结果,也就是让用户更快、更全、更稳、更准的从复杂的万维网中找到自己所需要的信息。互联网的变化日新月异,为了满足用户日益变化的需求,搜索引擎所使用的各种技术也不断的在发展、进步。本文深入的研究了文本搜索引擎的原理和体系结构,以Google模式中的PageRank算法和VSM模型为重点,改进了VSM模型中使用广泛的词权重统计方法——term frequency/inverse document frequency (TF/IDF方法),提出了将PageRank值应用到文本分类中的新方法——基于PageRank值的文本相似度改进模型。本文的主要工作包括:首先,考虑到网络的特殊环境,对词频的统计方法(TF方法)进行改进,使改进后的词频能够更好的为检索本身服务。其次,对逆文本频率的计算(IDF方法)进行改进,在计算逆文本频率的时候考虑不同文本类别的影响,使最终提取的信息对文本更有价值。然后,结合改进后的词频统计方法和逆文本频率计算方法对文本相似度模型的流程进行改进。最后,对改进后的相似度模型进行验证,经过对大量的实验数据进行分析发现改进后的模型对提高搜索引擎的检索效果具有成效。在改进后的模型中先以PageRank值的大小为准则进行初步分类,然后考虑不同类别间的信息价值采用改进后的TF/IDF方法进行特征提取以计算相似度,最后进行相似度排序。为了使改进后的方法能够方便的应用到实际中,本文提出了构造中间件无缝衔接原系统的方案,并设计了相关的中间件——用户接口。在实验阶段,先对人工选择的检索库进行初检索并统计检索结果,然后应用改进后的方法对检索结果进行二次检索,最后对两次检索结果进行比较和分析。在实验数据的统计分析中,重点分析了两次检索结果的相关性、优异率、新词准确率等项目,实验结果表明:改进后的模型可以提高检索的整体效果,使用户更轻松的找到自己所需要的内容。
其他文献
职前数学教师教学能力的培养受到许多数学教育工作者的关注。数学解题教学能力是小学教育专业数学教学能力的重要体现,是师范生必备的一项数学教学基本功。数学解题教学能力
当今世界格局复杂多变的形势下,在各种风险因素中,对中国政治安全和政治稳定构成最大威胁的不仅仅是来自外部的风险的挑战与冲击,还包括内部政治生态的变化。由权力异化导致
中国的翻译市场刚刚开始正规化,对其主体即译者的研究显得十分必要。目的论将所有翻译失误自上而下分为四类,即功能性翻译失误、文化性翻译失误、语言性翻译失误以及文本专有
古今中外,诗歌都注重形象与情意的结合。西方的文学理论更注重表达的技巧,把形象与情意的关系分别得非常仔细,像明喻(Simile)、隐喻(Metaphor)、转喻(Metonymy)、象征(Symbol
<正>手足口病于1957年首先发现于新西兰及加拿大,之后反复在全球多次大流行[1]。近年手足口病发病率明显升高,分布广泛,无明显地区性,四季均可发病。除发热,手、足、口腔等部
学界一般认为高丽末李穑写的《驱傩行》一诗的后半部描述的是百姓,而笔者通过研究发现其实不然,它实际是以神道为中心的假面戏,是一种高丽傩戏,并深受中国唐宋宫廷傩礼和西域
近年来,医药购销领域人员受贿犯罪呈现涉案主体集中,涉案人员覆盖面广、群体犯罪现象严重,手段方法复杂多样,涉案领域以药品、医疗器械、医用耗材为主,犯罪行为呈半公开,持续
俄语数量数词词义的模糊性任思明词义是一定社会集体对一定对象的概括的反映。这种反映,有的是十分精确的,有的却是模糊的。这是因为,世界上的许多客观事物纷纭复杂,有的对象常常
针对目前城市轨道交通线路规划中存在的问题,从城市空间综合开发利用的角度,阐述了轨道交通线路规划与城市道路、地块开发和城市地下空间开发的关系。提出应在科学规划、统筹
目的研究氟比洛芬酯注射液联合盐酸曲马多缓释片的多模式镇痛(multi-model analgesia)用于膝关节置换围术期镇痛的效果。方法拟行单侧全膝关节置换术的骨关节炎患者50例,性别