基于语义消歧隐马尔可夫模型的主题爬虫研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lipz7517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫是利用程序自动地从互联网中抓取与给定主题相关的网页资源。大多数主题爬虫是通过网页内容、链接结构预测未访问URLs的主题相似度,将这些数值作为对应URLs的访问优先级。然而,上述主题爬虫在表示网页时未考虑某些词项存在一词多义的现象,导致不能准确地获取网页的表示词项及其主题相似度,这将误导主题爬虫抓取网页的方向,从而降低了主题爬虫的爬行效果。此外,这些主题爬虫未对相同链接距离的不同网页进行网页聚类,导致不能准确地获取抓取网页到目标网页的状态概率,这也将误导主题爬虫的抓取网页方向,从而也降低了主题爬虫的爬行效果。为解决上述问题,本文提出基于语义消歧图谱与隐马尔可夫模型的主题爬虫,重点研究工作如下:(1)本文构建语义消歧图谱(SDG)。SDG用于去除在抓取网页的表示词项中与给定主题无关的歧义词项以实现更准确地确定抓取网页的表示词项。语义消歧图谱构建是利用训练网页集提取主题词项,将这些词项作为该图谱的结点,结点间的关系强度通过对应两词项在互联网中共现相关网页数进行衡量,通过模糊推理模型从该图谱中所有结点对应的主题词项中识别歧义词项,通过结点间关系强度进一步提取每个歧义词项对应的消歧词项集合。语义消歧图谱目标是去除与给定主题无关的歧义词项,即在表示抓取网页词项集合中去除在抓取网页的表示词项中与给定主题无关的歧义词项,进一步优化该抓取网页的表示词项集合。(2)本文建立隐马尔可夫模型(HMM)。HMM用于估算抓取网页链接到目标网页的状态概率以实现预测该抓取网页内未访问URLs的优先级。隐马尔可夫模型建立是将每个网页到目标网页的链接距离作为该模型的隐藏状态,而将每个网页根据文本内容的聚类类簇作为该模型的观察类簇,该模型参数包含初始状态概率分布、状态转移概率矩阵、观察输出概率矩阵,并利用训练网页集中处在不同隐藏状态、不同观察类簇的网页数量来估计该模型的三大参数。隐马尔科夫模型的目标是依据观察类簇序列及模型参数估算抓取网页链接到目标网页的状态概率,进而推理预测该抓取网页内未访问URLs的优先级。
其他文献
离子型有机多孔聚合物(ionic porous organic polymer,iPOPs)是一类含有电荷的新型多孔有机聚合物,其理化性质,官能团和活性位点可以通过抗衡离子交换轻松地进行调节。因此在气
在实时视频场景分析,如在机器导航、自动驾驶和视频监控系统中,在线多目标跟踪技术起到了重要作用。随着GPU计算能力的提升和深度学习网络在目标检测方面的应用,基于检测的方法成为当前主要的研究方法,大多数的多目标跟踪算法是在检测的基础上进行数据关联,因此,如何鲁棒地将复杂场景视频中的目标检测结果与已有轨迹进行关联具有很大的挑战性。目前常用的匈牙利算法和KM匹配算法对检测算法的依赖性较强,在场景复杂、运动
前人研究表明羊毛弯曲的产生是受多种信号分子调控的结果。Dickkopf 1(DKK1)在哺乳动物毛囊生长周期及毛发发育中的作用已有较多研究,但是对羊毛弯曲的作用还未见报道。另有
本报告选取美国作家马库斯·李·汉森(Marcus Lee Hansen)所著的The Atlantic Migration:1607-1860其中第三至五章作为翻译实践材料。该书主要讲述大西洋两岸白人声势浩大的迁徙运动,编织出一幅清晰明了的旧世界移民图景。这本书难以为读者理解,表现在以下三方面:第一,语言表达复杂,含有大量长难句、专有名词等;第二,作为历史移民文学作品,知识系统庞大复杂,其内容涉及
目的:观察以TNBS/乙醇法诱导建立UC模型大鼠外周血来源的BMSCs向结肠黏膜组织的归巢及炎性损伤修复能力。比较参苓白术散与痛泻要方对该模型大鼠外周血BMSCs向结肠黏膜组织归
从五四时期开始,儿童文学就作为一种独立的文学形式在中国流行。儿童小说翻译作为文学翻译体系中的一个分支,近年来受到的关注越来越多。对话是儿童小说中篇幅最大的文体,最能体现儿童小说翻译与其他文学翻译的不同。本文以笔者自译的英文儿童小说The Land of Stories:the Wishing Spell(《故事岛——许愿魔咒》)中的对话原句为例,从选词特点、选词的影响因素和选词策略三个方面对儿童小
日益增长的能源需求正迫使人们竭力寻找可替代能源,目前的最佳选择可能是可再生能源—可燃冰。因为可燃冰燃烧值高、污染小以及储量大,因此它也被视为未来石油和天然气的战略
随着经济全球化的推进,更多的国际产品涌进中国市场,尤其是许多的医疗设备公司正寻求与中国公司的合作,在某种程度上这是有利于中国医疗卫生事业的发展。国外企业想要融入中
起重船作为大型海上作业的关键装备,广泛应用于海上救捞工程、海上风电设备安装、海上油气开发等工程中。随着起重船向大型化、深海化和智能自动化方向发展,高效安全自动压载系统成为迫切需求。压载水泵-重力自流-压缩空气(Pump,Gravity self-flow and Compressed air,PGC)复合压载系统作为新型压载系统,能够实现高效压载,在大型起重船舶中将发挥重要作用。本文在分析了 PG
船舶的航向控制是船舶运动控制中最基本的研究内容,是船舶航迹跟踪控制研究的基础。大型船舶运动具有大惯性的特点,对船舵响应缓慢;操作伺服子系统存在时滞性和继电器特性等非线性因素;船速和船舶的装载情况会影响船舶运动模型的参数甚至结构产生摄动;船舶航行环境复杂不一,海洋环境尤为复杂多变。这些因素使得船舶航向控制成为一个复杂的非线性问题。目前在船舶仿真研究及工程应用中,大多采用MMG(Maneuvering