标签树模板在网页关键信息抽取及话题识别中的应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:cypbvg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,人们通过网页分享与交流着大量的信息,如何快速全面准确地获取互联网上的信息,成为人们迫切关心的问题。网页话题识别研究将为网页搜索与检索、经济决策、人类社会学、网络内容安全等研究领域提供了有效的方法。本文探讨了利用标签树模型提取结构化记录的网页信息提取技术,结合网页结构特征,进行网页话题识别研究的方法体系。本文介绍了网页文档话题识别技术的发展历史与相关技术,这是一种基于网页信息抽取、以数据挖掘为基础的话题识别方法。从半结构化的网页中提取信息是一项有趣而具有挑战性的工作,也为互联网搜索、信息检索和网页挖掘提供了基础。许多网站具备后台数据库,其网页是通过动态网页生成技术,在网页HTML模板内加入数据记录而生成的。本文利用了标签树结构,对网页HTML进行解析,并且通过树的相似度计算,提取网页中HTML的标签树模板。进而我们可以通过标签树模板,提取HTML中的非模板内容。最后分析HTML中非模板内容的重复模式,并利用一些启发式规则,网页文档的记录模式与记录内容将被提取出来。实验证明,这是一个有效的网页信息提取的方法,特别是对于新闻网站与BBS网站的网页。本文进一步探讨了如何利用网页中提取的文本,结合网页结构特征,例如文本样式、字体、位置和链接,改进了以词频-逆文本频率为权重计算方法的向量空间模型,采用层次聚类方法,进行网页话题识别的方法。最后介绍了一个网页文档话题识别的原型系统。系统主要由网页信息收集模块、文档信息解析模块、话题识别模块三个主要部分构成。
其他文献
随着网络规模的扩大,网络流量特征的相关研究已经成为网络性能分析最主要的方向之一。通过对网络流量特征的研究,可以为预测网络性能、QoS服务和SLA服务等应用提供必要的支持
关联规则是数据挖掘的一个重要研究方向,用于寻找数据库中不同项或属性间的相关性。而在关联规则中最常使用的方法为Apriori算法,但其存在一些缺点,例如,产生大量的候选项集,
以用户主导的Web2.0技术已逐渐替代传统互联网模式成为目前音乐服务的主流技术。然而由于其允许用户自由上传和分享音乐相关数据容易导致出现信息过载的问题,海量的数据给音
Web信息的快速增长,给信息检索系统带来了巨大挑战。传统的检索模型需要在一个相对固定的数据集上通过训练得到,不具备开放的学习功能,而Web上的信息[0]是实时更新的,检索模
随着嵌入式Internet技术的发展,家居的智能化是当前的一种发展趋势,智能化逐步渗透到家庭生活中,如信息家电、水电自动抄表系统、安防系统等。家居远程监控系统是智能家居的
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方
新一代的万维网——语义网,使自动化处理信息和信息的机器理解更加容易。然而随着网络的发展,大量含糊的不确定的模糊信息也需要表达和推理。这就需要一种能够处理模糊信息的
计算机现实模拟是计算机图形学和现实世界表现相结合的产物,流体模拟则是计算机现实模拟领域的一个重要研究方向。大多数流体模拟研究均采用基于物理的模拟方法,需要考虑周围
下一代网络(NGN,Next Generation Network)技术的发展已经进入成熟阶段,国内通信运营商在其技术优点的驱动下大量进行国内的NGN网络建设,大约每年以30%左右的速度增加。目前
建立在统计学习理论和结构风险最小原则上的支持向量机在理论上保证了模型的最大泛化能力,因此与建立在经验风险最小原则上的神经网络模型相比,理论上更为完善。支持向量机是