Web页面链接文本信息抽取与分类的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:RS2322ABC
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文分析和利用超链接信息,即利用对链接文本和标题、所指向网页内容分析来对该链接文本(亦即对链接所指向的网页)进行分类并进行错标、漏标识别。本文首要提出网页中的链接文本与相关链接。并过滤掉无用的导航、广告等无用链接。为此,本论文分别针对链接文本和相关链接提出不同的准确高效算法策略。对链接文本、相关链接分类涉及到关键词表的建立、未登陆词识别、与标题的相关度计算、特征句的提取还有分类体系的建立和链接漏标、错标识别。针对中文网页的特点和网页分析过程中的对特征词分类的要求,提出了针对Web文档的改进的TF-IDF算法,可以更有效的提取关键词表。对于未登录词的识别,本文提出可以从词的结构特点和特征词之间的二元关系两个方面来辅助识别未登录词,并取得了较好的实验效果。链接与标题之间的相关度我们用向量空间模型表示。另外,本文通过实验结果表明所找到的特征句和从句子中提取出的信息能够大大的补充仅仅分析网页标题和链接标题的不足。在特征词表建立和特征信息表示中,本文引入等价、从属和同属关系将其表示成统一的格式,其通用性、可扩展性都大大提高。最后,在本链接文本分类系统对上面的算法进行了测试。表明只需根据各个应用领域的特色修正关键词词典即可实现算法通用。
其他文献
搜索引擎是Web信息检索的主要工具,Crawler是搜索引擎的核心组件,用于搜集Web页面。实现一个可扩展、高性能、大规模的中文搜索引擎,核心是设计一个可扩展、高性能、大规模的
本文主要从信道补偿和信道顽健(Robust)特征两个方面,研究如何提高说话人识别系统的信道顽健性.在信道补偿方面,将两种语音识别中的信道补偿方法,最大后验概率MAP(Maximum A
网格化动态自组织体系结构即DSAG是一种新型的高性能计算机体系结构。它可以根据应用的计算模式和运行模式的需要,将网格化部件动态组织成一个计算机系统,并有效运行程序。DS
本文以可用性为切入点,通过对可穿戴计算机的功能、结构、关键技术和应用领域的研究,归纳总结了系统在可靠性和可用性方面要求以及影响系统可用性的因素,并针对 影响可用
随着社会信息化的不断发展,多摄像机目标跟踪系统日益引起人们的重视。多摄像机跟踪系统能够扩大视野范围、可以从不同角度解决目标遮挡及分析异常行为,因此应用前景广阔。如何
本文在分析当代商业网络处理器体系结构特征的基础上,首先按照网络处理器市场、网络处理平面的不同定位对商业网络处理器产品进行分类,并据此展望了下一代网络处理器的设计趋
本文设计了基于预分配密钥信息思想的安全通信协议,该协议由密钥管理功能模块和加解密模块组成,二者协同工作,实现了数据的安全加密传输。 建立对称密钥是传感器网络安全问
工作流技术是近年来计算机应用研究领域中迅速发展的一项新技术,作为工作流技术的实现,工作流管理系统已广泛应用于众多行业中。其中,工作流管理系统的最重要功能之一就是工
电磁声发射无损检测技术是近些年来新兴的一种无损检测技术。目前还处于实验室阶段,实验过程中由于采集到的电磁声发射信号中不可避免地存在噪声干扰的问题,为了提高电磁声发射
非均匀有理B样条(Non-Uniform Rational B-spline,简称NURBS)方法,是计算机辅助设计(CAGD)中表示和处理曲线曲面几何问题的一项重要标准。因为NURBS优良的性质,使它成为工业界对