论文部分内容阅读
本文分析和利用超链接信息,即利用对链接文本和标题、所指向网页内容分析来对该链接文本(亦即对链接所指向的网页)进行分类并进行错标、漏标识别。本文首要提出网页中的链接文本与相关链接。并过滤掉无用的导航、广告等无用链接。为此,本论文分别针对链接文本和相关链接提出不同的准确高效算法策略。对链接文本、相关链接分类涉及到关键词表的建立、未登陆词识别、与标题的相关度计算、特征句的提取还有分类体系的建立和链接漏标、错标识别。针对中文网页的特点和网页分析过程中的对特征词分类的要求,提出了针对Web文档的改进的TF-IDF算法,可以更有效的提取关键词表。对于未登录词的识别,本文提出可以从词的结构特点和特征词之间的二元关系两个方面来辅助识别未登录词,并取得了较好的实验效果。链接与标题之间的相关度我们用向量空间模型表示。另外,本文通过实验结果表明所找到的特征句和从句子中提取出的信息能够大大的补充仅仅分析网页标题和链接标题的不足。在特征词表建立和特征信息表示中,本文引入等价、从属和同属关系将其表示成统一的格式,其通用性、可扩展性都大大提高。最后,在本链接文本分类系统对上面的算法进行了测试。表明只需根据各个应用领域的特色修正关键词词典即可实现算法通用。