论文部分内容阅读
网页链接的抽取是指将网页源代码中的<a>标签的href属性的取值按照用户的需求提取出来。目前网页链接的抽取主要是将网页中全部链接抽取出来,并没有对链接进行分类,抽取的结果包含大量的无用链接,与用户需求不符。本文按照新闻主题的不同,将网页链接分成主题链接和噪声链接两类,而噪声链接又分成外指噪声和内指噪声。在此基础上,本文采用了基于规则的机器学习技术获取页面的链接模式。首先利用在线算法与平摊分析对链接页面分析,其次制定了样本选择规范对链接样本进行选取,而后将学习到的链接模式表示为正则表达式,最终将链接模式与页面所有链接进行匹配,获得主题链接。该方法的优点是对更新频繁的页面进行链接抽取时,抽取时间大大缩短,克服了每次对同类网站页面进行相同的页面分析,适合周期性的对同一页面进行链接抽取。方法实现了快速、高效的链接抽取。网页正文的抽取是指将存在于网页中的,与网页主题相关的、结构完整的文本提取出来。传统的方法是将网页结构表示成树,但建树与查找树的过程中,空间与时间复杂度都过高。而且网页标签嵌套现象普遍,在后续正文抽取中,理清各文本段落间的关系需要反复遍历其祖先及后代,效率低下。本文提出了基于线性化的段落划分聚类的网页正文抽取方法。该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过原始段落集的过滤划分、段落聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文。该方法克服了对网页建树的复杂过程,具有简单、快速、准确的特点,实验表明该方法的抽取准确率可以达99%以上。利用上面的两项技术,本文初步实现了网站新闻定制系统和大规模网页新闻类语料的自动下载系统,系统具有准确度高、鲁棒性好、响应时间快的特点。此外,本系统已经集成到网页分类检索系统中,是一种全新的web信息检索方式。这是本文的网页链接抽取、网页正文抽取技术和自然语言处理中的文本分类技术相结合的产物,体现了本文研究的重大应用价值。