论文部分内容阅读
近年来互联网快速发展,网络中出现了海量、动态、半结构化或者非结构化的信息,这些信息80%以上都是以文本形式存在。网页分类是搜索引擎、网页过滤、网络信息管理的技术基础,因此对网页分类的研究越来越重要。网页分类算法是网页分类过程中的一个重要步骤,分类算法的优劣直接影响分类效果的好坏。网页分类技术建立在文本分类的基础上,但又不同于纯文本分类技术有所差异,这是因为网页中存在“噪音”信息以及网页的半结构化特点。文本分类由文本预处理,特征词库的建立、文本分类器、文本分类结果测试这几个部分组成。本文围绕搜索引擎优化对网站设计具有引导性的研究基础上,对网页进行行为分析,提出了一种新的网页文本分类算法——基于行为识别的网页文本分类算法。本文的主要研究工作如下:在对网页行为的研究中发现,网站的设计受搜索引擎优化技术的影响,网站设计者为了提高网站的搜索排名,利用元标签反应网站主题,因此元标签对反映网站的主题有很大的贡献。并且在这种半结构化的文本结构中,绝大多数网页中都包含title, keywords, description, subtitle等,利用网站的这一行为特点提出了新的算法。基于行为识别的网页文本分类算法充分考虑到网站中语言多元化的特点,将网页的文字编码进行统一,最大可能的消除了语言之间的区别带来的干扰。本文同时完成了对该算法的测试,并同国外的类似产品进行比较。该算法正确率、召回率等都能达到90%,体现了良好的分类性能。论文最终给出了基于行为识别的网页文本分类算法的具体实现,及测试工具的实现。该程序目前已对4000万的URL进行分类,包含中、英、俄、德、法等八种语言,体现了良好的性能。