HTML文本自动分类技术的研究与工具的实现

来源 :内蒙古大学 | 被引量 : 15次 | 上传用户:lk656lk55lk6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。本文的目标就是以HTML文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。 本文主要研究内容包括: 1.构建了一个实验用语料库。 2.研究了HTML标记对网页内容的修饰作用,以前人理论为基础设计和实现了基于HTML标记的网页分析和加权策略与算法。 3.分析了HTML文本自动分类的重要技术:文本预处理;特征赋权;特征提取和特征选择的六种评估函数:信息增益,互信息,期望交叉熵,X~2统计,文本证据权,右半信息增益。对用Webdup抓取得的HTML文本集进行了系统测试,分析了各种评估函数对不同分类器的优劣。 4.研究了HTML文本分类算法:朴素贝叶斯、K近邻、支持向量机等几种分类算法,将k近邻方法和支持向量机相结合形成KNN-SVM分类器,更加适用于网页文本自动分类的需要。并对KNN和KNN-SVM两种分类器在复旦大学标准语料库和网页语料库上进行了实验比较分析,得出KNN-SVM是比KNN更好的分类器。 5.作为HTML文本自动分类技术研究的结果,采用VC++设计与实现了支持KNN和KNN-SVM两种分类器的HTML文本自动分类原型系统。
其他文献
自1988年首个利用缓冲区溢出漏洞进行传播的病毒Morris爆发以来,缓冲区溢出攻击就一直是计算机安全中最严重的攻击行为之一。近些年,它又成为了高级持续性威胁APT (Advanced
随着汽车电子技术的飞速发展和智能化终端设备的普及,新一代车载信息娱乐系统的构建成为人们关注的焦点。而HTML5技术能帮助车载信息娱乐系统供应商,紧跟消费产品、应用程序和
结构健康监测技术将驱动元件或者传感元件集成在结构中,同时与材料结构的建模方法和信号信息的处理方法相结合,通过对特征参数的提取,在线实时地识别结构的健康状况,然后通过
本文论述了基于SNMP的IT设备管理系统的设计与实现。首先,提出了系统的体系结构和功能模型,包括5大功能模块:拓扑管理、告警管理、性能管理、安全管理和日志管理。其次,阐述
随着电信技术与计算机技术的发展,电信网络与计算机互联网络不断融合,网络提供的业务种类大量增加。同时越来越大的网络规模加上越来越复杂的网络结构,使信息技术的应用模式也发
随着计算机技术的发展,计算应用的模型也发生了重大改变。作为一种新的载体——嵌入式系统应运而生。嵌入式系统研究的一个热点和难点问题是嵌入式操作系统。为了满足专业领
随着网络技术和多媒体技术的迅速发展,大量的多媒体信息都可以从网上获得。如何从众多的多媒体信息中检索出我们需要的信息,是当前的一个热点问题。本文主要进行了多媒体信息
近年来的研究发现,许多现实系统都可以用一个复杂网络来描述。这些复杂网络具有一些相同的特征,如网络平均路径长度较小、聚类系数较大、节点度分度服从幂律分布等,这些特性是复
随着互联网与信息化技术的迅速发展,社会网络逐渐普及,越来越多的人们在网上共享数据并参与各种各样的活动。社会网络的出现无疑给人们的沟通与娱乐提供了及其广阔的平台,但
工作流系统成功的关键在于向其输入的工作流的质量。因此,工作流建模成为当今工作流研究的一个热点问题。 工作流管理联盟(Workflow Management Coalition,WfMC)将整个工