基于主题和态度分类的文本过滤系统

来源 :复旦大学 | 被引量 : 0次 | 上传用户:known9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展,人们可以获取的信息以指数的速度增长。一方面,为了便于管理如此庞大的信息,文本分类技术日益引起人们的关注。另一方面,对于特定的用户而言,所需要的信息往往只占其中极小的一部分,因此从大量的文本数据流中寻找满足特定用户需求的文本的文本过滤技术显得犹为重要。 本文首先研究了主题文本分类中的各项关键技术,在文本表示方面,采用向量空间模型来表示文本,以词汇作为向量空间模型的特征项,然后介绍了7种不同的特种选择的算法,包括文档频率、互信息量、x2一统计量、词汇的熵、KL距离、信息增益、优势比,接着介绍了机器学习中比较常见的几种分类算法:中心向量分类器、K近邻算法、朴素贝叶斯分类器、AdaBoost算法、支持向量机算法。在中英文语料上的实验结果表明特征选择算法中,信息增益、x2一统计量有着相对较好的性能。在20-newsgroups数据集上,采用SVM算法,选用全部特征项,0-1权重,5-fold交叉验证,宏平均和微平均分别达到89.2%和89.4%。 其次,在态度文本分类中,我们研究了词的倾向性分析和篇章态度分类。在中文词的倾向性判断方面,我们提出了将知网的语义相似度和语义相关场计算功能应用到对于词汇进行语义倾向性判别,最好的性能达到了87%的准确率。在篇章态度分类方面,使用倾向性词表的无监督分类在中文和英文语料上都低于60%的准确率,而采用支持向量机算法的监督学习的方法在中文和英文语料上则都达到了86.5%。 最后,介绍了一个基于主题文本分类和态度文本分类技术的网页过滤系统,采用中心向量分类模型进行主题判别和使用支持向量机算法进行态度分类,系统的实验结果表明,该系统的过滤性能和效率都已经满足实际应用的要求。
其他文献
越来越多的证据表明,生物分子不是以单体的形式进行工作,而通常是通过由相互作用的模块组成的分子网络进行工作的。辨识蛋白质相互作用网络的模块结构对理解生物系统的结构和功
随着Internet的广泛运用,将应用扩展到局域网、广域网甚至Internet上已成为用户的普遍需求。分布式计算环境中计算机间高可靠、高精确的协同工作,时间同步是关键和基本的问题
根据图像对已知物体的识别和计数是图像处理和识别领域的一个研究方向。而对生产出的烟支进行数量的统计是中小型烟厂的卷结和包装车间之间一个必不可少的环节,采用图像处理
随着通信技术的高速发展,以及第三代移动通信系统(3G)技术的成熟和商用,移动网络的规模正在不断扩大,网络结构也正进行着不断地变化和调整,网络复杂度和异构性日益提高,通信网络的
随着计算机网络的高速发展,对网络设备的数据处理能力要求也越来越高。流分类技术将数据包按照指定的规则分类,从而提高网络设备的处理和转发速度,是防火墙和UTM网关等网络设
让计算机自动模仿某种艺术类型或某个画家的风格绘制肖像画,是非真实感绘制的一个难题,也是一个有趣的问题。本文开发了一个基于特征的肖像画自动绘制系统,只需要单张画家的
在深入分析标准移动IP较常采用的平滑切换和快速切换方案及其存在的问题的基础上,提出了一种新的适用于在广域网范围内移动的移动IP无缝切换的优化方案,并利用OPNET仿真软件
随着计算机技术尤其是网络技术的发展,业务流程管理系统所面对的用户不再是某个企业或企业联盟,而是数目众多、层次不一的普通用户。这些普通用户常常提出个性化的要求,需要个性
在当今高速网络发展中,许多应用对网络提出了不同于简单数据应用的服务质量的要求,需要提供完善的QoS保证,如果希望给这些应用提供较好的服务质量,要求网络中的交换式路由器必须
学位