基于Web的文本挖掘技术研究

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:zzggwd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的重点是Web文本挖掘技术,文章以文本分类为切入点展开对文本挖掘技术的原理及应用的研究.首先,介绍了Web文本挖掘的理论知识和最新研究成果,以及因特网上的数据组织形式.其次,在分析了文本挖掘的一般过程之后,着重介绍了我们所实现的一个基于WWW的文本挖掘系统的基本概况,包括系统设计的目标、系统组成以及系统所涉及的主要技术等.再次,文章分析了文本挖掘中的文本预处理这一关键技术.另外,针对文本分类,主要分析并比较了文本分类的算法以及分类器评估等问题,提出了基于反馈思想的文本分类改进技术.最后,文章总结了作者课题研究过程中的主要工作和收获,以及研究中的不足之处,并提出了几点未来需要继续进行的工作.
其他文献
随着网络应用的不断扩大,对网络服务器性能的要求也越来越高。相对于传统的高性能计算机,集群系统以良好的性价比和高可扩展性等优点,逐渐成为主流的网络服务器。集群服务器
本文主要从以下四方面研究构件库互联技术: 1.采用一种基于对等网络(P2P)技术的层次性体系结构,避免单个结点负载过大和广播机制等问题。 2.使用LDAP目录服务器实现管理
该文在统计方法下,围绕汉语句法分析面临的这两个主要问题进行深入研究.具体地讲,该文研究从如下四个方面展开:1、对比分析了四种主流句法分析模型在汉语分析中的性能,从理论
随着汽车交换数据的任务越来越繁重,布线越来越复杂,CAN总线以其优越性成为当今汽车网络领域发展的热点之一,CAN总线网络技术的出现标志着汽车网络技术领域一个新时代的开始,
随着计算机网络的迅猛发展,众多的企业、组织、政府部门与机构纷纷组建和发展自己的内部网络。为了保障内部网络安全,现有的做法是要么采用物理隔离的方式使内网与外网隔离,
基于特征匹配的入侵检测系统(IntrusionDetectionSystem-IDS)由于检测效率高,误报率低的特性而被大多数的商业IDS系统所采用。但是,这种系统存在的主要问题是人工生成的专家知
随着计算机网络资源共享的进一步加强,信息安全问题也日益突出:系统漏洞更快地被发现、攻击过程自动化、攻击工具快速更新与不断复杂化、网络威胁传播速度越来越快,由此使得各国
新一代GPS(Geometrical Product Specification and Verification)标准体系是适应经济全球化要求的,面向数字化设计、制造与检验的标准与计量信息系统。在国际标准中,几何产
随着网络技术和多媒体技术的迅速发展,信息技术在给我们带来方便的同时,也使数字作品的版权保护问题变得越来越突出,数字水印技术被认为是数字作品版权保护的一个重要手段。
数字水印技术将可以作为标记、标识的信息做为水印信息嵌入到数字作品中,以达到确认内容创建者、购买者或多媒体内容是否真实完整的目的。该技术是近年来信息安全的一种重要手