基于Web的中文文档自动分类的研究与实现

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:cl8848kill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网上的信息日益丰富,己经成为知识获取的一个重要来源。信息资源的丰富也使信息的检索有如大海捞针,检索到自己所需要的信息资源效率不高。对信息进行整理,提高信息检索的效率具有非常重要的意义。本课题的研究的内容是对中文Web文档进行自动整理归类,以提高用户对信息检索的体验,同时它是搜索引擎、信息过滤、信息检索、文本数据库、数字化图书馆等领域的核心技术。文本分类通常是指在给定分类体系的情况下,根据文本的属性(内容)自动确定其所属类别的过程。一般情况下,文本分类需要有训练集的支持。所谓的训练集是指一个文本的集合,由一组已经完成分类(即给定类别标号)的文本组成。而且根据分类体系的设定,每一个类别都应含有一定数量的训练文本。分类器通过某种学习方法完成训练后才可以用于分类未知文本。文本分类技术可以为信息的组织管理提供有效的支持,更好的满足信息检索的需求。该技术的好坏直接影响到搜索效率的高低。本文主要对文本自动分类中的特征提取以及文本分类算法等几个核心技术进行了深入的研究。提出了一种结合多线程技术实现的并行开放的文本自动分类解决方案。将各种文本分类算法集成为一种可选择单一运行,可并行同时运行的机制。并且可对各算法给出一个开放性的接口进行管理。可添加新的文本分类算法,也可以删去过时的文本分类算法。特征提取方法也采取了类似的办法。这样的做法大大提高了文本分类系统的兼容性及准确性。并且在最后实现了一个完整的文本自动分类系统以检测本论文提出的文本分类算法的效率。
其他文献
不确定性人工智能是当前人工智能中的研究热点和重大的前沿课题。模糊神经网络是不确定性知识环境下构建非线性系统的重要工具。近来提出的基于模糊取大(Max)和三角模中的T模
随着全球网络化经济的发展,世界市场的竞争变得越来越激烈,企业项目的规模越来越大,对项目管理的要求也越来越高,而有效地计划和控制工作(活动)、资源、时间三个变量是确保项
随着网络攻击行为的日益多样化,单纯依靠防火墙来进行网络被动防御的局限性越来越明显,网络安全防护的发展体现出有机结合的趋势,即安全设备通过集成共同实现整体安全目标。UTM
基于软交换的下一代网络(NGN)是目前通信业界的一个热点技术,它所倡导的以分组提供承载,控制与承载分离的思想得到了业界的广泛认同。目前国内外传统的和新兴的运营商都在从不
随着网络和多媒体技术的发展,信息技术在课堂教学中变得越来越重要了。本文在现有的课堂多媒体制作和演示系统的基础之上力求研究和开发一个完全针对教师课堂教学中使用的系
传统的身份识别技术把识别身份的问题转化为检测标识一个人身份的事物,这种方式具有无法弥补的缺陷。比如:个人的物品有可能会丢失,密码有可能会遗忘或被别人窃取,无法区分真
伴随着计算机技术、通信技术、图像压缩技术等的进步,多媒体技术得到了迅速的发展。作为多媒体应用的一个重要组成部分,视频会议系统越来越受到人们的关注。视频会议系统能为
计算机网络的发展大大影响了计算机产业和整个人类的工作、生活方式,人们对计算机的使用不再局限于单机环境,网络化不仅使得单机环境变得黯然失色,而且还使得共享网络资源成为可
伴随着互联网的快速发展,带来的是更多的安全威胁。近年来,CSDN密码泄密门、ApacheStruts2漏洞、棱镜门等一系列网络安全事件进入人们的视野,这其中绝大部分都与Web网站安全息息
P2P(Peer-to-Peer)技术作为Internet的重要技术之一,近些年来受到了计算机业界越来越多的关注。P2P技术直接将人们联系起来,让人们通过互联网可以直接交流。P2P使得网络上的沟