面向情报领域的文本自动分类系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jamesleehp1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,以文本格式存储的信息大量出现在Internet、数字图书馆及各种电子刊物上。如何准确有效地查找我们所需要的信息,是近几年研究的热点。文本自动分类技术能够根据文本内容自动对文本进行分门别类,特别适合在海量的文本信息中高效地查找我们所需的信息,是解决上述问题的一种有效手段。本文以军事情报的整编处理为应用背景,主要采用SVM分类算法和词典分词法,设计并实现了面向情报领域的文本自动分类系统。该系统可以实现对军事情报信息的自动分类,解决军事情报处理中的文本处理的关键技术,为军用情报系统的研制提供文本分类处理的算法和模型。本文的主要研究成果有:1)在已有文本分类系统模型的基础上,结合情报分类系统需要使用的技术,分析了文本分类系统中需要的关键技术。2)在给出情报分类系统整体设计方案的基础上,通过比较各种分类算法以及中文分词技术,结合情报领域自身的特点,运用SVM分类算法和词典分词法实现了该情报分类系统。并针对TF/IDF词语权重计算的缺点,提出了运用文本的可分性判据和情报领域自身的特点来改进的词语权重计算方法。3)通过大量的实验数据,验证了本系统在情报领域自动分类的可行性。
其他文献
随着大规模互联网应用的发展,用户越来越多的从分布在不同的地理位置的数据中心获取服务。数据中心为用户提供服务时,需要关心两个重要的问题。第一,用户在从数据中心获取服
无线局域网WLAN(Wireless Local Area Network)是现代无线通信技术在计算机网络中的一种典型应用。近几年来,以其频带免费、组网方便灵活、不受地形限制、易于扩展迁移等优点
自古以来,报表都广泛的应用于政府,工厂,企业里面。最早的报表一般是手写或纸质的,而办随着计算机技术的广泛应用和大力的提倡无纸化办公,现代企业的报表一般是通过计算机来
形态分析和描述是计算机视觉研究中重要方法。在图像处理中,骨架包含了物体形态的重要信息,是形态描述的重要表示,在形态分析和模式识别中已经得到了广泛的应用。在异形纤维
人脸表情识别是计算机科学的热点领域,作为一门交叉学科,人脸表情识别的进步将直接影响到心理学、人工智能、数据挖掘、生命科学等多门学科的发展。随着科学的进步,它在研究
随着计算机的普及和Internet应用的广泛深入,信息安全问题日益引起人们的重视,其中,缓冲区溢出漏洞攻击的数量逐年上涨。本文介绍了缓冲区溢出的原理和主要的缓冲区溢出攻击
运动目标检测和跟踪一直是计算机视觉领域的研究热点和难点,也是智能视频监控系统的核心。运动目标检测和跟踪易受到外界因素干扰,如:光照变化、目标遮挡、摄像机抖动、阴影干
本文研究了手术仿真系统和其中的冲突响应算法,并扩展了受限粒子系统。手术仿真系统是目前医疗图像领域的研究热点和难点,它可以提供一个虚拟的沉浸式的训练环境,以此取代医
Solaris是Sun公司开发和发布的操作系统,动态跟踪是Solaris 10的一个新功能,即动态检测操作系统内核和用户进程的运行情况。模块调试器是用于Solaris的通用调试工具,具有快速
矿井机车的无人驾驶系统是目前井下采矿技术研究的趋势和热点。运行于矿井大巷环境的无人驾驶机车需要利用车载终端动态接入轨旁无线基站,将实时视频数据上传至地面监控中心