【摘 要】
:
现今Internet已然成为人们获取信息的主要来源,它的快速发展使得信息资源迅速膨胀,文本自动分类作为有效地组织和管理这些信息的关键技术之一有着广泛的应用前景。本文结合东
论文部分内容阅读
现今Internet已然成为人们获取信息的主要来源,它的快速发展使得信息资源迅速膨胀,文本自动分类作为有效地组织和管理这些信息的关键技术之一有着广泛的应用前景。本文结合东北师范大学理想信息技术研究院“长春市市长公开电话智能综合服务网络”的项目,其中关于如何对市民发出的投诉信息有效分类的问题进行研究。该项目中原始的分类系统是基于统计方法建立的,在实际应用中虽然取得了一定效果,但分类准确率不理想的缺点日益凸显。为了提高分类准确率,本文在原系统的基础上寻求有效的改进方法。研究工作主要包括:首先,面向投诉领域构建了基于关键词组的分类体系库,并且对分类体系库的基本单元即关键词组的形式化描述、存储形式进行深入研究。其次,建立了模糊词典,目的是对分词词典进行同义词的扩展以此提高分词准确率。最后,对比研究了文本自动分类系统常用的分词算法和分类算法。在现有的研究成果基础上进行了最大匹配分词算法的改进,以及改进的KNN分类算法在关键词组概念下的应用。结合以上主要研究内容,设计并实现了一个基于投诉信息的中文文本自动分类系统,分析了系统运行的各个关键步骤,通过设置实验测试了系统的分类性能。结果表明,改进后的分类系统可以有效地提高分类准确率,召回率也有一定程度的提高,说明这些改进是有效并且切实可行的。
其他文献
委托是指委托用户把拥有的权限委托给被委托用户。根据委托深度将委托分为单步和多步委托,前者指委托用户可以把委托权和权限指派给被委托用户,被委托用户不能将指派来的角色
食品、药材等商品的安全问题已经成为社会关注的重要话题之一[1],由于此类商品从原料采集生产到最终消费的中间环节变得越来越多,因此对此类商品进行溯源追踪也变得越来越重
随着计算机硬件与计算机图形学算法的不断发展,计算机动画正在成为当前研究的一大热点。在该领域,角色动画是一个重要的研究方向。它在数字娱乐领域取得了巨大的成功,但还存
P2P网络,即点对点网络,是目前众多学者关注度最高的一种技术,它打破了传统的C/S模型架构,从而在整个网络的通信中不再依赖于中央服务器。这种技术,在目前信息量日益递增、客户
本论文主要研究下一代网络(NGN)的业务情况及在协同教育方面的应用。在传统的技术上,语音、视频属于模拟技术,它们和数字技术有着天然的鸿沟,而数字融合技术在这道鸿沟上搭起了沟
从20世纪70年代开始,人类逐渐进入信息化社会,互联网正以惊人的速度改变着人们的生活方式和工作效率。而随着分布式计算机网络的广泛使用,网络的安全问题也日益突出。网络安
无线传感器网络是21世纪最重要的技术之一,能够广泛的应用在智能交通、国防军事、环境监测、医疗卫生、空间探索等许多领域。节点自定位技术是无线传感器网络的主要支撑技术
随着VPN的大规模商用,网络结点急剧增多。一些企业中的关键业务,如移动运营商的软件服务,对网络结点可靠性要求很高,如何对整个VPN网络进行合理、高效的管理是当前企业面临的难题
孤子是自然界中一个非常普遍又非常重要的非线性现象,它的形成是线性和非线性效应平衡的结果。光学或电磁孤子在光通信、光计算、全光信息处理等领域具有重要的应用价值。最近
众所周知,MATLAB作为一个高度集成的系统,在其内部所提供的工具箱中集合了许多关于科学计算、图象处理、声音处理等功能,在使用MATLAB进行科学计算的时候具有极高的编程效率