汉语文本自动分类

来源 :吉林大学 | 被引量 : 0次 | 上传用户:danshenguizu920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类作为自动信息管理的一项核心技术,其研究一直受到高度关注.本文从市长公开电话文本分类具体的实际问题出发,在真实数据集上展开研究,研究主要包括以下几个方面:为了能对市长公开电话的海量文本数据进行全面的统计分析,研发了信息综合管理系统控制平台.该平台是集开发与应用为一体的大型工具软件,内含笔者设计的独立的平台语言和大量的通用化功能模块,其代码的高度可重用性避免了大量低水平重复开发造成的巨大人力物力资源的浪费,它的研发成功为后续的众多统计分析提供了便捷的环境,也是后续所有工作能够顺利完成的根本保障.本文介绍了平台构建的原理及关键性技术,在平台之上建立了单位分类机和行业分类机、统计分析与预警预报系统.在文本预处理阶段提出了提取未登录词及套话的一种方法,在特征提取方面提出了一个基于加权的卡方统计量提取停用词的方法,删除停用词后的分类器效率有了显著提高.虽然仅删除了500停用词,但由于停用词占训练集总词量的43.7%,因而数据噪音得到大幅度降低.在低频词方面提出了针对每一类按一定比例删除低频词,分类效果增加了一个百分点,如70%,低频词由13909降为3445,向量空间维数显著降低.在分类器构建方面,针对市长公开电话的实际需要,笔者认为朴素贝叶斯分类器有其自己的特点,算法简单且速度快,更适合要求实时的分类数据,但正确率较低,在项目早期的实际测试中,通过对其进行改进,提出了一种基于多重假设检验的特征加权朴素贝叶斯分类器,其优点是在正确率有所提高的情况下速度更快,缺点是参数选择较为困难.鉴于实际数据的类别数目较多,单层分类提高性能较为困难,基于地域信息提出了一种文本分类层次结构模型,和特征加权朴素贝叶斯分类器相比较,该模型构建更简单、实用,同时误判率更低.考虑到工单派发的实际需要,将几个分类器有机组合提出了一种基于分类委员会的文本分类模型构成单位自动分类机,它极大地减轻了受理处和办理处的工作压力,同时使投诉受理量有了大幅度的增加,其直接派发率高达80.76%,派发准确率81.04%.
其他文献
如何将数字穿在身上随着互联网技术的飞速发展,数字服饰不再是T台上供人观赏的风采,而是穿在网络工作者身上,深入到生活里.这样的数字服饰,柔软的屏幕就像丝绸一般爽滑和亮丽
我国的教育一直以传统的“输入式”教育为主导,教学中以教师为中心,对学生实施教学。在神经外科的临床实习中,由于神经外科涉及颅脑及神经解剖等方面的基础知识和病例常较为复杂
在“一带一路”背景下,就工程管理专业《管理学原理》全英课程的教材建设、教学方法和评价体系进行了探索和实践,目的在于培养学生的国际视野,在学习专业知识的同时最大程度地提
目的:观察全胃切除术治疗胃癌的临床效果。方法:回顾性分析实施全胃切除术治疗30例胃癌患者的临床资料。结果:手术均顺利完成,无吻合口瘘发生,肺部感染2例,胸腔积液2例,粘连性肠
踏上福建永定神秘的土楼之旅,犹如阅读一部鸿篇巨著,其中奥秘,引人入胜.驻足北山朝南俯瞰,由5座圆楼和数十座方楼组成的初溪土楼群尽收眼底.最醒目的是那一字儿排列的3座圆楼
<正> 各位理事、同志们: 省珠算协会一九九五年理事年会,历时三天,现在就要结束了。 出席这次会议的有省珠协名誉会长、顾问、会长、常务理事、理事和地市、省直系统珠协的会
一项新的研究显示,吃黑巧克力可改善血液循环.希腊科学家说,他们着次论证了巧克力是如何改善血管功能,促进血管扩张,从而防止潜在的、破坏性的血栓的形成.
随着计算机硬件和网络性能的显著提高,现代建模技术、虚拟现实技术和软件技术等技术的发展,给已经发展了几十年的、深入各行各业的分布式交互仿真注入了新的内容和活力;而在另一
指出了随着我国社会经济的快速发展,城市化进程不断加快,城市人口、土地、能源需求之间的矛盾也逐渐加深。在城镇化发展的同时,生态环境也受到了相应的破坏。基于此,人们在城