【摘 要】
:
本文对短信分类的关键技术做了深入的讨论。结合贝叶斯分类的文本分类方法和Bigram分词的方法,并提出在移动手机终端进行双层短信过滤模型,对传统的文本分类进行了改进,有效
论文部分内容阅读
本文对短信分类的关键技术做了深入的讨论。结合贝叶斯分类的文本分类方法和Bigram分词的方法,并提出在移动手机终端进行双层短信过滤模型,对传统的文本分类进行了改进,有效地提高了短信文本分类的准确率和普适性。本文首先介绍了传统的文本分类问题的研究,回顾了文本分类领域已有的成果,介绍了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,分类方法以及分类效率评估标准等。指出了随着信息量的不断发展,文本分类的重要性。接着,本文讨论了短信文本内容相对于传统文本分类时的长文本的区别,介绍了短信相对普通文本的独有特点。现有的诸多分类算法,直接应用于短信分类时效果不理想,还不能快速有效地对短信进行分类;同时,现有的研究大多是在PC平台上对短信进行处理,对于移动手机端上的应用环境研究较少,因此研究针对移动终端上的短信分类算法有着一定的理论和实践指导意义。针对移动终端的运算能力和存储能力,本文没有采用大型的分词词库,而是采用简单易行的Bigram分词方法,通过去除停用词等手段对分词结果进行预处理,得到短信内容的特征向量。计算量少,速度快,实验效果也较理想。由于短信相对于普通的文本,有其特有的外部特征,本文提出一个双层过滤的短信分类模型,先根据短信的外部特征进行一次预分类,对于不能确定的短信再进行针对短信文本内容的文本分类。通过不断地积累数据集中的短信,本文采用了重新学习的自动学习算法,让分类器定期进行重新运算,调整各词的先验概率,从而不断提高系统分类的准确率。最后,对实现在Android系统上的短信分类器进行了实验评估,实现表明此系统有较高的分类准确率,达到了设计要求。
其他文献
随着互联网和多媒体技术的发展,图像信息急剧增长,图像逐渐成为人们获得信息和了解世界的重要媒介。如何在浩如云烟的图像中获得自己需要的图像信息就成为亟待解决的问题。于是
随着信息技术的迅猛发展,图像处理技术在诸如军事防御、医疗诊断、气象监测等领域发挥着越来越重要的作用。作为一种基本的计算机视觉技术,图像分割是图像处理的关键技术之一
随着智能手机的推广与普及,通信必须依赖运营商提供服务的情况正在逐渐改变。目前,无运营商支持的智能手机通信技术主要有蓝牙、ZigBee、Wi-Fi、IrDA和VoIP。从以上几种技术来
外模式对应于用户级,是与某一应用有关的数据的逻辑表示,用户应用程序根据外模式进行数据操作。在理论上,应用程序开发应该针对外模式,而目前实际上都是针对的逻辑模式,并非
近年来,随着全球定位系统、地理信息系统、卫星数据处理、计算机辅助设计及移动计算等领域的迅速发展,针对移动对象的空间数据查询研究得到了国内外研究者的广泛关注,然而,随着移
面对快速增加的数据量,如何存储管理数据、如何保证数据的安全可靠成为数据拥有者比较关注的问题。因其可靠性、冗余性、高性价比、伸缩性和底层实现对用户的透明性,基于云的数
作物的三维信息获取在农田机械视觉导航及作物种植、收割、农药喷施、除草和蔬菜嫁接等方面的作用越来越大,可为现代农业作业提供作物生长的坐标信息,具有很大的应用前景。本
随着蛋白质组学研究的推进,以及高通量实验技术的快速发展,蛋白质组学中关键蛋白质的研究进入了一个新的发展时期。关键蛋白质是生物体存活和繁殖所必需的蛋白质,在生命活动过程
射频识别(RFID)作为一种高性价比的传感识别的使能技术,日渐在零售、制药、医疗保健和物流管理等领域得到各种大规模应用。然而,RFID事件流具有时序性,动态性,数据量大,包含隐含语
移动Ad Hoc网络作为一种无线网络,拥有组网方便、对硬件要求不高、不需要固定中心等特点。虽然Ad Hoc网络最早是针对军事所设计的,但随着软、硬件的高速发展,Ad Hoc网络已进入了