文本挖掘技术在短信文本中的应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:guo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网飞速发展、电子商务技术日趋成熟的今天,随着移动终端——手机的日益普及,手机短信作为无线数据通讯的一个基本业务,为人们相互间交流提供了新的手段,并且受到了手机用户的青睐。作为一种新型的广告宣传的方式,手机短信有很大的潜力和前景,然而在实际运营中仍有不可回避的问题:垃圾短信。从目前的市场情况来看,手机短信广告最需要面对的就是如何解决扰民问题。这就需要广告发布者采取有效的方法以获得广告受众的相关信息,从而定向投放具有针对性、应变性的短信广告。为实现这一目的,我们可以运用文本挖掘技术,从海量的电信业务数据进行分析,在此基础上有针对性地投放短信广告,从而形成广告投放者、广告受众、电信运营商三赢的局面。本文将文本挖掘方法应用于电信业务数据模型上,应用数据约简技术以解决数据量大的问题,应用数据除噪技术以解决数据含噪声的问题,综合运用多种模式识别技术以从电信业务数据中分析出用户的兴趣点所在、实现短信广告定向投放功能,这些都是本研究的重点,也是本研究的创新之处本文的主要工作包括:(1)提出了一种针对短信文本的聚类方法,具有高准确度和高效率的特点。(2)提出了一种预加窗的中文文本校对技术,用于文本规范和校对,同时该算法具有较小的计算复杂度。(3)提出了一种自适应的重复特征选择技术,该方法能够最终得到最优的低维特征空间,同时也有效的解决了训练集含有噪声训练元素情况下的最优特征提取问题。(4)提出了一种基于关键词表的特征权重调整技术,进一步地突出了短信中的关键词成分,提高了关键点的识别率。试验表明,本文中提出的方法是有效的,此外本研究还有一定的现实意义,对数据挖掘在电信行业中的应用有一定的促进作用。
其他文献
肺癌已跃居世界癌症死亡率的首位,造成肺癌高死亡率的主要原因是肺癌早期症状不明显而难以诊断,因此“早期发现,早期诊断,早期治疗”是降低肺癌患者死亡率的重要举措之一。临
目前市场上关于网络视频监控的主流产品有两大类:网络摄像机和网络视频服务器。网络摄像机结构简单,使用方便,但其对多用户并发访问支持不够,所以主要适用于小规模的视频监控
按键控制播放器系统是一个典型的手持设备产品,它通过外部按键来控制音频播放,以达到用户交互功能。本文主要以ARM9处理器为目标平台,深入分析ARM公司提供的相关资料,介绍了A
由于异构多核处理器能够提供更高的性能,越来越多的公司致力于研发异构多核处理器,业界对异构多核处理器的热衷促进了该类处理器系统软件的研究,其中任务调度是重要一环。本
随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速检索到期望的目标及其关联信息。网页自动
计算机软硬件技术飞速发展,有力地推动了嵌入式系统等专用计算机系统的广泛应用。一方面,在很多嵌入式系统中,系统使用者往往要求具有菜单、窗口和按钮等图形元素的人机交互
随着信息技术的发展,图像处理与识别技术己应用于例如交通管理、银行支票识别、医学图像中的癌细胞识别、遥感技术等许多领域,成为21世纪具有时代特征的重要技术之一。本文从图
回归测试是保证软件质量的有效手段,是软件生命周期的一个重要组成部分。在很多软件项目中,回归测试开销通常占整个软件产品预算的一半以上,因此,为了能够最大限度约减这部分
嵌入式系统在不同场景下具有不同需求。硬实时应用环境下对嵌入式系统具有更高的要求,高安全性和高可靠性成为除了高性能之外的必要需求。这类系统如航空航天控制系统、核电站
网格安全是网格计算系统中必不可少的机制。由于网格系统的异构、动态、多域等特点,网格安全问题比网络上的安全问题要复杂得多。随着网格系统开始被广泛地应用于国防、商业、