汉语文本数据挖掘

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yuanchonghuanca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和计算机网络的飞速发展,各行各业每天产生并积累大量数据,从海量数据中发现有价值信息的数据挖掘已经成为迫切而富有挑战性的研究课题.本文从市长公开电话的实际需要出发,研究了以下几个方面内容:众多市民在某一短暂的时间内对某一问题的集中投诉,称为热点问题,这类问题产生速度快、数量大,如不及时处理势必会产生严重的负面影响,甚至出现集体上访、阻塞交通、罢工等恶劣事件的发生.如何从海量文本数据中挖掘出热点问题?若采用文档聚类方法直接提取热点问题,会由于文档向量空间的维数过高导致聚类效果很差,因此本文将提取热点问题转化为先求热点词,然后通过热点词进行变量聚类,使反映同一主题的热点词汇聚在一起,画出聚类树,最后根据聚类树提取热点问题.本文论述了提取热点问题的具体实现方法,给出了此方法在市长公开电话数据上的实际应用结果分析,并与人工提取的结果进行了对比,结果表明本文提出的方法效果非常好,既准确又能节省大量的人力.根据市长公开电话数据的季节性特点,设计了基于时序数据的朴素贝叶斯分类器.首先对分类类别与时间进行独立性检验,然后将与时间不独立的类别用核回归函数估计其在不同时间段上的先验概率,从而构建基于时序数据的朴素贝叶斯分类器.鉴于朴素贝叶斯条件独立性假设约束对分类性能的影响,又提出了一种加权朴素贝叶斯分类器,其加权参数作用于类别节点上,先用朴素贝叶斯分类器计算出各类别的后验概率后,通过二次加权调整后验概率,再完成分类,调整系数根据属于不同类别的投诉样本在不同时间内分布情况进行确定.面对海量数据,本文提出了基于任务驱动的并行算法,并应用于决策树学习和贝叶斯多网学习中,取得了成功;将市长公开电话数据按月份分成12个数据子集,并在每一个数据子集上构建支持向量机,经实践,训练时间得到显著降低,能够完成白天分类夜间学习的需要,而且正确率也有很大提高.另外,还设计了基于二项检验的特征词提取和基于词频的特征词词组提取方法,再利用获得的决策树信息、贝叶斯多网信息,提出了一种基于规则的得分法文本分类器.
其他文献
计算机视觉技术具有非接触和自动化程度高的特点,使得这项技术在零件的表面质量检测、尺寸测量和形状识别等方面有着广阔的应用前景。本文利用物体的数字图像,围绕三维尺寸测
<正> 减肥不是儿戏,任何轻率或不科学之举获得的可能是机体的伤害或是更多的忧虑。低热量食谱——猝死减少进餐、限制热量摄入是一种常见的减肥方法,只要坚持确能收到良好的
<正> 据来自世界各地的UFO目击报告,近十代,UFO在地球上的活动更加猖獗,它们不仅大批猎取和宰杀牛和羊等大牲畜,而且还多次绑架和劫持我们地球人,更有甚者,它们连同乘客一起
很久以前西方人就认为,星期五是个不吉利的日子.这不只是因为耶稣受难的日子就是星期五.很多时候,人们会认为这种想法只是一种迷信.不过很多办理意外事故保险的保险公司专家
你相信世界上还有一个和你面貌、性格都几乎一模一样的人吗?或许你曾经听说过这种事。目前,科学理论仍然无法确切地知道,为什么大自然要创造长相几乎一模一样的人。但是这的确存
本文以广连高速项目前期测量准备工作为基础,以奥维地图与AUTOCAD数据的互相转换为研究对象,实现CAD格式数据到奥维地图数据的无缝对接。该应用技术能在野外地形中迅速找到寻
美国著名的人类学家玛格丽特.米德面对欧美社会急剧的社会变迁,从文化传递角度解析代沟,把文化分为后象征文化、互象征文化和前象征文化三种类型,并在此基础上论述年轻人在人
《论语》是儒家学派的经典著作之一,他记录了孔子及其弟子的言行,零碎而简明的言语中蕴含深刻的道理,《论语》一书把孔子的学习态度和学习方法表现的淋漓尽致,他温故知新、不耻下
安全操作系统作为主流的安全技术,需要有相对更加底层的安全支持,否则自身的安全容易遭到破坏,从而危及整个系统的安全。尤其是安全操作系统自身的完整性,包括敏感数据的完整