论文部分内容阅读
随着信息技术和计算机网络的飞速发展,各行各业每天产生并积累大量数据,从海量数据中发现有价值信息的数据挖掘已经成为迫切而富有挑战性的研究课题.本文从市长公开电话的实际需要出发,研究了以下几个方面内容:众多市民在某一短暂的时间内对某一问题的集中投诉,称为热点问题,这类问题产生速度快、数量大,如不及时处理势必会产生严重的负面影响,甚至出现集体上访、阻塞交通、罢工等恶劣事件的发生.如何从海量文本数据中挖掘出热点问题?若采用文档聚类方法直接提取热点问题,会由于文档向量空间的维数过高导致聚类效果很差,因此本文将提取热点问题转化为先求热点词,然后通过热点词进行变量聚类,使反映同一主题的热点词汇聚在一起,画出聚类树,最后根据聚类树提取热点问题.本文论述了提取热点问题的具体实现方法,给出了此方法在市长公开电话数据上的实际应用结果分析,并与人工提取的结果进行了对比,结果表明本文提出的方法效果非常好,既准确又能节省大量的人力.根据市长公开电话数据的季节性特点,设计了基于时序数据的朴素贝叶斯分类器.首先对分类类别与时间进行独立性检验,然后将与时间不独立的类别用核回归函数估计其在不同时间段上的先验概率,从而构建基于时序数据的朴素贝叶斯分类器.鉴于朴素贝叶斯条件独立性假设约束对分类性能的影响,又提出了一种加权朴素贝叶斯分类器,其加权参数作用于类别节点上,先用朴素贝叶斯分类器计算出各类别的后验概率后,通过二次加权调整后验概率,再完成分类,调整系数根据属于不同类别的投诉样本在不同时间内分布情况进行确定.面对海量数据,本文提出了基于任务驱动的并行算法,并应用于决策树学习和贝叶斯多网学习中,取得了成功;将市长公开电话数据按月份分成12个数据子集,并在每一个数据子集上构建支持向量机,经实践,训练时间得到显著降低,能够完成白天分类夜间学习的需要,而且正确率也有很大提高.另外,还设计了基于二项检验的特征词提取和基于词频的特征词词组提取方法,再利用获得的决策树信息、贝叶斯多网信息,提出了一种基于规则的得分法文本分类器.