结合权重因子与特征向量的文本聚类研究与应用

被引量 : 0次 | 上传用户:wangyang2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是通过聚类算法将同类的文本划分到同一簇的过程,该过程涉及到文本预处理和文本聚类算法执行两个方面。文本聚类方法目前已经被广泛的应用于舆情分析、搜索引擎、电子图书等服务。文本聚类过程属于典型的无监督学习方法,在聚类之前无需知道每个类别的描述信息。这也是文本聚类的难点,众多研究者都对其进行研究,并取的了丰富的研究成果。在文本进行聚类之前需对文本进行预处理,需要通过使用数学的方法表示文本,一般通过向量空间模型对文本进行表示。通过该模型表示的文本都是由文本本身的特征词与其权重构成的向量。但通过传统方法计算的特征词权重在表示文本时有一定的局限性,不能通过特征词权重充分体现文本间的差异性。而且在传统模型中不会考虑特征词出现的先后顺序,更不会考虑特征词在不同位置出现代表的意义是否相同。还有文本聚类算法的选择对聚类效果影响也很大,多数聚类算法不能很好的结合文本的编码方案。本文主要对文本聚类方法的改进和应用做了如下研究:1、首先分析了传统特征词权重计算方法对通过特征词权重表示文本的局限性,并且通过权重因子对特征词权重计算方法做出了改进。该方法强调了特征词权重在文本集合中的重要性,而不是单纯的想通过特征词权重表示文本,增强了同类文本之间的相似度。并在对文本进行编码时修改了传统的VSM编码方案,使文本向量由四条特征向量组成,并对特征向量加上位置权重信息。最后考虑到文本编码方案的修改对文本间相似度计算的影响,重构了文本相似度计算公式。2、其次根据改进的文本预处理和编码方案,通过遗传控制因子(GCF)对遗传K-均值文本聚类算法进行改进。使用GCF对遗传算子操作进行控制,使得算子中的优质个体一定被引入下一代,从而克服了遗传K-均值算法算子操作的低效性。使其应用到本文改进的文本编码方案中能更好的改进聚类效果并且提高聚类精度。最后对改进的文本聚类方法进行实验分析,证明了改进的方法在文本聚类精度上有明显提高。3、最后将结合权重因子和特征向量改进的文本聚类算法应用到舆情热点发现中,对具体应用做了详细分析和流程安排。实验结果表明,改进方法对舆情热点的趋势和预警研究很有帮助。
其他文献
首次将Petri网理论引入到造船企业车间实时调度问题之中,分析了平面分段建造流程,建立起相应的Petri网模型;通过仿真计算,为建造现场调度方案的制订提供了依据。该研究为船舶
<正>本刊讯本刊正文标题层次为0引言;1材料和方法,1.1材料,1.2方法;2结果;3讨论;4参考文献.序号一律左顶格写,后空1格写标题;2级标题后空1格接正文.以下逐条陈述:(1)引言应包
为了探讨传统农业的可持续发展模式,进而为推动传统农业与乡村旅游的良性互动和转型升级提供理论参考,通过对传统农业与乡村旅游融合互动的基础、动力、效益的分析,提出了5种
农业产业化是伴随着我国农业和农村经济改革与发展而出现的一种极具发展潜力的经济现象。只有大力发展农业产业化,才能不断提高农业生产和经营效率,才能实现农业和农村经济的
本文综述分析了由于奥林匹克运动在全世界的传播,而在奥林匹克文化全球化的浪潮中的中华民俗体育所面临的处境非常严峻。如何发展中华民俗体育,如何延续中华民俗体育文化的丰
新时期乡土小说在对城市形象的书写有一嬗变,即由80年代的赞美与向往到90年代后的"丑化"。其原因与时代文化经济的转型、作家自身的生活经历与体验及对现代性的质疑与反思相
目的探讨静脉注射丙种球蛋白(IVIG)对儿童不敏感川崎病的临床研究。方法选取2013年3月至2015年3月该院儿科收治的川崎病住院患儿50例进行回顾性分析,采集白细胞(WBC)、中性粒细胞
随着企业信息化建设的不断发展,应用系统的数量和电子业务流程的任务数量呈现大幅增长,为了有效提高工作效率,设计了一个基于ActiveMQ的任务集成管理系统,实现了应用系统的任
本文对张船山与袁枚的诗论和创作进行深入细致的比较,认为张船山虽然深得袁枚性灵说的神髓,但更多的是能跳出袁枚狭窄的圈子,注重诗歌的社会现实性,对性灵说进行了补偏和匡正
"党的领导"和"检察权"本是分属不同领域的两个概念,前者属政治范畴,后者属法治范畴。在当前中央提出建设和谐社会的语境下,找到平衡二者的契合点,正确处理好两者之间的关系,