文本聚类关键技术研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:lzslzs2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络上文本信息呈爆炸式增加,如何精准有效地发现、组织和利用海量文本背后的有用信息成为亟待解决的问题,文本聚类技术是信息检索和数据挖掘技术的综合产物,是自然语言处理的预处理步骤,作为文本挖掘流程的起点,文本聚类对后期文本分析的有效性和准确性都产生了极其重大的影响,近些年成为了研究的热点。目前比较经典的文本聚类算法包含基于模型的方法、基于密度的方法、基于层次的方法、基于网格的方法以及基于划分的方法,而对于像大规模文本处理这样开销比较大的应用,划分方法相对来说具有较低的处理复杂度因而应用相对比较广泛。而在基于划分的方法中常见的有K-means、K-prototypes、K-medoids等,其中,K-means聚类算法是其中比较常用的算法。本文首先对文本挖掘的相关知识做了简要的介绍,讨论了国内外文本挖掘领域的研究现状,对当前研究进展以及已有成果做了总结,然后对文本聚类相关的技术做了深入的分析,简要介绍了几种有代表性的文本聚类算法,并着重讨论了传统K-means算法,该算法被非常普遍地使用在文本的聚类处理中,然而该算法对孤立样本很敏感,它的初始聚类中心选择是随机的,但是不合适的初始中心会导致迭代次数增加、陷入局部最优和聚类结果不稳定的现象。为了解决K-means算法的以上不足,本文提出了一种新的初始聚类中心选择算法,该算法基于LDA(Latent Dirichlet Allocation)主题语言模型进行初始聚类中心的选择,该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类。理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。最后指出了文本聚类模型的发展趋势,并展望了文本聚类领域目前存在的挑战性问题。
其他文献
<正>校长有效地管理学校,必须进行自我管理。我认为要实现自我管理必须通过自我计划、自我组织、自我控制、自我调节、自我评价、自我监督来实现。通俗地说,自我管理就是自己
铸锭中的微观偏析程度与第二相的形貌及分布对铸锭的综合性能有较大影响,在凝固过程中形成的粗大第二相化合物会成为铸锭应力集中和裂纹萌生源,且会损害后续塑性变形和热处理
第二次世界大战极大地改变了世界格局,英国从原来世界上的一流强国迅速衰落为二流国家,面对巨变的现实,英国一改过去超然欧洲之外的“光荣孤立”传统,开始逐渐的融入欧洲联合进程
本学位论文试验研究了骨料处理和掺加纤维对再生骨料混凝土性能的影响。论文对三种骨料(天然骨料NA、再生骨料RA、经过渗透结晶处理的再生骨料RA-1)的性能进行了测试,并对天
心系丑小鸭———《丑小鸭》教学设想○中卫县教研室何兴宝教法新探《丑小鸭》一文,是根据著名童话作家安徒生的《丑小鸭》改写的。教学重点是学会生字和由生字所组成的词,朗读
为了节约灌区水资源,实现水资源统一管理,在宁夏青铜峡灌区西贴渠灌域引入远程自控闸门系统.该系统采用互联网计算机控制,实现闸门远程控制、渠道水位参数控制与调节等功能,
薇拉·凯瑟是20世纪美国文学史中著名的女作家,在文学史上占有重要的地位。在其创作生涯中,很早就名声大起,但是,她也很快淡出了评论界的视线,直到上世纪70年代又重新受到读
<正>为提高学生的写作能力,笔者结合自己的教学实践就如何培养学生的写作能力谈几点认识。强化词汇学习,奠定写作基础。写作是对词汇理解、语言应用的最好体现。每周我都会加
磷石膏主要是磷酸厂、洗涤剂厂、磷化工厂等以湿法生产磷酸而产生的副产物。目前大多都是采用集中露天堆放的方法处理,这样很容易通过风吹、雨淋把其有害物质送入空气和土壤中
海洋作为人类可持续发展的重要战略空间,不仅为人类的生活提供着充足的天然气、石油等物质能源,还是当下世界各国军事发展上重要的战略制高点,是彰显国家实力、维护国家安全的战略要地。为实现海洋环境监测及军事深海探测,水下高分辨率成像系统、海洋感知网络以及自主式水下潜航器(AUV)等设备不断更新换代,同时水下终端设备间的实时通信、大容量数据的传输,逐渐成为人类探索海洋的研究热点。水下激光通信以传输速率高、延