基于HAC的文本话题聚类研究

来源 :通讯世界 | 被引量 : 0次 | 上传用户:a410539939
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(Hierarchical Agglomerative Cluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并结果,有效实现定制式的个性化文本信息聚类。
其他文献
在数字娱乐市场,移动支付已经成为各大支付企业的必争之地,也被公认为是未来迅猛增长的金矿随着第三批支付牌照的发放,网络支付市场竞争日趋激烈。同时,伴随着电商领域市场的
研究了在过氧化物/PDM和过氧化物/硫黄复配硫化体系中,PDM和硫黄用量对CM/NR共混物性能的影响。结果表明,过氧化物/PDM复配硫化体系中,随着PDM用量增加,CM/NR共混物的t90和(MH
初冬,深圳。游戏发行商Gameloft公司的副总裁Ludovic Blondel兴致勃勃地介绍了该公司最新款游戏——《现代战争5》,他现场对比了多组场景,其中一组以逼真的光影、水滴、烟雾等画
采用溶液插层法与双辊混炼法制备了顺丁橡胶/炭黑/有机蒙脱土(BR/CB/OMMT)纳米复合材料,用透射电子显微镜(TEM)以及X射线衍射(XRD)方法对复合材料的亚微观结构进行了表征,并研究了