一种面向网络话题发现的增量文本聚类算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:lanxuexiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入"代"的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量。实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性。
其他文献
现阶段,能源消耗所导致的环境污染、生态破坏等问题日趋严重。建筑业作为高排放、高消耗的三大行业之一,急需改造升级。绿色建筑的发展,一方面减少了能源消耗,缓解了环境和生
<正> 目前工程界采用的桩基础,按对地基土的作用,可分为挤土桩和排土桩两大类。套筒冲击钻进成孔灌注桩集排土桩与挤土桩的优势,借助锤击力将空心钢套筒打入基土,其阻力主要
针对客户忠诚度分析这一客户关系管理系统的重要问题,在分析已有工作的基础上。经过多级数据归约,提出了多商品配送企业适合工程计算的客户忠诚度公式。进而对客户进行了高速
行政审批是指行政审批机关和具有行政审批权力的组织,根据自然人、法人或者其他组织依法提出申请,经依法审查,准予其从事特定活动、认可其资格资质、确认特定民事关系或者特
贫困农村在生态特色农产品生产方面具有资源禀赋条件,但如何切实帮扶贫困群众借助农产品电商渠道精准、长效脱贫也存在着诸多亟待解决的问题。据此,文章首先系统地阐述了电商
<正>本刊讯:四川大学、电子科技大学2008年自主招生已正式发布。与2007年相比最大的不同是,四川大学更加重视有艺体特长生和有学科才能的考生,而电子科大明年自主招生只招理
科学教师的培养是教师教育领域一个热点问题。以斯坦福大学和华东师范大学为例,对比两校硕士层次科学教师培养方案,分析两校在硕士层次科学教师培养上的相通点与不同之处,为
【目的】不同风化程度钾长石表面矿物分解细菌生物多样性研究将有助于了解矿物生物风化、生物成矿和土壤形成的演化规律和机理。【方法】采用纯培养法自南平钾矿区高、中、低
森林所具有的碳汇功能决定了林业生产在生态保护和生态建设工作中具有特殊重要的地位。本文在分析“后京都时代”森林碳汇问题及黑龙江省森林碳汇特殊性的基础之上,结合黑龙
公共产品供给深刻影响着小城镇各类资源和产业的集聚能力。以第二次全国农业普查综合提要的乡镇统计数据为基础,总结了我国小城镇公共产品供给中存在的地区差异现象,分析了小