【摘 要】
:
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提
【机 构】
:
交通数据分析与数据挖掘北京市重点实验室(北京交通大学),北京交通大学计算机与信息技术学院
【基金项目】
:
国家自然科学基金面上项目(61473030),数字出版国家重点实验室专项课题
论文部分内容阅读
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FI
其他文献
得到了Banach空间一致凸的一个性质: 设λ,μ∈(0, 1)且λ+μ=1, M={x∈X:‖x‖≤1}, 则1<p<+∞时, 对任意ε<0, 存在δ(ε, p)>0, 使得当x∈M, y∈X且‖x-y‖≥ε时有‖λx+μy
播存网络将广播分发模式引入现有互联网体系结构,极大地降低网络共享过程中产生的冗余流量,可有效缓解信息过载问题.播存网络采用统一内容标签(uniform content label,UCL)适配
文章选取具有连片贫困县典型特征的左右江革命老区贫困县为例,应用耕地生态足迹模型和ArcGIS平台,计算其在2005、2010、2015年这3个时间节点上的耕地生态足迹和生态承载力,对
在完备H-度量空间中借助于Kuratowksi测度, 去掉KKM定理中紧性的条件, 建立了一个非紧型的KKM定理, 并将此结果应用于不动点、最佳逼近、极大极小不等式和鞍点等问题.
目的探讨分析小儿支原体肺炎临床治疗方法及其效果。方法回顾性分析本院于2009年10月至2011年10月期间所收治的小儿支原体肺炎患者200例,所有患儿均采用阿奇霉素作为主要的抗