基于词聚类的多阶段文本主题自动划分

来源 :全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 | 被引量 : 0次 | 上传用户:zwb19831101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索的一个重要问题,而文本-词频矩阵的词频维数过大和过于稀疏两个特点,给计算造成了相当困难.为解决这一问题,本文提出了一套新的基于词聚类的文本主题自动划分流程,这一流程根据具体待处理数据类别的变换,结合使用了Fuzzy k-Modes、BIRCH以及k-means三种聚类方法.首先基于共现关联度构建词的关联网络并增加了优化处理,通过改进的复合权重公式筛选主题关键词,然后使用Fuzzy k-Modes算法进行关键词聚类后,使用各子主题词主题词的概念.在完成主题词聚类.为实现主题的层次性划分,特别引入了复用忖频作为特征对文本集施行层次聚类算法BIRCH以完成文本分类.在应用BIRCH的过程中,对分支因子作了改进.实验证明这是一套可行并有效的文本主题自动划分方法.
其他文献
研究了杂波环境下多传感器多目标跟踪中的数据关联问题,针对联合概率数据关联方法的计算量大等缺点,提出了多传感器多目标跟踪的极大似然关联分配算法,建立了传感器测量与目
会议
军用软件测评实验室作为独立测试方,其承担的测试任务具有特殊性,目前缺乏适用的测试过程模型指导,测试过程模型MSTLM依据相关标准提出了针对军用软件测评实验室具有较普遍适
针对我军信息集成中出现的"信息孤岛",为了解决现代军事信息集成中的语义集成问题,给出了一种基于混合本体结构的本体集成框架,并探讨了本体映射在该框架中的实现.通过该框架
本文采用双剪应力线性屈服准则,共线矢量曲面积分、变上限积分对小林史郎三维轧制速度场进行理论解析得到了轧制力、力矩的解析解.通过轧制纯铅实验,将轧制力、力矩的计算结
本文对基于Agent的工作流系统的通讯机制进行了研究。文章介绍了一种Agent通信框架,在这个框架之上能够快速构建基于Agent的工作流系统,系统开发者不必关心通讯机制的内部实现,
本文阐述了武钢通信公司专网综合营帐系统的建设特点、系统架构、系统功能,对企业专网的建设有一定参考价值.
目前时间序列的数据挖掘集中于部分周期模式的发现[4]、似然发现[5]、新模式发现[6]、基于特征分类[7]等方法,但都没有解决整个时序样本的表示方法问题.本文提出了一种时间序
目的:制备大蒜辣素前体包芯片,使其口服后在短时间内促发酶促反应,生成大蒜辣素。方法:以蒜氨酸和蒜酶双层片为片芯,控酸颗粒为外层压制得到包芯片。并以人工胃液为介质小杯
一、对我國古代血吸虫病流行情况的研究近数年來中医治療研究血吸虫病有了長足的進展,中医治療的病例数以万計,大大地提高了我們对这一疾病辨証論治的旣有水平,中西医对于我
传统的基于向量空间的文本分类方法很难处理文本的高维特性,本文首先综述了潜在语义分析的理论及方法,并且解释其数学意义,提出基于潜在语义分析的Web文本分类方法,给出Web文