面向中文新闻话题检测的多向量文本聚类方法

来源 :郑州大学学报(理学版) | 被引量 : 0次 | 上传用户:hegangcd2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.
其他文献
随着一系列限制公立医院规模等文件的出台,民营医院正在迎来一条康庄大道。
自流管道输送水砂充填技术是一项先进的技术,它具有输送能力大,充填效率高等特点。怎样以最少的能量消耗来保证安全可靠的固液两相流输送,是一个非常突出的技术问题。现结合工业
为解决目前激光跟踪仪无法满足连续自动测量要求的问题,提出一种使用机械臂抓取靶球的方案,通过建立系统模型和转换统一坐标系,使机械臂末端位姿达到被测目标点位姿,并利用机
为独立研究权重涨落的影响,在权重涨落变化时,需要保证边的平均权重保持不变,为此提出了满足平均权重不变条件的边权重定义,给出了一种新的通用易感—感染—康复(SIR)模型在加
从张彪的交代说起1971年九一三事件后,北京军区空军按照党中央的部署,逐级向下级传达林彪反党叛国罪行。在向所属师一级领导干部传达时,驻天津的空军高炮2师政委张彪主动找领
基层公益性农业技术推广长期以来面临着投入不足、性质与预算脱节,机构固化与松散现象并存,人员身份属性复杂以及人才缺失等问题。新时期,乡村振兴战略提出"探索公益性和经营
基于测量不确定度的概念,以测点正常率最大(MNMR)为目标的电力系统抗差状态估计方法具有较好的不良数据辨识能力。然而,该模型求解困难,已有研究对该模型进行了近似等效,并采
随着经济水平的快速增长,人们对于交通行业的关注度越来越高,道路桥梁工程的建设对于交通行业的快速发展有着非常重要的作用,在新时代背景下人们对于道路桥梁工程质量的关注
低密度空心微球是影响低密度密封剂性能的重要因素。通过扫描电镜、密封剂的力学性能比较,研究低密度空心微球对密封剂的性能影响,并通过空心微球处理技术,解决低密度空心微
通过分析城市道路下穿立交最低点高程和出水管路的水头损失、地形高度以及最终排放水体的防洪水位的高程关系等的不同,提出相应的设计方案,以便为工程师在类似项目的设计上提