深度词汇网络学习的文本聚类研究

来源 :北京化工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:tenderboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题。首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间。聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现。
其他文献
大学阶段是大学生社会化的关键时期,是大学生确立世界观、人生观、价值观的重要时期,也是一个人由不完全独立、成熟的社会人向完全独立、成熟的社会人转变的关键时期。大学生
随着互联网技术的高速发展,互联网企业在各种创新型模式下正面临着合并、重组和估值融资等问题。互联网企业与传统企业不同,它不能够依托实物进行相对可靠的价值评估,因此如
国际本科学术互认课程项目(ISEC项目)是遵循高等教育国际化的中外合作办学项目,为了符合该项目国际化的教学理念,突出明辨性思维,参与项目的独立学院应按照项目要求组织专业
活化A l-Sr合金粉末水解得到A l(OH)3和Sr(OH)2复合粉末,将其作为长余辉材料的前驱体,采用高温固相反应法制备出Eu、Dy共掺杂的SrA l2O4长余辉材料.利用XRD,SEM,XPS和EDS等技
人才培养模式的多样化是由社会对人才多样化的需求和对人才多种属性的要求所决定的。对人才培养模式理解上的差异影响着它的构建 ,也制约着其发展与延续、再生与重建。通过对
"几何直观"和"数感"虽是两个不同领域的内容,但"几何直观"具有直观的形象,可以解决抽象性的"数感"问题。教师可从"理解数的意义、把握数的大小、辨析运算定律、明晰数量关系"
<正>2015年3月4日,最高人民法院、最高人民检察院、公安部和司法部联合发布了《关于依法办理家庭暴力犯罪案件的意见》,这是我国首份全面的反家庭暴力刑事司法指导性文件。《
目前农村信用合作社经过法人制体制改革,但由于财务管理工作相对薄弱,仍然有很多农村信用社经济效益不佳。本人重点探讨了法人制度改革后,农村信用社财务管理体系构建问题,目
针对图像配准经典迭代最近点(ICP,iterative closest points)算法存在的收敛效率低、容易陷入局部收敛的问题,给出了一种基于掌纹图像识别的改进ICP算法。该算法结合经典ICP