【摘 要】
:
随着互联网的快速发展,网络社交平台如微博、微信等每天都会产生大量的文本数据,如何从海量的文本数据中发掘出有价值的信息,已成为当下重要的研究课题。聚类分析作为常用的文本分析方法,首先将文本表示成数值向量,然后再选取合适的聚类方法进行聚类分析。文本表示受到文本中词的局部信息、主题的全局信息以及文章之间的链接信息影响,只考虑其中单个或两个因素的影响,使得文本表示的效果欠佳,进而影响后续的任务。对于海量的
论文部分内容阅读
随着互联网的快速发展,网络社交平台如微博、微信等每天都会产生大量的文本数据,如何从海量的文本数据中发掘出有价值的信息,已成为当下重要的研究课题。聚类分析作为常用的文本分析方法,首先将文本表示成数值向量,然后再选取合适的聚类方法进行聚类分析。文本表示受到文本中词的局部信息、主题的全局信息以及文章之间的链接信息影响,只考虑其中单个或两个因素的影响,使得文本表示的效果欠佳,进而影响后续的任务。对于海量的文本信息,需要采用并行化的存储和处理方式,目前基于Spark的重叠K-Means聚类算分对初始聚类中心敏感,多次迭代导致Master和Worker节点频繁交换数据,影响算法运行的效率和聚类结果的稳定性。本文围绕文本聚类算法展开研究,主要研究内容如下:(1)针对CLM(Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts)算法忽略了文本间的链接关系,提出了基于属性网络语义表示的文本表示方法CLMSA(Collaboratively Improving Semantic and Attribute Information by Non-Negative Matrix Tri-Factorization),将文档的链接信息、词信息以及主题信息进行融合,使得三者相互促进、共同作用,提高文本表示的效果。选取六种主流的文本表示方法并在两种真实的数据集上进行分类效果评估,实验结果表明,改进后的CLMSA算法在文本表示效果上有了一定的提升。(2)针对POKM(Parallel Overlapping K-means Cluster)算法Master和Worker节点频繁交换数据,网络开销巨大,提出了基于局部集成策略的I_POKM(Improved Parallel Overlapping K-means Cluster)算法,极大地减少了算法的运行时间。由于I_POKM算法对初始聚类中心敏感,因此采用并行化的主动选择策略,提出了基于主动选择的AI_POKM(Active Improved Parallel Overlapping K-means Cluster)算法。实验结果表明,改进后的算法在两个真实数据集和四个模拟数据集上性能均优于原算法。
其他文献
金学松是一位在中国朝鲜族文学发展史上留下光辉业绩的著名诗人,1952年出生于吉林省图们市。他虽度过了一段艰难的童年时光,但他自从于1980年登上文坛,从事诗歌和随笔等文学创作开始,至今已在中国和韩国出版了诗歌集、随笔集和儿童诗集等20多本刊物。他的写作风格多以抒情为主,诗歌主题十分广泛多样。但至今从语言学和文学角度,对金学松诗人作品的研究还很少。文体由语言环境、主题、情况或作家的品格等要素构成。通
新疆是典型的内陆干旱地区,降水稀少、蒸发强烈,以灌溉农业生产为主,田间灌溉运行管理模式的规范化、标准化直接影响着灌溉水资源利用效率。因此,推广符合农业生产需求的田间
纳米抗体相关的靶向分子探针被广泛地应用于分子成像研究中。这类探针采用随机标记方法引入染料、核素等基团时,会导致标记后产物不均一、对靶标的亲和力低、标记效率低等问题。基因扩展密码子技术能够实现在抗体特定的位点上特异标记非天然氨基酸,从而引入分子探针所需要的发光基团、核素或纳米粒子,避免随机修饰导致的问题。此外,带有烯烃基团的非天然氨基酸能够与四唑类化合物在光激发下发生快速环化的生物正交反应。因此,本
随着集成电路特征尺寸的逐渐缩小,MOSFET发展受到了严重限制,同时芯片功耗与性能之间的矛盾也日益突出。为了解决芯片功耗与性能之间的矛盾,隧穿场效应晶体管(Tunneling Fileld-Effect Transistor,TFET)引起了广大学者的关注。TFET依靠带带隧穿的工作机理,在室温下亚阈值摆幅能够突破60 m V/dec,这样使得器件在极低的电源电压下可以正常工作。目前国内外针对TF
研究生奖助政策的制定及实施效果影响着研究生教育质量。我国研究生奖助政策从1978年至今,历经公费研究生培养、公费与委培共存、公费——自筹过度、全面收费四个阶段。2013年《关于完善研究生教育投入机制的意见》颁布,2014年起对研究生教育进行全面收费。同时研究生国家助学金、研究生学业奖学金、研究生国家奖学金等一系列奖助政策出台,兼顾不同的研究生群体之间的利益。文件提出要确保研究生的奖助资金落实、提高
二十一世纪,人类已进入信息社会,未来将会面临创新社会,而信息和创新社会对当代公民的素养提出了更高的要求。我国教育部于2015年10月,出台了《普通高中物理课程标准修订稿》的征求意见稿,首次提出了物理学科核心素养一词。后来在颁布的《普通高中物理课程标准(2017年版)》中,进一步明确了以“物理观念”、“科学思维”、“科学探究”和“科学态度与责任”作为高中物理核心素养的关键要素,并要求在物理教学的全过
永磁同步电机凭借优越的性能在电机驱动系统中得到了广泛的应用。而quasi-Z源逆变器(准Z源逆变器)作为一种在2007年由Z源逆变器改进而来的新型逆变电路,通过在传统逆变器前增加电感电容阻抗网络,从而具有调节直流母线电压和允许桥臂直通的功能。将准Z源逆变器应用于电机驱动系统,成为了电气传动领域的研究热点之一。本文以基于准Z源逆变器的永磁同步电机驱动系统为研究对象,并主要研究了系统的控制策略及其电感