【摘 要】
:
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。
【基金项目】
:
海量网络数据流海云协同实时处理系统(子课题)(XDA06011203), 电视商务综合体新业态运营支撑系统开发(2012BAH73F01)
论文部分内容阅读
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图的短文本聚类算法,通过对目前主流的三大语义模型进行了实验和对比,选择了一种较为先进的语义模型,基于该语义模型进行了聚类实验,发现新算法能较好地挖掘句子的语义信息且较传统的K-means有更高的聚类纯度。
其他文献
针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成:第一层是分词模型,该模型以字符簇为粒度,结合上
上世纪70年代,菲律宾南部小城民答那峨有个落魄歌手,名叫佛瑞迪·艾吉拉(Freddie Aguilar),过着乞丐一样的生活。在他最为潦倒的时候,他的孩子降生了。这个新生命的降临改变了他的一切,他用对孩子的爱谱写了一首名为Anak的歌,并在后来填写了这首歌英文版Child的歌词。这首歌在问世后的三十多年间,被用二十多种语言翻唱,据说它在菲律宾的地位仅次于国歌。香港流行乐坛巨星谭咏麟的《孩儿》,即是
【正】古州城南,隔河一里,竹木苍翠,江水潆旋,上有五榕树,连蜷樛结,郁葱如盖,遥望厅城,历历在目,为阖境八景之冠,所谓五榕翠色也。 毛振(宣羽)五榕山《榕石记》:凡物之太美,
音乐并不是凭空产生的,它来源于特定的文化,音乐不仅仅是创作入主观意识的体现,在一定程度上也是对作品创作之时社会经济生活、社会文化以及其内在情感的抒发.音乐并不是单独
关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英
构建和谐的大学校园是保证大学生健康成长的关键,同时也是促进和谐社会发展的重要保障.音乐教育作为美育教育的一种形式,在构建和谐校园方面发挥了非常重要的作用,强化音乐教
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特
机器阅读理解是自然语言处理领域一项得到广泛关注与研究的任务。该文针对中文机器阅读理解数据集DuReader,分析其数据集的特点及难点,设计了一种基于循环神经网络和自注意力
全文用以点及面的手法,介绍如何通过对钢琴技巧中跳音演奏能力的加强,而提高钢琴弹奏的其它反面技巧的。主要从:跳音训练可以获得优美的音色、正确的跳音训练对手型巩固大有好