【摘 要】
:
短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题
【机 构】
:
中国科学院大学,中国科学院沈阳计算技术研究所
论文部分内容阅读
短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题的研究,本文提出了一种改进特征权重的短文本聚类算法.首先,定义多因子权重规则,基于词性和符号情感分析构造综合评估函数,结合词项和文本内容相关度进行特征词选择;接着,使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;最后,利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明,该算法有效提高了短文本聚类的准确率.
其他文献
目前,随着我国经济的快速发展,电力企业也迅速发展起来。电力变压器作为电力网的核心组成部分,是电能传输和分配的枢 纽,用于交流电的转换,有利于电能的传输并提高送电的经济
为探讨网络流行语的发展规律,从模因论视角,以网络流行语“杀马特”为例,简述其的兴起和发展历程,剖析“杀马特”语言模因的复制周期及其基因型与表现型并重的传播方式,从文化背景
本文采用紫外线激活氚原子的方法,进行氚-氢同位素交换反应,制得氚标记单磷酸阿糖腺苷(9—~3H—mparaA)。产品的纯度是层析纯;放射性比活度16GBq.m mol~(-1);放射化学纯度92.
目的探讨急性左心衰竭合并呼吸衰竭早期应用无创机械通气的临床疗效。方法回顾性总结2012年5月至2016年2月期间我科收治的急性左心衰并呼吸衰竭患者64例,分为无创机械通气组(3
以山薯组培苗带腋芽茎段为外植体,以MS为基本培养基,探讨植物生长调节剂6-BA(0.5、1.0、2.0 mg/L)或TDZ(0.01、0.10、0.50、1.00、2.00、4.00 mg/L)、不同培养方式和活性炭对
为降低电网大数据在既定控制时间内的线性损耗量,实现电力信息之间的稳定负荷协调,提出基于决策树自标识的电网大数据质量控制算法。按照电网数据的实际挖掘需求,确定大数据
目前,我国监狱内务会计制度在执行过程中还存在着很大的问题,极大影响了监狱工作的正常运行。因此,要进一步加强对监狱经济的财务管理,提高监狱的理财能力和会计工作效率,从
斑秃是临床常见的皮肤附属器疾病,多为突发,重症者影响容貌,可成为严重的心理负担和精神创伤。其治疗的方法和药物有很多,但至今尚未见到较理想的治疗方案。笔者采用中西医结
随着银行体制改革的不断深入,越来越多的金融产品走进市场,随之带来的是效益最大化和金融改革的进一步深化。如何顺应银行经营理念的转变,保证各项业务的顺利开展,预防可能产生的
为研究多孔材料的传热机理,采用实验测量验证理论模型的方式,利用瞬态热线法测量283~333 K范围内多孔保温材料挤塑式聚苯乙烯(XPS)的有效导热系数,并根据多孔材料各组成部分