基于HowNet的短文本语义相似度计算方法研究

来源 :太原理工大学 | 被引量 : 15次 | 上传用户:yeah0818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据分析的日益发展与舆情分析任务要求的不断增长,对中文文本信息的处理提出了新的要求,尤其是短文本的出现及迅速发展,使得对中文短文本相似度的研究成为当前大数据时代信息处理的研究热门。中文短文本具有文本篇幅短、词语数量少、文本语义丰富、文本结构复杂等特点,需要恰当、合适的方法来计算中文短文本之间的相似度。传统的基于TF-IDF的计算方法可以根据文本中共同出现的词语和出现词语的次数,文档词频与逆文档词频等特征计算文本之间的相似度;这种传统的算法在计算长文本之间的相似度时表现较好,但是对短文本相似度的计算效果欠佳,究其原因,是长文本的篇幅较长,包含的词语数量较多,且有些词语频繁出现,而短文本的篇幅较短,包含的词语数量较少,而且这两种计算方法在计算过程中,没有考虑到中文语言的特点,如:语法结构、一词多义等,因此对短文本相似度的计算,它的计算结果不能令人满意。针对以上问题,本文在分析了中文词语与短文本的特点的基础上,通过选取中文词语的多个重要特征,对短文本构建计算模型,提出一种基于语义与句法结构的短文本相似度计算方法和一种基于复杂网络的短文本相似度计算方法。第一种算法首先计算中文词语的语义相似度,在计算过程中提取了中文词语在HowNet中描述的义原的路径长度、层次深度、密度与词项的情感等重要特征,并对中文词语作词义消歧工作,再对中文语句的句法结构进行分析整理,计算中文语句的主题相似度与句法结构相似度,最后通过二元集合法计算得到短文本相似度。第二种算法首先对经过预处理的中文短文本建立复杂网络模型,并计算每个节点的复杂网络综合特征值,并将短文本的这一特征值作为短文本相似度计算的重要参数,然后计算词语的相似度,并将词语相似度值作为短文本的向量元素,对其计算向量的余弦相似度,最后根据短文本相似度的定义计算短文本的相似度。对本文提出的算法进行仿真实验,并与其他算法做对比,经过分析仿真实验的数据,结果表明本文提出的算法在短文本的相似度计算的准确率与F值上有一定的改善。
其他文献
当老板只是把员工当成一种帮助其赚钱的工具时,员工也就没法儿把自己和企业的命运联系在一起。在咱们中国,许多企业在招聘员工时很忌讳频繁跳槽的人,只要一看简历,此人呆过不少地
作为商家,应该十分欢迎自己的产品被消费者购买——不论是何种用途。但是著名家居生产商宜家似乎并不这样认为。6月底,有媒体报道宜家上海店对于涉嫌“网络代购”的消费者采取
本文提出了一种IMT系统频率使用情况综合评估方法,该方法建立了以频谱利用指标为核心,以台站建设指标、业务效果指标为辅助的二级频率使用评估体系。在频谱利用方面,以信道占
在辽河油田超稠油油藏SAGD开发后期,受低物性段隔夹层阻挡作用,蒸汽腔发育迟缓、纵向扩展受限导致产量下降。针对这一问题,可采用直井辅助水平井SAGD开发和对低物性段酸压等
近日,云南城投置业股份有限公司(600239.SH,下称“云南城投”)发布2017年财报,而上交所的问询函也紧随而来。$$4月9日,云南城投发布公告称,收到上交所2017年财报事后审核问询函。为
报纸
近年来,国内外灾害事件频发,灾害的突发性及破坏性时刻威胁着人类健康,各类灾害事件所致大量多发伤的比例呈明显上升趋势,灾害医学救援与灾害护理成为全球关注的重要课题.
针对复杂背景下光斑边缘难以提取的缺陷,设计了一种高精度的激光光斑边缘检测方法,使用双边滤波,增强保边能力;改进梯度模板,减少边缘断裂现象;引入形态学处理,去除光斑内部背景边缘,得到有效光斑边缘;最后对光斑边缘进行椭圆拟合得到光斑中心坐标。实验结果表明,改进算法在边缘检测的单一性、完整性及连续性上取得了较大的提升,激光光斑的中心定位稳定性大幅提高。
主要论述了我公司自行安装,调试,开车的R535B型纺丝机在投产一年内非计划停车次数偏高的原因以及第六长丝车间在安装维护该机型所采取的相应对策,即抓住纺丝机安装与维护的关键
企业法律事务实在是一个需要高超工作智慧和技巧的工种,同时,我们也可以认为,每一项法律事务就是一项“系统工程”
一、新课标下空间与图形的特点1.培养空间概念小学数学中空间与图形的教学.主要目的在于促进学生空间观念的发展。为了切实发展学生的空间观念,新教材采取了一些措施。首先.提供