【摘 要】
:
文本挖掘中的语义相似度问题一直受到学术界和工业界的高度关注,它在信息检索、自动问答、文本分类、自然语言处理、机器学习等领域一直是研究的热点。短文本语义相似度计算,
论文部分内容阅读
文本挖掘中的语义相似度问题一直受到学术界和工业界的高度关注,它在信息检索、自动问答、文本分类、自然语言处理、机器学习等领域一直是研究的热点。短文本语义相似度计算,就是计算两个短文本之间语义相似的程度。目前,针对该问题,许多研究者提出了多种类型的相似度量特征,主要包括基于词共现相似度量,基于语法结构上的相似度量和基于语义的特征度量。其中基于词共现的方法在短文本上表现效果不佳,因为受限于短文本的长度,词共现方法常出现语义飘离。基于语法结构上的方法,通过句法解析,赋予不同的句子成分一定的权重,进而提取文本的语法信息。基于语义的特征度量,利用背景知识来学习词的语义信息,很适合解决同义词相似度计算问题,然而在非同义词和不同句子成分的词上缺少一致的表达框架。本文根据以上问题并考虑短文本的特点,通过构造多个层次的特征,提出了多层次特征融合模型,从文本中获得更完整的信息,从而提高短文本语义相似度计算的准确性。首先,该模型从文本的多个层面出发,融合了6大类不同文本相似度量特征。这些特征包括词汇特征、基于词嵌入的特征、语法特征、句法特征、多样化组合特征及其他特征等。然后,在这些多样特征上进行维度规约,减少文本的冗余特征和噪声。再次,研究并利用集成学习模型Boosting算法,提高模型的泛化能力,训练多分类模型。最后,本文通过与己有方法进行比较,验证本文提出的多层次特征融合模型的有效性和短文本语义相似度计算效果。实验结果表明,本文提出的针对短文本的多层次特征融合模型能够有效的提升语义相似度计算的准确率。
其他文献
近些年绞盘式喷灌建设的面积逐年增加,但在黑龙江省的应用效果研究不是很多,为了准确地了解绞盘式喷灌机实际应用效益,以实际灌溉喷洒为基础,在相似地块针对同种作物安排两种
<正>1921年,瑞典地质学家安特生和中国学者袁复礼等在河南省渑池县仰韶遗址进行的考古发掘,揭开了仰韶文化发掘与研究的序幕。为纪念仰韶遗址发掘90周年,2011年11月6~8日,"仰
根据建立上海市航运业信用体系的需要,制定了航运企业资质信誉评价指标体系.对年度信用良好航运企业进行评估,有利于规范市场运作,打击不正当竞争和违法乱纪行为,维护航运市
目的观察便通片治疗女性便秘的临床效果。方法收集该院自2017年1—11月收治的女性便秘患者130例作为观察对象,按数字奇偶法分为观察组与对照组,每组65例。对照组给予常规西药
在高职教学中,计算机是一门非常重要的课程。只有让学生掌握、熟悉计算机网络的基本概念、原理、方法等,才能使学生将计算机知识运用到电子商务、电子政务、金融、远程测控、
万邦集团的发展源于航运,其历史可追溯到上世纪初叶的上海浦东曹氏家族企业,至今已传至第四代掌管经营。集团创始人曹文锦先生1925年出生于上海,1949年创办了今天万邦集团的前身
尿毒症病人在接受腹膜透析后需要在家自行操作完成,如果病人不受专业护士的培训及健康教育,病人就没有很好的无菌观念意识,饮食、水、盐控制不好就会引发一系列的并发症。总
本文介绍了典型农药类持久性有机污染物的定义、来源、特性,分析了农药类持久性有机污染物在黑龙江省水环境中的污染情况,阐述了农药类持久性有机污染物处理方法,为我省农村
在世纪之交、千禧之年讨论21世纪集装箱深水枢纽港港口经营者的经营战略,有两个问题必须考虑:其一,新世纪国际集装箱深水港的功能定位;其二,港口与国际班轮公司的合作。