基于Hadoop平台的多特征融合文本相似度计算研究与应用

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:a5b4123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算技术的成熟及大数据时代的来临给传统行业带来了巨大的冲击,适用于传统行业的分析方法及解决方案需要进行重新设计。交通信息工程及控制领域的众多半结构及非结构化信息也需要引入云计算及自然语言处理等新的分析平台与及应对方案。自然语言处理从不同的层次可以分为词法分析、句法分析、语义分析、文摘生成、文本分类及文本聚类等。自然语言处理的很多技术已得到较为成功的应用,如中文分词、机器翻译等。经过长期的发展,低层次的自然语言处理已有很多较为成熟的方法,而高层次的自然语言处理由于计算复杂度高等其他方面的原因而进展缓慢。云计算为文本相似度计算等高层次的自然语言处理提供了新的解决方案。本文对基于云计算的多特征融合文本相似度计算进行研究,主要是在Hadoop云计算平台下,对低层次的基于词语共现的文本相似度、较高层次的基于语义相似度的文本相似度、高层次的基于余弦相似度的文本相似度、更高层次的基于语言网络的文本相似度进行分析,通过对四个不同层次特征的文本相似度进行线性融合,提出了基于云计算的多特征融合文本相似度计算方法并在Hadoop平台上进行验证。论文主要包括以下五个方面的内容:首先,对低层次的基于词语共现的文本相似度计算进行研究并进行并行化,针对Hadoop云计算平台的特点设计Map、Combine、Reduce函数计算基于词语共现的文本相似度,将文本的Jaccard相似度作为基于词语共现的文本相似度计算结果。其次,对较高层次的基于语义相似度的文本相似度计算进行研究并进行并行化,采用现有的语义相似度计算方法,针对Hadoop云计算平台的特点设计Map、Combine、 Reduce函数计算基于语义相似度的文本相似度,将文本所有词语对的语义相似度之和的算术平均值作为基于语义相似度的文本相似度计算结果。再次,对高层次的基于余弦相似度的文本相似度进行研究并进行并行化,对中文分词及去停用词后的文本向量进行处理,并计算文本向量的余弦相似度,针对Hadoop云计算平台的特点设计Map、Combine、Reduce函数计算基于余弦相似度的文本相似度,将文本向量的余弦值作为基于余弦相似度的文本相似度计算结果。然后,对更高层次的基于语言网络的文本相似度计算进行研究并在Hadoop云计算平台下借助X-RIME实现了对语言网络的节点的PageRank值计算,将较低的PageRank值之和与较高的PageRank值之和的比值作为基于语言网络的文本相似度计算结果。最后,在Hadoop云计算平台下将低层次的基于词语共现的文本相似度、较高层次的基于语义相似度的文本相似度、高层次的基于余弦相似度的文本相似度及更高层次的基于语言网络的文本相似度进行融合,采用线性融合函数,对四种不同层次特征的文本相似度计算结果设置不同的权重进行加权融合,实验结果验证了本文所提出的基于Hadoop云计算平台的多特征融合文本相似度计算方法的可行性与有效性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:观察糖尿病对大鼠性激素水平影响及对性腺器官的损害。方法;用放射免疫法测定血清性激素水平。测定性腺器官的重量并以性腺重量与体重的比值计算性腺系数。结果:D组和ID组
改善病人的营养状况是疾病治疗的基础条件。临床营养分为肠内营养和肠外营养,而肠内营养更有利于人体的生理营养素代谢和利用,能安全、有效地促进和维护完整的胃肠道结构与功
语用失误往往导致交际难以取得预期效果而使交际失败,这在翻译中尤其是要极力避免的。关联理论中的语境、意图与关联等概念为阐释语用失误的形成提供了认知视角,也为翻译中如
随着全球经济一体化进程不断加快,中国国内市场开放度不断提高,外商直接投资流入中国的规模也在逐步扩大。目前,大量的跨国公司在中国落户,中国利用外资的规模与日俱增,外资
我院自1995年~2002年间共收治慢性硬膜下血肿(CS-DH)病人共42例,其中15例采用双孔钻颅引流,其余27例采用单孔钻颅引流.
期刊
网上仲裁作为一种网上争议解决机制,是对传统仲裁领域处理方式上的一个创新.但是,由于电子数据不易固化的特性,使得网上仲裁所产生的电子证据在信息采集、存储、传输及应用阶段存
[目的]通过对国医大师葛琳仪(以下简称葛老)学术思想的总结,传承其学术经验,以供广大中医学者参考学习。[方法]亲身采访葛老,根据其本人的回忆及相关著作探求其治学方法;通过
针对永磁同步直线电机(permanent magnet synchronous linear motor,PMSLM)局部退磁故障问题,采用粒子群优化最小二乘支持向量机(particle swarm optimization-least squares