文本内容相似度计算方法研究及应用

来源 :三峡大学 | 被引量 : 0次 | 上传用户:UserReg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然网络搜索引擎使得人们通过输入关键词就能从浩瀚的网络空间中获取自己想要的信息,但是在面对海量网页数据时,搜索引擎要想具有更高的检索效率,就急需解决搜索过程中有效识别重复或相似网页信息的问题;此外,在数据挖掘、知识产权保护领域中,文本相似性检测也是不可或缺的内容。但过去的文本相似性检测系统或算法仍然还存在一些效率低、准确性不高的问题。为了实现对相似文本的快速、精确检测,本文开展了如下工作:在研究了各种文本识别方法,分析了各个方法的特点及优劣后选择Simhash作为本文进行大量文本快速检索的基础算法;利用Han LP分词系统、MD5算法、德尔菲法以及TF-IDF算法对传统Simhash算法进行改进,以解决算法中特征词提取速度慢、哈希值分布不均匀、特征词权重计算精度低的问题;利用指纹分段建立倒排索引的方法对传统Simhash算法进行优化,以提高其检索相似指纹的速度;基于573万个指纹规模的指纹库的快速检索实验结果表明本文算法对传统Simhash的改进和优化是有效的。针对Simhash算法对短文本相似性识别准确性不高的问题,本文提出了一种S-SIM的短文本识别算法,该算法的核心原理为:先建立两个短文本的相同词映射,然后通过查找映射密度高的区域来找到两个文本的相似内容,同时使用汉明距离来计算两个文本之间的相似度;然后采用S-SIM算法对Simhash快速检索中未识别出来或识别错误的文本进行二次识别,以达到对Simhash算法进行补充和优化。实验结果表明将S-SIM和Simhash这两种算法进行有机组合是一种有效的文本识别方法,本文将这种识别方法命名为CS-SIM。随着大数据时代的到来,传统的串行环境已无法满足海量文本的识别。本文将CS-SIM算法应用于Map Reduce计算模型,提出了一种新的分布式并行算法MP-SIM,并在文中给出了该算法的描述。实验结果表明MP-SIM是一种有效的海量文本内容相似度计算方法。
其他文献
16世纪欧洲社会经历了重大变化,有其独特的时代特征——世俗化、君权强大与教权衰落、宗教多样化,这些相互关系决定了欧洲近代化的总体方向,也为教皇克莱门特七世施展个人野心和宗教政策提供了历史舞台。克莱门特七世是一位典型的文艺复兴教皇。这一时期的教皇政府热衷于谋求权力和荣誉,积极地表现出教皇对世俗和宗教双重最高权力的追求。教会干政和追名逐利的形象为人们所诟病,而教皇与世俗君主之间冲突也日益加剧。一方面,
伴随着媒介技术发展以及流量紧缺现象出现,各电商平台都在挖掘新的流量爆发点,探索电商内容化与社交化新模式,电商直播也就应运而生,迅速成为受众重要的消费渠道。从传播仪式观角度看,电商直播不仅是一种信息内容的传递,也是一种包含意义共享的社会活动,它是对社会文化的建构。淘宝直播是目前电商直播行业佼佼者,它借助消费场景的打造赋予受众沉浸式的购物体验,受众能够实时与主播互动,最终实现消费的转化。消费升级背景下
在所有的媒介中,电影以其既能在任何一个时代中生生不息且受人喜爱,又能承载历史记忆、创造新的未来幻想,成为“第七艺术”,而军事题材电影作为中国电影区别于其他国家电影的一种独特类型,从建国到现在经过了多次变化升级,无数学者对这一题材电影进行了各角度的研究,但少有人从媒介社会学的角度来对军事题材电影的变化为何发生又有何作用进行分析,所以本文就将以军事题材电影这一电影媒介中的独特类型作为分析对象,对新世纪
无论在古代世界还是当今世界,女性的离婚问题始终不容忽视且值得探讨。在罗马帝国前期,离婚是婚姻的主要解除形式之一,对罗马女性离婚问题的研究可以从一个侧面反映出当时的两性观念和婚姻立法情况。虽然自罗马建城以来就存在关于离婚的规定,但离婚在早期罗马社会并不多见。三次布匿战争之后,随着罗马社会经济的繁荣和社会风尚的巨大转变,“有夫权婚姻”逐渐被“无夫权婚姻”所取代,婚姻的稳定性遭到严重挑战,离婚大量出现。
作为灵魂对立的身体在哲学和美学领域一直处于不在场状态,但是进入大众传播时代后,媒体和广告传播对身体的顶礼膜拜似乎使得身体的在场变得举足轻重。理查德·舒斯特曼提出的身体美学理论更是致力于传播对身体的关怀或可能改善身体审美的认知、话语、实践及身体训练。本文主要由四个章节组成,绪论部分交代了文章的研究背景、研究现状、研究方法和研究意义。第一章对中西哲(美)学中的身体美学思考做了基本的概述,先是本文的主要
认知语言学中的隐喻和转喻研究一直在与时俱进地发展和完善当中。自Lakoff&Johnson(1980)提出概念隐喻和概念转喻以来,语言学界已经普遍认同隐喻以及转喻的概念性本质。然而,许多学者逐渐发现将概念隐喻以及概念转喻囿于语言符号中,并且仅从文字当中寻找例证的学术观点有失偏颇。因此,以Forceville为领军人物的语言学家将概念隐喻以及概念转喻的研究历程带入了一个新境界,把仅限于语言学
从传统媒体时代的晚会造星、选秀造星到融媒时代的偶像养成,商业化网络平台的兴起打破了过往线性的连接方式,极强的交互特点赋予粉丝高度的参与感。粉丝群体创造力在得到最大程度发掘的同时,其内部的结构形态、参与方式、行动逻辑等也经历着重塑。粉丝作为“产消者”广泛地进行偶像文本的生产,引发粉圈集体情绪高潮。而平台的流量化、数据化属性使得粉丝的生产被整合进偶像工业的流通过程,粉丝群体的职业化趋势也日益显著:既表
二十世纪二十年代起,纽约市的经济得到了高速发展,但这一时期市政府侵犯政府雇员合法权益的事情也时有发生,为了维护自己的合法权益,纽约市政府雇员工会应运而生。虽然三十年代的大萧条使工会组织遭受了摧残,但在新政的保护和劳联等左翼政党的指导下,较为完善的工会组织开始建立起来。二战后,纽约市政府雇员工会在纽约市新政式自由主义市政改革的时代大背景了,迎来了自身发展的黄金时期,但1968年《泰勒法》对工会权利的
在20世纪80年代,为了打破美国好莱坞商业电影对世界影坛的垄断,宣传英国民族性和价值观,英国推动了旨在表现民族性的古装片拍摄热潮,“遗产电影”这一概念随之产生,并逐渐成为这类电影的专属代名词。本文从遗产电影的文化价值出发,基于产业经济学的理论,通过其产业链构建以及竞争力分析,较为深入地研究1980’s以来英国遗产电影的特点和产生的社会效益与经济效益,并进一步探讨遗产电影持续发展的可能性。围绕以上内
本文以西准噶尔哈图山一带泥盆纪库鲁木迪组、巴尔雷克组为研究对象,在系统研究其野外产状、岩石组合、接触关系、沉积时代、沉积特征的基础上,进一步分析其沉积环境及其演化过程,取得了以下认识:1.哈图山一带泥盆系为一套碎屑岩-火山岩地层,可以一套稳定延伸的硅质岩作为区分界线划分为库鲁木迪组、巴尔雷克组,二者之间整合接触。2.库鲁木迪组凝灰岩碎屑锆石U-Pb测年最新年龄为378±9Ma,时代达晚泥盆世早期,