一种基于语义分析的微博话题搜索算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ohngahng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是一种互联网社交平台,它通过用户之间相互关注的机制实现信息共享,以传播快、时新性强、内容碎片化等特点得到广大网络用户的青睐,并被大众广泛应用,对人们的社交、信息的传播产生了很重要的影响。庞大的用户群和巨大的信息量使微博成为一个极其重要的实时信息源,许多重要热点事件都是由微博首先报道的。微博搜索用户更倾向搜索近期受关注的热点话题,或自己比较喜欢的话题,为了帮助用户从动态更新的、海量的微博数据中准确获取感兴趣的热点话题内容,开展微博话题搜索技术的研究迫在眉睫。目前微博搜索主要是基于关键词匹配的索引,没有从语义角度分析用户的检索意图,搜索结果不能很好地满足用户期望,因此本文提出一种基于语义分析的微博话题搜索算法,研究内容主要包括:首先,针对仅使用余弦相似度无法准确度量文本内在语义的相关性问题,本文融合基于《知网》的语义相似度以及KL距离两种方法的优点,提出组合相似度计算方法,以便精确度量微博文档相关性,为后续话题搜索提供基础。其次,为解决检索词项短小无法推测用户索引意图的问题,本文使用作者主题模型对用户历史微博数据建模,建立用户兴趣特征词库,综合用户兴趣特征词库和《同义词词林》提出双层语义查询扩展方法,使扩展后的查询词项相对更契合用户检索的本意。然后,为聚集同类话题的微博文,实现更高效的话题搜索,本文在主题模型的基础上综合考虑微博文信息结构特征,提出微博话题挖掘模型,实现基于潜在语义分析的微博主题挖掘、以及子话题识别任务;最后,具体研究了一种微博话题搜索算法,该算法利用扩展后的查询文档与各个微博主题做相关性分析,筛选出相关主题后,与相关主题下各子话题做进一步分析,最终综合考虑查询文档与微博文的相关性、微博文的发表时间、微博文的热度返回检索结果。使用新浪微博数据集设计并实现实验,实验结果表明本文提出的微博话题搜索算法的正确率和召回率相比传统搜索方法都有一定程度的提高,具有一定有效性和可行性,更加适用于微博话题搜索。
其他文献
以紧邻国道、上软下硬二元结构地层的明挖两层两跨箱形框架结构车站青岛地铁3号线双山站基坑支护为背景,通过对当地建筑基坑的调查及场地地层的研究,采用吊脚桩+超前微型钢管
<正>培养和发展学生的空间观念是小学数学教学的一个重要任务,《义务教育数学课程标准(2011年版)》指出:"空间观念主要是指根据物体特征抽象出几何图形,根据几何图形想象出所
首先研究了P2P技术的基本模型等与系统相关的话题,并介绍了如何实现对等端的通信——IP打洞,在此基础上提出了基于P2P的即时通信系统的结构模型,并描述了该系统中各模块的功
简要综述近年来植物基因工程在改善植物性状,提高植物抗性等遗传育种方面的应用与研究进展。重点介绍了植物基因工程的应用,如改良农产品品质,提高农作物抗病虫毒、抗除草剂
随着国务院的52号文件的下发,又掀起了一股振兴戏曲的热潮,在欣喜之余,同时也需要思考戏曲的新出路。笔者的文章主要是从湖南经典的花鼓戏《补锅》来进行探讨,通过重温经典曲
目的分析并总结肉芽肿性乳腺炎的外科治疗方法与结局。方法回顾62例肉芽肿性乳腺炎病例,进行分析讨论。结果 62例患者中肿块型治愈率86.11%,复发率13.89%;脓肿型治愈率76.47%
情感识别和分类在学术领域已经有很深入的研究,也取得了一些前沿的成果。但是,无论是在二维图像方面,三维人脸表情方面,还是语音识别领域,目前可以达到的情感识别率都偏低。为此,本论文采用近年来性能突出的深度学习模型,并加入本文进行的改进和创新,从视觉、语音以及脑电波三个方面进行了研究与探讨,并将改进的模型与NAO仿人机器人相结合进行实验研究,使得NAO仿人机器人具备识别人类情感的功能。本文首先在视觉领域
提出一种基于PIFA天线原理的双频圆极化天线;其PCB尺寸为100mm(长)*100mm(宽)*1.0mm(厚)。天线工作于0.73-0.77GHz和1.34-1.36GHz,频带内S11参数小于-10d B,天线在+z方向上呈
<正> 人们对民间美术的审美功能、实用功能等各种功能与特征已作了详尽的论述,而对它的地域性却总是一笔带过。但我们都以为,地域性不仅关系并影响着农业、工业的发展,对民间
毛榆孔菌Elmerina hispida在生长过程中分泌出一种很重要的酶——纤维素酶,纤维素酶在工业废水处理、有机颜料脱色等方面具有重要的利用价值。为充分开发利用毛榆孔菌这一野