面向新浪微博的智能自动回复技术的研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:dengzk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,微博已成为一种应用比较广泛的社交媒体。微博相对开放的自媒体传播特征,使得人们可以自由的表达观点,微博已成为人们发布信息和获取信息的主要载体之一。然而,目前针对微博进行智能自动回复的研究还比较少,并且已实现的技术相对也比较简单。基于此,本文研究了面向新浪微博的智能自动回复技术,主要工作包括:(1)研究并实现了智能自动回复信息的获取技术。考虑到百度知道的相关特性,提出了基于百度知道搜索网页的智能自动回复信息获取技术。其主要包括分析百度知道搜索时URL语法参数的设置和网页结构、定制相应的网页信息抽取规则、基于Jsoup解析器解析百度知道搜索网页三个内容。(2)完成了情感词典的构建。首先,收集整理了现有的基础情感词典,包括:知网情感分析用词语集、NTUSD、学生褒贬义词典、褒义词词典以及贬义词词典。然后,通过收集常见的网络情感词语和微博表情符号对基础情感词典进行扩充,构建一个较完整的情感词典。(3)研究并实现了智能自动回复信息的筛选技术。与人能够长期友好地进行交流,首先需要博得他人的“好感”。为了使智能自动回复的信息达到“投其所好”的效果,本文从网页抽取出的感兴趣信息中筛选出情感倾向性与待回复微博情感倾向性一致的信息,作为智能自动回复的内容。基于此,本文提出了基于情感词典和HowNet词汇语义相似度进行文本情感倾向性分析的方法。(4)为了避免他人看过回复信息后认为是在复制网页中的信息,本文在保持原信息语义不变的前提下,通过对中文文本同义词替换获得同义句,来达到让其他用户分辨不出是在复制别人话语的效果。(5)设计并实现了一个面向新浪微博的智能自动回复原型系统,给出了各个模块的实现方法。通过实例对系统进行测试,验证了系统的可用性。
其他文献
如何提高软件质量是软件工程致力解决的关键问题之一。软件测试和验证是保证软件正确性和提高软件可靠性的最基本和最重要的手段,也是工业界使用的主流技术。本文介绍了作者所
气象科学数据是地球科学数据的重要组成部分。通过对大气的各种要素状态的定量描述来研究其物理和化学特性,从而揭示地球大气的演变规律,实现对各种大气现象的预测。随着社会
随着计算机技术的发展,计算机安全事件频繁发生。虽然网络安全技术不断发展,但计算机犯罪的手段也越来越高明。计算机取证正是在这种形势下产生和发展的,它可以对犯罪分子产生威
目标检测识别是智能交通和无人驾驶的关键技术,由于技术不成熟,目标检测识别在当前的交通视频监控系统中还没有得到广泛推广应用,相关理论和技术一直是研究难题,也具有极大地
随着无线网络通信技术的发展,为了满足用户的个性化、多业务需求,未来网络环境将是各种异构无线网络共存的局面。当前网络通信的发展趋势和要求,是在保证服务质量(Quality of
目前,多数企业在拥有内部数据通讯网的同时,还需要维护企业电话网络。前者主要用来实现数据通讯,而后者主要用来实现语音通讯。为了充分利用网络资源,降低管理费用和通讯开销
分形理论是近二、三十年才发展起来的一门新的学科,主要描述自然界和非线性系统中不光滑和不规则的几何形体。自然界中种类繁多的植物虽然形态千差万别,却大都具有自我相似、
Cache通过解决高速处理器和低速主存之间的匹配问题,提高了计算机系统的性能。但是高性能Cache本身也消耗了处理器的大部分能量。高端处理器的温度不断升高,需要低功耗解决方
目前,工业控制组态软件行业化是控制领域发展的一个重要方向,而应用嵌入式解决方案也是发展的必然趋势,同时,嵌入式系统接入Internet的问题也显得越来越重要,因此,基于嵌入式
根据企业诊断的学科特点,结合企业对信息系统不断增长的更加智能化、理性的要求,本文采用智能体Agent技术和本体论,对企业诊断系统模型进行建模分析和信息交互方面的研究。