问题微博的自动识别技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xuesuifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博、Twitter、Facebook等社交网络的发展,人们越来越多地通过社交网络进行信息互动和信息寻求,在状态域中提问已经成为流行的信息寻求行为之一。直接在社交网络中提问不但可以避免生成查询、选择答案,还可以获得可信的、个性化的回答,因此社交网站中问题的识别与答案推荐具有重要的实际意义与研究价值。本文首次提出对新浪微博中的信息寻求行为和问题识别技术进行研究,主要包含以下内容:  第一,构建数据集。对新浪微博进行采样,分析选取的微博样本,给出“问题微博”的定义,并把问题微博分为12大类。此外,归纳总结当前国内外不同领域中的问题识别技术方案,并分析问题微博识别的难点。  第二,提出基于序列模式的问题自动识别技术。从词义和语法两个层面上提取微博序列特征,将微博转化为词义序列和语法序列,并使用频繁序列模式挖掘算法获取满足支持度和置信度的序列模式。实验得到基于词义和语法序列特征的问题识别精度分别为55.7%和76.5%。结果表明,当最小支持度较高、置信度适中时得到的词义序列模式取得的F1值较好;相反,在最小支持度适中,置信度较高时获得的语法序列模式更有利于问题的识别。  第三,特征提取是问题识别的关键技术。本文详细研究了微博疑问词、长度、区分度词语等8种内部文本特征;利用外部资源如百度知道、百度百科、微博搜索等提取外部辅助特征;使用LDA主题分类计算微博的主题分布特征。问题微博识别是二元分类问题,通过实验比较不同特征及不同分类器对微博的分类效果,结果表明朴素贝叶斯分类器的问题识别率最好,F1值为65.4%。文本特征中区分度词语特征对分类器影响最大;外部特征在准确率和召回率上都有提升;LDA主题特征的F1值没有提高,召回率上升到87.4%。最后,将序列模式特征与以上3种特征进行融合,实验结果表明融合后的特征比单一特征效果更好,问题识别率达到86.9%,F1值为75.7%。
其他文献
软件复用是提高软件质量以及生产效率的有效途径。构件和模型技术是组成软件复用的核心技术。它们的不断发展与成熟为软件开发提供了新的模式,工程界和学术界都围绕这些技术展
特征点匹配作为计算机视觉的主要研究内容之一,也是摄影测量的重要环节之一,因此,结合具体应用对新的特征点匹配方法的探求具有非常重要的意义。本文在研究特征点匹配原理和现有
闭环供应链的提出是发展资源节约型和环境友好型社会的必然要求,不少学者对基于再制造的闭环供应链进行了研究,但是,市场环境不断在变化,企业要想在动荡的市场环境中立足,就应顺应
图像质量评价已经从图像处理中分离出来成为一个独立的研究领域。图像信息的最终接受者是人,所以主观方法是可靠的。但需要多次重复实验,费时,难以应用到实际中。客观图像质量评
随着情感识别在自驾游、案件侦破和游戏产业等领域中应用前景和市场价值的凸显,面部表情作为情感识别中的关键,已成为拟人化新型人机交互模式研究中的关键课题之一。本文针对不
随着互联网的飞速发展,各种各样的网络攻击手段层出不穷,网络安全问题面临巨大挑战。对此,企业、组织、研究机构等为保护重要信息和减少经济损失部署了大量的网络安全设备。
随着信息技术的不断发展,因特网上的网页数量日益激增,但是Web页面的复杂程度使得人们很难准确而快速地获取自己所需的信息。为了使人们能够迅速从网络中获取到自己感兴趣的
随着互联网技术的飞速发展,在线社会网络逐渐变得庞大并且结构复杂,所呈现出来的社区结构通常是可重叠的,如何准确有效地发现这些复杂社会网络中的重叠社区结构,是社区发现领
随着网络技术的高速发展,网络带宽不断增加,网络协议层出不穷,对于网络安全需求日益明显。在此环境下对网络流量识别和分类提出需求。网络流量识别可以用来监测网络运行情况
肝脏是新陈代谢的重要器官,内部结构非常复杂,分布着多种复杂的管道系统。由于肝内管道的复杂性及人体肝脏的个体差异,肝脏手术往往伴随着巨大的风险。外科医生需要综合肝脏血管