论文部分内容阅读
随着微博、Twitter、Facebook等社交网络的发展,人们越来越多地通过社交网络进行信息互动和信息寻求,在状态域中提问已经成为流行的信息寻求行为之一。直接在社交网络中提问不但可以避免生成查询、选择答案,还可以获得可信的、个性化的回答,因此社交网站中问题的识别与答案推荐具有重要的实际意义与研究价值。本文首次提出对新浪微博中的信息寻求行为和问题识别技术进行研究,主要包含以下内容: 第一,构建数据集。对新浪微博进行采样,分析选取的微博样本,给出“问题微博”的定义,并把问题微博分为12大类。此外,归纳总结当前国内外不同领域中的问题识别技术方案,并分析问题微博识别的难点。 第二,提出基于序列模式的问题自动识别技术。从词义和语法两个层面上提取微博序列特征,将微博转化为词义序列和语法序列,并使用频繁序列模式挖掘算法获取满足支持度和置信度的序列模式。实验得到基于词义和语法序列特征的问题识别精度分别为55.7%和76.5%。结果表明,当最小支持度较高、置信度适中时得到的词义序列模式取得的F1值较好;相反,在最小支持度适中,置信度较高时获得的语法序列模式更有利于问题的识别。 第三,特征提取是问题识别的关键技术。本文详细研究了微博疑问词、长度、区分度词语等8种内部文本特征;利用外部资源如百度知道、百度百科、微博搜索等提取外部辅助特征;使用LDA主题分类计算微博的主题分布特征。问题微博识别是二元分类问题,通过实验比较不同特征及不同分类器对微博的分类效果,结果表明朴素贝叶斯分类器的问题识别率最好,F1值为65.4%。文本特征中区分度词语特征对分类器影响最大;外部特征在准确率和召回率上都有提升;LDA主题特征的F1值没有提高,召回率上升到87.4%。最后,将序列模式特征与以上3种特征进行融合,实验结果表明融合后的特征比单一特征效果更好,问题识别率达到86.9%,F1值为75.7%。