论文部分内容阅读
近年来,随着在线服务的飞速发展,互联网形成了一个巨大、内容丰富的信息库,在线服务主要包括:百科知识、个人博客、在线论坛等等。其中,在线论坛作为一个特殊的网络虚拟空间,在这里用户可以提出问题、讨论问题、并愿意与其他用户一起分享知识及观点,并在一定的奖惩机制下激发用户空前的兴趣。在这样的背景下,用户如果对某一个产品或者信息感兴趣的话,就需要去各个网站、论坛浏览或者搜索相关的信息,不仅费时费力,而且获取的信息往往凌乱不全面。而我们的金融观点问答系统,正是满足了用户这样的需要,系统将金融信息作为主题和切入点,针对用户的提问检索相关金融观点后,主动为用户进行分类整理和统计,信息量大且友好。本课题构建了面向金融观点的自动问答系统,主要解决以下三方面的问题:1.论坛中金融观点挖掘:论坛中数据的组织形式通常为一个主贴、若干个跟帖,整个帖子中可能包含多个讨论对象以及观点评论,但也充斥着这种噪音,导致观点所占的比例较少,为了有效识别这些观点评论,本课题采用了两个步骤进行过滤和分类。第一步采用规则匹配的方法对明显不是观点的内容进行过滤,有效减少进入分类器的句子数量,这样不但能降低分类的代价,而且能提高正确率;第二步构造观点分类器,对句子提取了各种类型的布尔特征,使用信息增益进行特征选择,通过支持向量机方法进行分类性能测试。对新测试数据的分类精度达到83.11%。2.观点倾向判别:对于已经识别为观点的句子,需要进一步判别其倾向,观点倾向总共分为四类,包括积极、消极、中立以及比较。考虑到倾向性标注语料数量有限,并且特征分布稀疏,本课题采用基于图的半监督学习方法对分类为观点的未标注倾向语料进行扩展:学习方法采用句子相似度建立图模型,相似度计算包括两个句子中词的相似度、词的语义相似度、句子间语义相似度、比较类模板相似度以及正负情感词相似度等;采用改进后的迭代标注传播算法对语料倾向进行相似性传递,并且极大减少图传递的时间复杂度;之后在扩展语料的基础上进行训练,十种类型的特征,包括词、扩展词、二元词、语义、正负情感词、正负模板、比较类模板以及句子结构特征等,使用信息增益进行特征选择,通过支持向量机方法进行分类性能测试,同等条件下,取得了比全监督分类方法更高的准确率。此外,还需识别句子的评论对象,若句子不存在承前省略的情况,可直接匹配一个或多个对象;若存在承前省略,则需要通过规则匹配的方法向前回溯找到一个或多个对象,采用规则在人工标注的语料中测试,正确率达到86%。3.实时观点库:经过观点挖掘、倾向判别和评论对象识别的句子,需要作为答案被保存在观点库中以备检索。由于金融观点实时性较强,需要每天定时更新以保证系统的有效性。当用户输入查询条件时,从观点库中获得最新的若干条记录,并由系统自动统计结果数据,经过整理后按倾向类别分别返回给用户,给用户提供最直观的结果。