面向金融问答的论坛观点挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：shangxing110

【摘要】

：

近年来,随着在线服务的飞速发展,互联网形成了一个巨大、内容丰富的信息库,在线服务主要包括:百科知识、个人博客、在线论坛等等。其中,在线论坛作为一个特殊的网络虚拟空间,

【作者】

：

范颖婷

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2010年期

【关键词】

：

金融观点挖掘金融观点倾向判别基于图的半监督学习机器学习数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着在线服务的飞速发展,互联网形成了一个巨大、内容丰富的信息库,在线服务主要包括:百科知识、个人博客、在线论坛等等。其中,在线论坛作为一个特殊的网络虚拟空间,在这里用户可以提出问题、讨论问题、并愿意与其他用户一起分享知识及观点,并在一定的奖惩机制下激发用户空前的兴趣。在这样的背景下,用户如果对某一个产品或者信息感兴趣的话,就需要去各个网站、论坛浏览或者搜索相关的信息,不仅费时费力,而且获取的信息往往凌乱不全面。而我们的金融观点问答系统,正是满足了用户这样的需要,系统将金融信息作为主题和切入点,针对用户的提问检索相关金融观点后,主动为用户进行分类整理和统计,信息量大且友好。本课题构建了面向金融观点的自动问答系统,主要解决以下三方面的问题:1.论坛中金融观点挖掘:论坛中数据的组织形式通常为一个主贴、若干个跟帖,整个帖子中可能包含多个讨论对象以及观点评论,但也充斥着这种噪音,导致观点所占的比例较少,为了有效识别这些观点评论,本课题采用了两个步骤进行过滤和分类。第一步采用规则匹配的方法对明显不是观点的内容进行过滤,有效减少进入分类器的句子数量,这样不但能降低分类的代价,而且能提高正确率;第二步构造观点分类器,对句子提取了各种类型的布尔特征,使用信息增益进行特征选择,通过支持向量机方法进行分类性能测试。对新测试数据的分类精度达到83.11%。2.观点倾向判别:对于已经识别为观点的句子,需要进一步判别其倾向,观点倾向总共分为四类,包括积极、消极、中立以及比较。考虑到倾向性标注语料数量有限,并且特征分布稀疏,本课题采用基于图的半监督学习方法对分类为观点的未标注倾向语料进行扩展:学习方法采用句子相似度建立图模型,相似度计算包括两个句子中词的相似度、词的语义相似度、句子间语义相似度、比较类模板相似度以及正负情感词相似度等;采用改进后的迭代标注传播算法对语料倾向进行相似性传递,并且极大减少图传递的时间复杂度;之后在扩展语料的基础上进行训练,十种类型的特征,包括词、扩展词、二元词、语义、正负情感词、正负模板、比较类模板以及句子结构特征等,使用信息增益进行特征选择,通过支持向量机方法进行分类性能测试,同等条件下,取得了比全监督分类方法更高的准确率。此外,还需识别句子的评论对象,若句子不存在承前省略的情况,可直接匹配一个或多个对象;若存在承前省略,则需要通过规则匹配的方法向前回溯找到一个或多个对象,采用规则在人工标注的语料中测试,正确率达到86%。3.实时观点库:经过观点挖掘、倾向判别和评论对象识别的句子,需要作为答案被保存在观点库中以备检索。由于金融观点实时性较强,需要每天定时更新以保证系统的有效性。当用户输入查询条件时,从观点库中获得最新的若干条记录,并由系统自动统计结果数据,经过整理后按倾向类别分别返回给用户,给用户提供最直观的结果。

其他文献

基于匹配帧的层次化结构的视频分割技术

随着计算机技术的飞速发展,数字媒体产业的兴起,视频处理技术逐渐成为数字图像处理和数字媒体领域的研究热点。视频分割技术在视频处理技术中占有很重要的地位,是其它一些视

学位

视频分割层次化结构带权树的覆盖树与树的相似度

辽宁商贸职业学院教学管理信息系统的设计与实现

作为二十一世纪教育改革和发展的主旋律之一,教育信息化早已成为一个热门话题。随着高等教育扩招使各高校的在校学生人数成倍增长。如何能够充分利用紧缺的教学资源,提高其使

学位

教学管理B/S模式C#语言ASP.NET数据库

基于中文百科的知识图谱分类体系构建研究

分类体系作为知识图谱的骨干组成部分,对整个知识图谱的易用性和连通性具有起到决定性的作用。随着知识图谱应用的日益广泛,国内外都不断涌现出优秀的知识图谱项目。如何为知

学位

分类体系知识图谱整数规划

基于投影聚类的无监督表型区分算法研究与实现

随着人类基因组计划的顺利完成,不断积累的巨量生物学数据和快速发展的信息学技术,给后基因组时代的生物信息学研究带来了新的挑战。近年来,随着微阵列技术的快速发展,DNA微

学位

投影聚类基因表达数据序列数据样本穷举树表型划分

基于多视图的鲁棒人体三维重建

三维人体重建是计算机图形学和3D视觉领域一个非常重要的研究课题,同时也是工程领域一个富有挑战性的研究方向。本文提出了一种基于多视图的鲁棒人体三维重建方法。该方法通

学位

三维重建相机跟踪深度恢复序列对齐模版对齐模版优化

基于本体的命名实体检索的研究与实现

随着网络技术的迅速发展,搜索引擎已经成为用户获取网络信息的主要途径。然而,传统的搜索引擎的返回结果比较单调,通常返回与查询相关的网页列表,而忽略了网页中所蕴涵的丰富

学位

本体命名实体检索维基百科向量空间改进算法

属性探索算法改进及本体构建研究

随着语义Web的迅速应用与发展,我们需要对海量数据信息进行搜索,而本体是共享概念模型的明确的形式化规范说明,是语义Web应用的基础,其构建的质量直接影响着搜索的查全率和查

学位

形式概念分析属性探索算法伪内涵本体构建AECOM

基于语义聚类的无结构化P2P资源查找策略

资源检索是P2P系统研究的热点之一,无结构化P2P资源查找普遍采用以泛洪机制为主的方法,然而,随着查询请求在网络中转发次数的增加,网络拥塞和带宽浪费严重,查询效率得不到保

学位

对等网络资源查找本地聚类语义向量

Deep Web环境下的结果数据抽取与模式标注的研究

Deep Web是不能被搜索引擎检索到的网络中的资源。Deep Web中包含的信息量比Surface Web中大了几个数量级,并且随着Deep Web中的数据源的个数的不断增长,Deep Web显得越来越

学位

属性标注深层WebDOM结构数据抽取

车船装备器材仓库管理系统的设计与实现

车船装备器材仓库管理是军事仓储建设的重要内容，是车船装备保障的核心环节。在现代高科技局部战争中，车船装备器材仓库管理信息化是适应新军事变革和提高仓储管理效能的必然要

学位

车船装备器材仓库管理系统软件开发.NET技术数据库设计

面向金融问答的论坛观点挖掘

与本文相关的学术论文