Web论坛的线索树构建研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:dai818wei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]目前,在线办公已经成为一种风尚,消费者对产品的评论也在以惊人的速度增长,因此对于消费者想买的产品很难读完所有相关的评论并且做出一个理性的决定。我们的任务是把消费者对某一产品的评价提取出来,并且判断它是积极的,消极的还是中性的并且判断出它们的强度。因此,将针对BBS的应用需求建立一棵线索树,进行BBS意见挖掘。
  [关键词]线索树语义挖掘论坛相似度
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1220067-01
  
  一、引言
  
  近年来,对描述非事实的主观性文本处理方面的研究十分活跃,主观性文本是相对于客观性文本而言的一种自然语言文本表达形式。它主要描述了作者对事物、人物、事件等的个人(或群体、组织等)想法或看法。根据对意见的定义:意见由四个元素组成:即主题、持有者、陈述(Claim)、情感。
  
  二、基于BBS的线索树
  
  (一)建立线索树的规则
  1.将楼主帖子的主题作为根(Topic);2.将每个回帖抽象成一个节点;3.计算节点的极性,若为中性则放弃;4. 计算该节点与根节点的Topic相似度Sim,如果低于给定值r时说明此节点与根节点无关。否则,判断积极则与左子树节点进行相似度比较,将其按相似度大小插入到合适位置,相似度越大的越接近根节点,以此类推。消极则按类似方法构建右子树。
  
  (二)节点相似度计算
  相似度计算在这方面,主要有两种策略:第一是根据短语结构的特点。第二是根据候选主题的同现[2]和上下文指示符。文献[3]利用WordNet的IS-A层次关系和词形态线索来分类主题术语。
  
  三、相似度计算的优化
  
  由于HowNet中对于一个词的语义采用的是一种多维的知识表示形式这一点与WordNet不同。在WordNet,所有同类的语义项构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。
  (一)词语相似度计算。对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,⋯⋯,S1n,W2有m个义项(概念):S21,S22,⋯⋯,S2m,我们规定,W1和W2的相似度是各个概念的相似度之最大值:
  (二)词语相似度计算。义原之间的语义距离:
  其中:distance是两个义原层次体系的路径长度,a是一个可调节的参数。
  (三)实词相似度计算。第一基本义原描述相似度记为Sim1(S1,S2),其它基本义原描述相似度记为Sim2(S1,S2),关系义原描述相似度记为Sim3(S1,S2),关系符号描述相似度记为Sim4(S1,S2)。
  在实验中我们发现,如果Sim1非常小,但Sim3或者Sim4比较大,将导致整体的相似度仍然比较大的不合理现象。因此将公式定义为:
  其意义在于,主要部分的相似度值对于次要部分的相似度值起到制约作用,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度所起到的作用也要降低。且可以保证一个词和它本身的相似度仍为1。
  (四)实验及结果。我们使用了三种方法来计算词语相似度,并把它们的计算结果进行比较:
  方法1:仅使用HowNet语义表达式中第一基本义原来计算词语相似度;方法2:Li Sujian et al.(2002)[4]中使用的词语语義相似度计算方法;方法3:本文中介绍的语义相似度计算方法。
  在实验中,根据在多次尝试中取得的经验,我们将几个参数值设置如下:
  α=1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13
  实验结果说明了,方法3的效果好于方法2和方法3有更好的计算相似度的效果。
  
  四、基于线索树的意见挖掘计算
  
  根据线索树构建算法定义:左子树的所有节点均为积极方向的意见而右子树的所有节点均为消极方向的节点,而且距离根越近的节点相似度与高。
  (一)线索树意见总极性计算。总极性=左子树节点数-右子树节点数
  若中极性为正值这说明积极方向观点多于消极方向观点;负值说明消极方向观点多于消极方向观点;若为0则说明两方向观点数相同。
  (二)线索树意见总强度计算。积极方向强度的计算:
  其中N代表中的节点数,Np代表积极方向节点数Wpi代表每个节点原有的语义强度,ri为远离根节点的递减系数。根据以上结果我们可以得到总强度,用积极方向的总强度减去消极方向的总强度。
  
  五、结论和展望
  
  上面是基于BBS论坛构建线索树进行意见挖掘的介绍主要以计算节点间的相似度来构建线索树经过试验证明该方法较之前的方法有所改进,在我们构建线索树进行意见挖掘过程中起到提高准确率的作用。在已有研究中已取得一定的进展但是还有一些方面要继续研究:BBS论坛的特性(例如:发帖时间、发帖作者身份、引用层次等)对相似度计算和强度计算的影响。
  
  参考文献:
  [1]S.2M.Kim and E.Hovy.Determining the Sentiment of Opinions[A].In:Proceedings of COLING04,the Conference on Computational Linguistics(COLING2004)[C].
  [2]J.Yi,T.Nasukawa,R.Bunescu,and W.Niblack.Sentiment Analyzer:Extracting Sentiment s about a Given Topic using Natural Language Processing Techniques[A].
  [3]A.2M.Popescu and O.Etzioni.Extracting Product Features and Opinions from Reviews[A].In:Proceedings of HL TEMNL P205,the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing[C].
  [4]LI Sujian,ZHANG Jian,HUANG Xiong and BAI Shuo,“Semantic Computation in Chinese Question-Answering System”,Journal of Computer Science and Technology.
  
  作者简介:
  廉晶(1986-),女,汉族,辽宁盖州人,硕士学历;郭文强(1983-),男,汉族,辽宁海城人,硕士学历。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
[摘要]在使用UG软件进行创建工程图时,正交局部剖视图和轴测局部剖视图的绘制经常用到。因此,总结其绘制的方法与步骤,熟练掌握后大大提高绘图人员的工作效率。  [关键词]正交局部剖视图轴测局部剖视图  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1220053-01    与苏州一家光学仪器公司进行校企合作时,在产品设计工作中发现,用UG软件对产品进行三维建模后需要创建二
阅读题是每年中考必不可少的题目,出题范围也非常广泛,涉及内容多,大体上有古诗词阅读、文言文阅读和现代文阅读,而在现代文阅读中又包括记叙文阅读、说明文阅读和议论文阅读。
症状性高血压又称继发性高血压,此种高血压是某些疾病的一部分表现,其中有些原发病治愈之后,高血压就消失了。高血压病人中约有10~20%为继发性高血压。其病因常见的有:1.泌尿
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文报告用导管法描记希氏束电图20例的正常值并研究了20例本病患者的图形。将传导阻滞部位分为三个水平,其中房室结内阻滞、希氏束内阻滞及双侧束支阻滞分别占35%、10%与55%,多
为了做到早期预防高温作业工人高血压病,必须进一步了解其发病因素。1986年我们对化工总厂、大型厂、初轧厂三个重点高温厂的2011名高温作业工人进行了高血压普查,同时还选
阅读是英语教学的难点和重点。高中英语教学大纲明确指出,阅读是理解和吸收语言信息的最重要手段,它能给学生提供更为丰富的教育教学资源,有助于他们开阔视野、丰富语言知识
作者采用口服给予利多卡因和pyromecain(以下简称P)治疗和预防心律紊乱,同时进行了其对血小板和血管内止血的研究。共观察35例,其中15例具有发生冠心病的一种或数种危险因子
[摘要]自然界存在着许许多多的复杂系统,这些系统的每一部分结构可以非常简单,但由于各部分之间存在着一定的关联(耦合),最后表现出的整体性态可以极其复杂。元胞自动机就是研究复杂系统的理想化的一种数学模型。90号初等元胞自动机时间序列的非周期性已经清楚[11],通过用122号和126号初等元胞自动机类比。证明122号初等元胞自动机规则下一类有限初始条件:产生的时间序列是周期的(其中和n,是任意正整数)