论文部分内容阅读
[摘要]目前,在线办公已经成为一种风尚,消费者对产品的评论也在以惊人的速度增长,因此对于消费者想买的产品很难读完所有相关的评论并且做出一个理性的决定。我们的任务是把消费者对某一产品的评价提取出来,并且判断它是积极的,消极的还是中性的并且判断出它们的强度。因此,将针对BBS的应用需求建立一棵线索树,进行BBS意见挖掘。
[关键词]线索树语义挖掘论坛相似度
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1220067-01
一、引言
近年来,对描述非事实的主观性文本处理方面的研究十分活跃,主观性文本是相对于客观性文本而言的一种自然语言文本表达形式。它主要描述了作者对事物、人物、事件等的个人(或群体、组织等)想法或看法。根据对意见的定义:意见由四个元素组成:即主题、持有者、陈述(Claim)、情感。
二、基于BBS的线索树
(一)建立线索树的规则
1.将楼主帖子的主题作为根(Topic);2.将每个回帖抽象成一个节点;3.计算节点的极性,若为中性则放弃;4. 计算该节点与根节点的Topic相似度Sim,如果低于给定值r时说明此节点与根节点无关。否则,判断积极则与左子树节点进行相似度比较,将其按相似度大小插入到合适位置,相似度越大的越接近根节点,以此类推。消极则按类似方法构建右子树。
(二)节点相似度计算
相似度计算在这方面,主要有两种策略:第一是根据短语结构的特点。第二是根据候选主题的同现[2]和上下文指示符。文献[3]利用WordNet的IS-A层次关系和词形态线索来分类主题术语。
三、相似度计算的优化
由于HowNet中对于一个词的语义采用的是一种多维的知识表示形式这一点与WordNet不同。在WordNet,所有同类的语义项构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。
(一)词语相似度计算。对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,⋯⋯,S1n,W2有m个义项(概念):S21,S22,⋯⋯,S2m,我们规定,W1和W2的相似度是各个概念的相似度之最大值:
(二)词语相似度计算。义原之间的语义距离:
其中:distance是两个义原层次体系的路径长度,a是一个可调节的参数。
(三)实词相似度计算。第一基本义原描述相似度记为Sim1(S1,S2),其它基本义原描述相似度记为Sim2(S1,S2),关系义原描述相似度记为Sim3(S1,S2),关系符号描述相似度记为Sim4(S1,S2)。
在实验中我们发现,如果Sim1非常小,但Sim3或者Sim4比较大,将导致整体的相似度仍然比较大的不合理现象。因此将公式定义为:
其意义在于,主要部分的相似度值对于次要部分的相似度值起到制约作用,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度所起到的作用也要降低。且可以保证一个词和它本身的相似度仍为1。
(四)实验及结果。我们使用了三种方法来计算词语相似度,并把它们的计算结果进行比较:
方法1:仅使用HowNet语义表达式中第一基本义原来计算词语相似度;方法2:Li Sujian et al.(2002)[4]中使用的词语语義相似度计算方法;方法3:本文中介绍的语义相似度计算方法。
在实验中,根据在多次尝试中取得的经验,我们将几个参数值设置如下:
α=1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13
实验结果说明了,方法3的效果好于方法2和方法3有更好的计算相似度的效果。
四、基于线索树的意见挖掘计算
根据线索树构建算法定义:左子树的所有节点均为积极方向的意见而右子树的所有节点均为消极方向的节点,而且距离根越近的节点相似度与高。
(一)线索树意见总极性计算。总极性=左子树节点数-右子树节点数
若中极性为正值这说明积极方向观点多于消极方向观点;负值说明消极方向观点多于消极方向观点;若为0则说明两方向观点数相同。
(二)线索树意见总强度计算。积极方向强度的计算:
其中N代表中的节点数,Np代表积极方向节点数Wpi代表每个节点原有的语义强度,ri为远离根节点的递减系数。根据以上结果我们可以得到总强度,用积极方向的总强度减去消极方向的总强度。
五、结论和展望
上面是基于BBS论坛构建线索树进行意见挖掘的介绍主要以计算节点间的相似度来构建线索树经过试验证明该方法较之前的方法有所改进,在我们构建线索树进行意见挖掘过程中起到提高准确率的作用。在已有研究中已取得一定的进展但是还有一些方面要继续研究:BBS论坛的特性(例如:发帖时间、发帖作者身份、引用层次等)对相似度计算和强度计算的影响。
参考文献:
[1]S.2M.Kim and E.Hovy.Determining the Sentiment of Opinions[A].In:Proceedings of COLING04,the Conference on Computational Linguistics(COLING2004)[C].
[2]J.Yi,T.Nasukawa,R.Bunescu,and W.Niblack.Sentiment Analyzer:Extracting Sentiment s about a Given Topic using Natural Language Processing Techniques[A].
[3]A.2M.Popescu and O.Etzioni.Extracting Product Features and Opinions from Reviews[A].In:Proceedings of HL TEMNL P205,the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing[C].
[4]LI Sujian,ZHANG Jian,HUANG Xiong and BAI Shuo,“Semantic Computation in Chinese Question-Answering System”,Journal of Computer Science and Technology.
作者简介:
廉晶(1986-),女,汉族,辽宁盖州人,硕士学历;郭文强(1983-),男,汉族,辽宁海城人,硕士学历。
[关键词]线索树语义挖掘论坛相似度
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1220067-01
一、引言
近年来,对描述非事实的主观性文本处理方面的研究十分活跃,主观性文本是相对于客观性文本而言的一种自然语言文本表达形式。它主要描述了作者对事物、人物、事件等的个人(或群体、组织等)想法或看法。根据对意见的定义:意见由四个元素组成:即主题、持有者、陈述(Claim)、情感。
二、基于BBS的线索树
(一)建立线索树的规则
1.将楼主帖子的主题作为根(Topic);2.将每个回帖抽象成一个节点
(二)节点相似度计算
相似度计算在这方面,主要有两种策略:第一是根据短语结构的特点。第二是根据候选主题的同现[2]和上下文指示符。文献[3]利用WordNet的IS-A层次关系和词形态线索来分类主题术语。
三、相似度计算的优化
由于HowNet中对于一个词的语义采用的是一种多维的知识表示形式这一点与WordNet不同。在WordNet,所有同类的语义项构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。
(一)词语相似度计算。对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,⋯⋯,S1n,W2有m个义项(概念):S21,S22,⋯⋯,S2m,我们规定,W1和W2的相似度是各个概念的相似度之最大值:
(二)词语相似度计算。义原之间的语义距离:
其中:distance是两个义原层次体系的路径长度,a是一个可调节的参数。
(三)实词相似度计算。第一基本义原描述相似度记为Sim1(S1,S2),其它基本义原描述相似度记为Sim2(S1,S2),关系义原描述相似度记为Sim3(S1,S2),关系符号描述相似度记为Sim4(S1,S2)。
在实验中我们发现,如果Sim1非常小,但Sim3或者Sim4比较大,将导致整体的相似度仍然比较大的不合理现象。因此将公式定义为:
其意义在于,主要部分的相似度值对于次要部分的相似度值起到制约作用,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度所起到的作用也要降低。且可以保证一个词和它本身的相似度仍为1。
(四)实验及结果。我们使用了三种方法来计算词语相似度,并把它们的计算结果进行比较:
方法1:仅使用HowNet语义表达式中第一基本义原来计算词语相似度;方法2:Li Sujian et al.(2002)[4]中使用的词语语義相似度计算方法;方法3:本文中介绍的语义相似度计算方法。
在实验中,根据在多次尝试中取得的经验,我们将几个参数值设置如下:
α=1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13
实验结果说明了,方法3的效果好于方法2和方法3有更好的计算相似度的效果。
四、基于线索树的意见挖掘计算
根据线索树构建算法定义:左子树的所有节点均为积极方向的意见而右子树的所有节点均为消极方向的节点,而且距离根越近的节点相似度与高。
(一)线索树意见总极性计算。总极性=左子树节点数-右子树节点数
若中极性为正值这说明积极方向观点多于消极方向观点;负值说明消极方向观点多于消极方向观点;若为0则说明两方向观点数相同。
(二)线索树意见总强度计算。积极方向强度的计算:
其中N代表中的节点数,Np代表积极方向节点数Wpi代表每个节点原有的语义强度,ri为远离根节点的递减系数。根据以上结果我们可以得到总强度,用积极方向的总强度减去消极方向的总强度。
五、结论和展望
上面是基于BBS论坛构建线索树进行意见挖掘的介绍主要以计算节点间的相似度来构建线索树经过试验证明该方法较之前的方法有所改进,在我们构建线索树进行意见挖掘过程中起到提高准确率的作用。在已有研究中已取得一定的进展但是还有一些方面要继续研究:BBS论坛的特性(例如:发帖时间、发帖作者身份、引用层次等)对相似度计算和强度计算的影响。
参考文献:
[1]S.2M.Kim and E.Hovy.Determining the Sentiment of Opinions[A].In:Proceedings of COLING04,the Conference on Computational Linguistics(COLING2004)[C].
[2]J.Yi,T.Nasukawa,R.Bunescu,and W.Niblack.Sentiment Analyzer:Extracting Sentiment s about a Given Topic using Natural Language Processing Techniques[A].
[3]A.2M.Popescu and O.Etzioni.Extracting Product Features and Opinions from Reviews[A].In:Proceedings of HL TEMNL P205,the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing[C].
[4]LI Sujian,ZHANG Jian,HUANG Xiong and BAI Shuo,“Semantic Computation in Chinese Question-Answering System”,Journal of Computer Science and Technology.
作者简介:
廉晶(1986-),女,汉族,辽宁盖州人,硕士学历;郭文强(1983-),男,汉族,辽宁海城人,硕士学历。