使用多元语义特征的评论文本聚类研究

被引量 : 2次 | 上传用户:wanyu123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅猛发展,我们已经逐渐进入全民参与创造互联网信息的时代。评论文本成为互联网信息的主要承载方式,人们迫切希望从海量的评论文本中快速、高效地挖掘出有用的信息。而文本聚类技术不需要任何先验知识,且已有很多成熟、高效的算法,因此常常被视为数据挖掘优先考虑使用的方法之一。特征对于观点挖掘和情感分析任务是至关重要的。本文从特征构成角度出发,使用传统的k-means方法研究文本主题聚类与倾向性聚类。(1)主题聚类特征对文本主题聚类起着重要的作用,本文从特征的语言粒度出发,讨论了名词、名词短语、语义角色三种特征,并考虑它们之间的语义冗余,给出冗余处理策略和权重调整方法。实验表明,冗余处理策略使主题聚类纯度改善的范围为0.01—0.25;权重调整方法使主题聚类纯度改善的范围为0.011—0.015;冗余处理策略和权重调整方法同时使用时,使主题聚类纯度改善的范围为0.015—0.021。为了进一步探究语义角色特征与名词特征之间的语义关系,本文提出了一种基于语义角色特征分解的直接定位有效词特征的特征选择方法,在复杂数据集上达到0.8099的聚类纯度,该方法是易于理解且有效的,为文本主题聚类的特征选择方法提供了新思路。(2)倾向性聚类对于倾向性分析任务,识别具有倾向性的特征是至关重要的。因此在倾向性聚类任务中,为了尽可能多地识别具有倾向性的词语作为聚类特征,本文提出一种自动识别和标注倾向性特征的方法。该方法使用倾向性词表和扩展后的同义词林给尽可能多的特征标注倾向性,并对具有倾向性和无倾向性特征使用不同的权重调整策略,以改善特征表征倾向性的能力。实验结果表明该方法用于倾向性聚类使聚类纯度与传统聚类方法相比有一定的提高。
其他文献
目的:阐述动态视力与体育运动关系的研究现状,探讨基于体育运动中的动态视力发展的敏感期问题,为运动员的筛选及其视觉训练的介入提供相关的时间坐标,为该领域后续的深入研究
后危机时代,西方发达国家纷纷加强对金融消费者权益保护的立法,把其作为金融监管的主要目标之一。我国应借鉴国际金融监管改革经验,立足于我国国情,赋予金融消费者的法律地位
<正> 1 2001年8月,《今古传奇·武侠版》举办"武当论剑"笔会。 2 2001年9月9日,《武侠版》试刊号出版 3 2001年11月1日,《武侠版》创刊号出版。 4 2001年10月,组织"侠少盟会"
综述1994年以来国内外在音乐在体育教学和运动训练中的应用的研究进展。表明,音乐有助于调动学生在体育课堂中的学习兴趣,提高教学效果和质量,运动前听音乐可以调节运动员情
<正>新闻是社会机制的调节器,是社会秩序的监督岗,是社会生活的守望塔。新闻传播的根本目的,是创造良好的人文环境,推动社会的良性运行,切切实实为人民服务。从这个意义上说,
我们研究现代高水平排球的身体体能需求,力量是排球技术和其他身体素质的基础,细化力量训练,提高排球对不同力量的需求,使力量训练更有针对性。提高排球体能素质训练方法既需
作者认为,我国企业的技术进步十分缓慢。其原因主要是企业的技术进步存在着以下体制性障碍:主体性障碍、利益分配性障碍、科技成果转化的体制障碍以及由技术引进到技术创新的体
采用计算机气候分析系统和生物气候图的方法,对马铃薯甲虫Leptinotarsadecemlineata(Say)在我国及周边地区的适生地进行了初步的预测。在我国,其可能适生地主要分布于黑龙江、吉林、辽宁、内蒙大部、北京、天
后现代课程研究在西方经历了三个发展阶段,并对我国的课程研究和实践产生了深远的影响。遗憾的是,我国学者所借鉴的后现代课程研究方面的成果,主要限于派纳等1995年提出的"课
如果从英语的性别词汇、词序、后缀、复合词、隐喻词五个方面进行分析,就会看到这种语言在构词的方方面面存在着性别歧视的现象。因此,历史上的妇女解放运动对英语词汇是有影响