评述新闻报道或文章色彩-正负两极性自动分类的研究

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:sukeyjuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任何一篇报道文章的作者对有关事情或人物都不免带有或多或少的正面或负面评述色彩,举简单的例子来说,把同样情况说成「节俭」或「吝啬」,把「半杯酒」说成「半杯满酒」或「半杯空酒」,或把同样的组织形容成「恐怖分子」或「自由战士」,就明显反映出褒贬的色彩. 在互联网信息爆炸的时代,能掌握媒体如新闻报道对一些重要议题的评论观点日趋重要,许多机构都已为此投入大量人力物力.目前,总结性评论观点的自动分类研究主要针对英文,并已取得了一定的成果.但对中文新闻报道的两极性自动分类研究才刚起步,而其重要性同样不可置疑. 本文尝试讨论一些与中文文本两极性相关的语言问题,并提出了一个实验性的标注方案,以及对人工分类和自动分类的性能效果进行比较分析. 首先,人工分类过程由数名受过训练的评分员来完成,他们使用从-5到+5的数字来表示每篇新闻报道的正面或负面两极性程度.评测语料包括600多篇文章,主要报道内容是关于2004年在美国和台湾地区所进行的总统选举的报道.所得结果显示,中国不同地区(北京、香港、上海和台北)对4位著名政治人物:克里John Kerry,布什George W Bush,小泉和陈水扁的看法有很大的差异. 本文介绍了一个对新闻样本做出两极性自动评分的系统,该系统吸收了以前预选出的两极性词条作为显著性(salient)语言成份,从而把文本里的段落分为显著及非显著两类.文中研究了文本里两极性词条的广度、密度和强度.广度表示两极性词条在一篇文章中分布的程度(可用段落或句子来衡量).密度表示两极性词条在有关段落中出现的疏密程度.强度表示词条的两极性强烈程度.本文还研究了广度和密度的潜在作用,它们能够提高自动分类与人工分类间的关联度.同时也把报道分成单一话题与双话题(如选举)报道,及探讨所需要的相应调整过处理方法.探讨的结果显示,双话题报道在政治选举中广泛出现,尤其是以新参选的后起之秀为话题人物的新闻报道.同时看到显著成份分布与相关的话题人物匹配可依有限度的窗口来进行,并以广度分析而得到初步分辨正负两极的满意结果.本文也探讨如何推进到自动分辨单一话题报道与双话题报道和计算正负两极的数值,以及这种双极性分类的更广泛挑战与用途.
其他文献
肥料包括有机肥料、元机肥料和生物肥料.传统农业主要靠有机肥料增加作物产量,现代农业主要靠无机肥料提高作物产量,生物肥料以无机、有机肥料为基质间接提高作物产量.生物有
本文简要的介绍了喷浆造粒复合肥工艺流程和生产中存在的几个问题,针对上述生产中出现的几个问题的具体工艺改造.
本文应用Wilson法设计叶片,采用点的坐标的几何变换理论求解叶片各截面在空间实际位置的三维坐标,基于三维几何建模理论。采用PROE的曲面造型技术对叶片进行整体表面造型,获
关系数据库上提供关键词基于文本和数字属性的精确查找发展迅速,但是还不能较好的处理模糊查找以满足用户的更高要求。针对关系数据库上的关键词信息检索系统基于数字属性的
基于图像的三维建模已成为当前计算机图形学领域研究的热点与难点。基于单幅图像几何信息的交互式建模方法针对至少具有两个灭点的单幅照片,通过人机交互的方式标出场景中物体
本文为移动WebServices提出基于JAVA的解决方案及其优化方案-基于上下文的移动WebServices,根据获得的客户端上下文信息处理SOAP消息.根据信息的新类型对上下文进行扩展.由We
通过语义分析可以理解自然语言语句,并进行深入的知识获取和推理,使计算机能够与人类无障碍的沟通.为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想.浅层语
本文提出一种在BBS环境下进行热门话题挖掘的算法.BBS以讨论为主的文体决定了同一话题的文章在词语向量上并不一定相似,单纯采用基于向量空间模型的聚类算法难以有效地完成话
随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出.对于此类信息的组织和分析挖掘在话题检
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始