基于条件随机场的评价对象抽取

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hanhan188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
评价对象抽取是从评论文本中获取与评价内容相对应的评价目标,一般是对上下文讨论的主题以及商品属性的识别。随着互联网的普及,我们在网上购物、浏览论坛、查看新闻网站时,面对海量的评论文本信息,迫切需要一种高效的方法来获取有价值的信息内容。本文研究的重点是基于条件随机场抽取评价对象。本文使用条件随机场抽取评论文本中的评价对象,研究内容有两个方面。一是分析在单领域的评论文本数据集中引入不同距离的上下文和使用不同特征时,评价对象抽取结果的变化。二是分析领域相关性对评价对象抽取的影响,包括同一领域不同子类数据集之间的相互影响,以及通过增量混合的方式改变训练集,各项实验指标的变化规律。论文选择淘宝网站的评论文本作为研究对象,评论文本来源于三个不同的领域,并且每个领域选择两种商品的评论作为同一领域下不同子类数据集。首先,使用协同训练算法和朴素贝叶斯分类器,对评论文本进行分词、词性标注、句法分析和语料分类标注的预处理工作,将以句子级的评论文本转换成向量级的特征向量文本。其次,在基线实验的基础上,通过深入分析中文文本的特点提出依赖关系特征、父词词性特征两种附加特征。然后,基于条件随机场算法,训练学习模型,并对测试集中的每个特征向量进行标签分类。最后,对实验结果进行分析。实验结果表明,在单领域情况下,只使用上下文前后各一个单词抽取效果最好。在基础特征中,词特征是最关键的特征,二元特征组合中词特征与词性特征的组合得到最高的F值,三元特征组合中不同领域具有不同的最优组合,在附加特征中,基线实验特征与依赖关系特征、父词词性特征的组合F值最高。在多领域的情况下,同一领域的不同子类的相互影响存在差异,在增量混合中,当源域和目标域相同时,混合比例越高,评价对象抽取的F值越大。
其他文献
类水滑石(hydrotalcite-like compounds,HTLCs),也被称为层状双金属氢氧化物(layered double hydroxides,简称LDHs)。因为具有特殊的纳米层状结构,在催化方面具有广泛的用途
随着我国经济的迅速发展,人们的生活水平越来越高。然而经济发展的快节奏所带来的工作压力,使得精神健康问题频发。精神残障人士的数量也逐年增多,已成为不可忽视的社会问题。精神残障人士的康复问题也同样不只是一人一家的问题,涉及到社会和谐发展与社区治理的推进。精神残障人士一般都是在医院接受康复,从医院治疗结束后需要回到社区继续进行社区康复。但是由于其长期往返于医院,对于社区生活难以适应。因此,精神残障人士大
众所周知,药物特别是抗癌药物的严重毒副作用是困扰医疗界的一个难题,因此研究和开发新型高效药物靶向-控释体系是药剂学界的重要课题之一。近期,层状双金属氢氧化物(Layered
现阶段随着教育的不断向前发展,对于教育也有了新的要求,就是新课标改革要不断地实现教学培养学生综合素养的目的。对于小学数学教学来说亦是如此。小学数学在新课标改革的背
随着市场经济体制不断向前发展,参与市场经济活动的企业为了追求本公司利润最大化,不断地采取着各种各样的竞争手段,忠诚折扣就是这些竞争手段中常用的一种。当今时代,忠诚折扣备受争议,它在一定程度上能促进企业生产力向前发展,增加销售量,提高企业效益,为消费者创造福利,但是,当实施忠诚折扣行为的企业为市场上具有支配地位的企业时,又会因为此企业滥用市场支配地位而限制竞争、形成垄断,对市场发展和消费者有害。所以
在政府职能发生较大转变,社会管理创新在全世界范围内兴起的时代大背景下,我国城乡社区发展治理也迈入了新的历程,在双重需求:政府有对社会组织进行管理的需求和社会组织有发展的需求,在此双重需求的刺激下,社会组织枢纽型平台就此出现并发挥作用。社会组织枢纽型平台对公益类社会组织不仅有孵化培育作用,还能够搭建社会组织的信息交流平台,更大范围内整合多方主体和多种资源,在很多时候能够弥补政府失灵。为深入探索枢纽型
由于山区地质环境条件地形坡度大,冲沟发育、岩性差异和构造发育,致使该区环境地质条件较脆弱。矿山地下开采过程中,有时会遇见悬崖采矿边界,若保护柱宽度不当,在采空塌陷作
山东省是高速公路建设起步较早的省份之一,截止2017年山东省高速公路通车里程达到5820公里。根据《山东省高速公路中长期规划(2014-2030年)》调整方案要求,到2030年,总里程将
LED灯因其高效、节能受到广泛使用。光可以独立于视觉影响大脑的认知活动。研究表明,LED灯长期照射影响个体视觉和生理状况,但其对前额叶皮层依赖的认知功能是否有影响并不清楚。本论文工作以SD雄性大鼠为实验对象,模拟人类光照环境,每天18:00-22:00将大鼠置于LED灯照射环境并持续30天(出生后22天到出生后52天),藉此建立长期光照模型。运用高架十字迷宫、新物识别、三箱社交、水迷宫、声音-位置
为了研究证券投资者的信息接收时滞是否影响其收益水平,本文通过统计模拟方法构造了一个基于Agent的人工金融市场,这个市场上只交易一只资产,其估值由多个相互独立的信息源取