特征耦合泛化及其在文体挖掘中的应用

来源 :大连理工大学 | 被引量 : 2次 | 上传用户：zhangtao870508

【摘要】

：

文本挖掘(Text Mining)技术是利用计算机程序自动读取和理解自然语言文本,并从中发现有价值的信息,从而提高人们的工作效率。随着信息技术的飞速发展和互联网时代的来临,该技

【作者】

：

李彦鹏

【出处】

：

大连理工大学

【发表日期】

：

2011年01期

【关键词】

：

文本挖掘机器学习特征命名实体识别关系抽取文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本挖掘(Text Mining)技术是利用计算机程序自动读取和理解自然语言文本,并从中发现有价值的信息,从而提高人们的工作效率。随着信息技术的飞速发展和互联网时代的来临,该技术拥有了很大的实际应用价值和广阔的应用前景。在处理文本挖掘问题的方法中,基于机器学习(Machine Learning)的方法得到了广泛的应用,在很多实验中取得了较好的效果。特征表示(Feature Representation)是机器学习方法中至关重要的一步,很大程度决定了系统效果的高低,然而在传统的基于局部特征的监督学习(Supervised Learning)策略中,由于已标注训练集中的样本数量有限,存在着数据稀疏问题,即产生了很多低频特征,由于缺少信息量这些特征在机器学习过程中往往得不到好的利用,这种影响在文本挖掘和自然语言处理任务中更为严重。针对此问题,本文研究如何利用未标注数据将这些被忽略的特征转化成更富有信息量的新特征,从而可以激发出这些特征潜在的作用,达到提高系统的性能的目的。本文提出了一种新的特征构建方法—特征耦合泛化(Feature Coupling Generalization, FCG),该方法利用原始特征在海量未标注数据中的共现信息以及特征间的概念层次关系生成新的特征。相比于原始特征,新特征具有更丰富的信息量和更泛化的表示。本文讨论了该方法中各种因素对系统性能的影响,并通过实验验证该方法在文本挖掘任务中的效果。本文将FCG方法应用于三个经典的文本挖掘任务：命名实体识别(Named Entity Recognition)、关系抽取(Relation Extraction)、文本分类(Text Classification),对每个任务进行了详细的研究,从不同角度比较了经典特征与FCG方法的效果、检验了FCG方法所带来的贡献,并通过观测低频特征在不同方法中的效果分析了FCG方法有效的原因以及对数据稀疏问题的解决情况。实验结果显示,FCG可以将传统方法中被忽略的低频特征转化为有效的特征,在传统方法的基础上有显著的提高,而且FCG方法可以很容易的应用于海量的未标注数据,这是相比于其他半监督学习方法(Semi-supervised Learning)的优势。更有趣的现象是,仅仅使用FCG方法所生成的新特征的效果普遍好于经典的特征,这说明该方法有可能在普遍的机器学习问题中取代经典特征表示方法,为特征生成的研究开辟了新的思路。此外,在公开评测数据上与其他研究者的对比结果显示,基于FCG方法的系统取得了很好的效果。

其他文献

蛭龙活血通瘀胶囊对大鼠急性脑梗死缺血再灌注后神经细胞凋亡及相关基因表达的影响

目的：探讨蛭龙活血通瘀胶囊对大鼠急性脑梗死缺血/再灌注后神经细胞凋亡及相关基因表达的影响。方法：采用线拴法建立大鼠局灶性脑缺血再灌注损伤模型，将40只雄性SD大鼠随机

会议

蛭龙活血通瘀胶囊急性脑梗塞缺血性中风神经细胞凋亡基因表达

从“邮乐919”看11185转型发展

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

电话营销客服中心呼叫中心

张闻天践行先进社会生产力发展要求的历史考察

考察历史人物，主要是看历史人物的活动在多大程度上代表了当时生产力发展的要求，是否推动了生产力的发展和社会的进步。张闻天在其经历的新民主主义革命、社会主义改造和社会主

期刊

张闻天生产力历史考察

《航空检测技术》课程双语实践教学模式研究

双语教学是高校教学的发展趋势,是国际化教育的重要组成部分。针对《航空检测技术》课程的特点和民航机务的专业需求,提出《航空检测技术》课程的双语实践教学模式,从双语实

期刊

双语教学实践教学翻转课堂检测技术bilingual educationpractice teachingflipped classroomdetecti

变电站施工中GIS设备与变压器的安装技术

变电站工程项目里的电气绝缘结构设备(即GIS)和变压器的安装都是一项不简单的工作。虽然设备本身体积不大,安装所需的空间较小,但每一个安装步骤实施到位与否都将对整个变电

期刊

变电站GIS安装规范化技术探讨

2014年房企资金趋紧竞争压力增大

<正>资金是企业赖以生存的命脉,房地产业作为典型的资金密集型产业,具有资金需求量大、资金循环周期长、资金回笼速度慢等特点,因此对资金的依赖性更强,对资金的良好运转要求

期刊

增速差房地产开发企业竞争压力房地产开发贷款

我国上市公司现金持有变化剖析——管理者非理性预期视角下的R&D投资驱动

期刊

管理者非理性预期研发投资现金持有自我归因偏差

浅谈赵孟頫的书法艺术特色

赵孟頫博学多才,能诗善文,懂经济,工书法,精绘艺,擅金石,通律吕,解鉴赏。尤其以书法和绘画成就最高。在绘画上,他开创元代新画风,被称为“元人冠冕”;赵孟頫亦善篆、隶、真、

期刊

赵孟頫书法艺术特色

不同抗凝技术在连续性静脉-静脉血液滤过中的应用评价

期刊

连续性肾脏替代治疗连续性静脉-静脉血液滤过抗凝技术

三维颅面相似度比较的研究

计算机辅助颅面复原是随着计算机的发展而兴起的一门新技术,它以现代解剖学为理论依据,以传统颅面复原技术为基础,是通过计算机的辅助对活体颅面进行修复和重塑、对未知颅骨

学位

颅面相似度计算机辅助颅面复原姿态估计形状描述符颅面距离

特征耦合泛化及其在文体挖掘中的应用

与本文相关的学术论文