基于网络文本的多词表达抽取方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：qq380612428

【摘要】

：

多词表达(MultiwordExpression,MWE)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现且往往缺乏标注信息,给分词任务和后续文本理解带来了巨

【作者】

：

龚双双

【出处】

：

北京交通大学

【发表日期】

：

2018年01期

【关键词】

：

多词表达网络文本规则与统计相融合互信息左右熵联合增强互信息支持向量机分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多词表达(MultiwordExpression,MWE)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现且往往缺乏标注信息,给分词任务和后续文本理解带来了巨大挑战。与此同时,网络文本的多词表达抽取对于社交网络的热点追踪和信息检索等任务都有着至关重要的作用。目前,多词表达的抽取方法研究已经有了一定的成果,但仍然存在很大的改进空间,主要的问题有:目前面向网络文本的多词表达抽取研究还很少;采用纯规则或纯统计的方法来抽取多词表达的效果往往不好;多词表达结构中词元关系的计算往往需要依赖人工制定的规则和模板,不适用于抽取包罗万象的网络文本中的多词表达。因此,本文面向网络文本的多词表达抽取研究,探讨如何结合规则和统计方法来抽取多词表达,以及如何减少人工制定规则的依赖,实现多词表达的自动抽取。本文对网络文本中汉语多词表达的结构特点和语言学特点进行了详尽的分析和归纳,在此基础上,设计了基于规则与统计相融合的多词表达抽取方法,且根据多词表达构成词的词性组合规律制定了正则表达式模板,并改进NC-value统计模型,将其与互信息(Mutual Information,MI)相结合(即MI/NC)来抽取多词表达。经过实验测试,在1万条微博语料上,基于规则与统计相融合的方法抽取多词表达的F值达到85.85%,相比较于基线系统,性能有了很大的提升。进一步,为了减少对人工规则的依赖及提升多词表达抽取的准确率,本文提出了一种基于双层策略的多词表达抽取方法。第一层次,我们利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,我们在第一层次获得的多词表达候选列表的基础上,利用支持向量机(Support Vector Machine,SVM)分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验验证,基于双层策略方法抽取多词表达的F值达到89.58%,相比较于基线系统和基于规则与统计相融合的抽取方法,性能有了进一步的提高。综上所述,本文面向网络文本,在融合基于规则和基于统计的多词表达抽取方面,在改进多词表达结构中词关系计算算法方面,在引入词向量来过滤多词表达候选列表方面,进行了一系列创新性的工作,实验结果表明,本文所提出的基于规则与统计相融合和基于双层策略方法都能实现网络文本中多词表达的有效抽取。此外,我们将多词表达抽取与分词任务相结合,实验结果表明,引入多词表达抽取结果后的分词效果也得到了有效的改善。

其他文献

密闭水浴溶矿-泡塑吸附等离子体质谱法高效测定地质样品中的痕量金

传统地质样品中痕量金测定通常使用锥形瓶电热板溶解矿样,酸液在受热过程中大量挥发,既造成了一定的浪费,又易产生对环境及人体危害较大的废气.因此,为降低酸液消耗,减少环境

期刊

密闭水浴泡沫塑料吸附电感耦合等离子体质谱法金closed water bath foam adsorption Inductively Coupled

ISOS新型测报软件的应用体会

ISOS作为一种新型的测报软件,这种软件的广泛应用,使计算机能够全面的进行数据处理、实现数据的传输以及计算机的实时实地的存储功能,把计算机的功能发挥的淋漓尽致。从而使

期刊

ISOS测报软件优势应用

超高效液相色谱-串联质谱测定淤泥4种氟喹诺酮类药物残留

应用超高效液相色谱-串联质谱（UPLC-MS/MS）同时检测淤泥中氧氟沙星、环丙沙星、恩诺沙星和达氟沙星4种氟喹诺酮类药物的残留量.针对所检测样品的化学性质,对色谱的条件、提取剂

期刊

超高效液相色谱-串联质谱测定淤泥氟喹诺酮类

废水中生化需氧量的测定质量控制措施

工业化时代,工业企业林立,其往往会排放大量污水,导致水体环境被破坏。工业废水中的有机物在水体中氧化分解时,会消耗大量溶解于水体中的氧,从而诱发水体恶化,造成水生物死亡

期刊

废水生化需氧量测定质量控制措施

不确定性条件下的风险决策——以德国大气质量标准化为例

本文以作者对德国大气质量标准化的实证调查为例,探讨了"在不确定性的条件下,理性的风险决策如何可能"的问题。不确定性是构成风险概念内涵的核心因素,并在20世纪80年代以后

会议

不确定性风险决策标准化环境标准

奥林巴斯内窥镜手术的系统集成方案

内窥镜手术已成为现代医学最重要的工具之一,得到了广泛的应用.但一直未有一个有效的系统可以整合起所有的手术设备,并优化这些设备功能.为了达到这一目的,奥林巴斯公司最近

期刊

清华大学与TSMC携手共创65nm研发里程碑

<正>清华大学与TSMC于2010年12月16日共同发表65nm产学合作成果,藉由TSMC提供的65nm制程晶圆共乘服务,清华大学微电子学研究所在半数字锁相环(Phase LockLoop)以及模拟/数字

期刊

清华大学集成电路设计业

中国居民健康支出的时空差异与环境技术弹性

工业发展中排放的环境污染对人口健康造成冲击,区域环境技术与居民健康支出密切相关.该文综合采用泰尔指数、趋同检验、分位数回归弹性等方法,重点考察中国2005年~2014年居民

期刊

健康支出时空差异趋同检验环境技术弹性health care expenditure spatio-temporal difference converg

基于网络文本的多词表达抽取方法研究

与本文相关的学术论文