基于网络文本的多词表达抽取方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:qq380612428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词表达(MultiwordExpression,MWE)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现且往往缺乏标注信息,给分词任务和后续文本理解带来了巨大挑战。与此同时,网络文本的多词表达抽取对于社交网络的热点追踪和信息检索等任务都有着至关重要的作用。目前,多词表达的抽取方法研究已经有了一定的成果,但仍然存在很大的改进空间,主要的问题有:目前面向网络文本的多词表达抽取研究还很少;采用纯规则或纯统计的方法来抽取多词表达的效果往往不好;多词表达结构中词元关系的计算往往需要依赖人工制定的规则和模板,不适用于抽取包罗万象的网络文本中的多词表达。因此,本文面向网络文本的多词表达抽取研究,探讨如何结合规则和统计方法来抽取多词表达,以及如何减少人工制定规则的依赖,实现多词表达的自动抽取。本文对网络文本中汉语多词表达的结构特点和语言学特点进行了详尽的分析和归纳,在此基础上,设计了基于规则与统计相融合的多词表达抽取方法,且根据多词表达构成词的词性组合规律制定了正则表达式模板,并改进NC-value统计模型,将其与互信息(Mutual Information,MI)相结合(即MI/NC)来抽取多词表达。经过实验测试,在1万条微博语料上,基于规则与统计相融合的方法抽取多词表达的F值达到85.85%,相比较于基线系统,性能有了很大的提升。进一步,为了减少对人工规则的依赖及提升多词表达抽取的准确率,本文提出了一种基于双层策略的多词表达抽取方法。第一层次,我们利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,我们在第一层次获得的多词表达候选列表的基础上,利用支持向量机(Support Vector Machine,SVM)分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验验证,基于双层策略方法抽取多词表达的F值达到89.58%,相比较于基线系统和基于规则与统计相融合的抽取方法,性能有了进一步的提高。综上所述,本文面向网络文本,在融合基于规则和基于统计的多词表达抽取方面,在改进多词表达结构中词关系计算算法方面,在引入词向量来过滤多词表达候选列表方面,进行了一系列创新性的工作,实验结果表明,本文所提出的基于规则与统计相融合和基于双层策略方法都能实现网络文本中多词表达的有效抽取。此外,我们将多词表达抽取与分词任务相结合,实验结果表明,引入多词表达抽取结果后的分词效果也得到了有效的改善。
其他文献
传统地质样品中痕量金测定通常使用锥形瓶电热板溶解矿样,酸液在受热过程中大量挥发,既造成了一定的浪费,又易产生对环境及人体危害较大的废气.因此,为降低酸液消耗,减少环境
目的 探讨品管圈管理工具在提高住院患者口服地高辛药物准确率中的应用。方法 成立品管圈小组、确立活动主题,进行现况调查、目标设定、原因分析、对策拟定,应用PDCA循环原则
ISOS作为一种新型的测报软件,这种软件的广泛应用,使计算机能够全面的进行数据处理、实现数据的传输以及计算机的实时实地的存储功能,把计算机的功能发挥的淋漓尽致。从而使
目的研究老年妇科恶性肿瘤手术患者术后并发症的观察及护理措施。方法选择120例妇科恶性肿瘤实施手术的患者,对其术后出现并发症的情况进行分析,同时制定相应的护理措施。结
应用超高效液相色谱-串联质谱(UPLC-MS/MS)同时检测淤泥中氧氟沙星、环丙沙星、恩诺沙星和达氟沙星4种氟喹诺酮类药物的残留量.针对所检测样品的化学性质,对色谱的条件、提取剂
工业化时代,工业企业林立,其往往会排放大量污水,导致水体环境被破坏。工业废水中的有机物在水体中氧化分解时,会消耗大量溶解于水体中的氧,从而诱发水体恶化,造成水生物死亡
本文以作者对德国大气质量标准化的实证调查为例,探讨了"在不确定性的条件下,理性的风险决策如何可能"的问题。不确定性是构成风险概念内涵的核心因素,并在20世纪80年代以后
内窥镜手术已成为现代医学最重要的工具之一,得到了广泛的应用.但一直未有一个有效的系统可以整合起所有的手术设备,并优化这些设备功能.为了达到这一目的,奥林巴斯公司最近
期刊
<正>清华大学与TSMC于2010年12月16日共同发表65nm产学合作成果,藉由TSMC提供的65nm制程晶圆共乘服务,清华大学微电子学研究所在半数字锁相环(Phase LockLoop)以及模拟/数字
工业发展中排放的环境污染对人口健康造成冲击,区域环境技术与居民健康支出密切相关.该文综合采用泰尔指数、趋同检验、分位数回归弹性等方法,重点考察中国2005年~2014年居民