基于质子串分解的网络新词抽取

来源 :电脑迷 | 被引量 : 0次 | 上传用户:herry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 发现网络新词在中文信息处理方面具有非常重要的作用和意义。本文提出了一种基于质子串分解的网络新词抽取方法。首先,从网络上下载语料;然后,使用分解得到质串;并 在其基础上,进一步使用改进的检验方法结合质子串分解方法抽取具有复杂结构的合串并比较验证新词;实验结果显示,该算法有效地提高了网络新词抽取的精确度。
  关键词 网络新词 质子串分解 互信息 F-MI
  中图分类号:TP391.1 文献标识码:A
  0引言
  新词是未登录词的一种,即新词也是未收入在词典中的词,但它和未登录词还是有所不同。它指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语或者是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形,新词义或者新用法的词汇。
  1新词获取系统流程
  新词识别的信息流采集于门户网站下载的网页,组建语料库,对语料进行预处理,建立Pat Tree索引 ,然后进行术语抽取。其中术语抽取的方法采用基于卡方检验的质子串分解方法。
  2网络新词识别方法
  该模块是系统的核心模块。首先,对候选术语集合进行C-value参数计算,对于C-value小于给定阈值的候选术语将被从列表中删除;然后对表中的候选术语进行字符串分解,并根据分解结果计算所有候选串的F-MI参数值;最后,根据给定的F-MI阈值,淘汰掉错误的候选术语,并输出最终的术语列表。
  2.1质子串分解
  我们把词简单地分为两类,一类是不可再分解为更小的词汇单元的词汇,这类词我们称为质词,如“珠穆朗玛”一词,任何子串(“珠穆朗”或“朗玛”等)都不是词;另一类是由质词组合而成的词汇,这类词我们称为合词,如“社会保障体系”则是由三个质词(“社会”、“保障”和“体系”)组合而成的。对于串S,除了单字串和质串以外,都是合串,单字既不是质串,也不是合串。对于合串S,如果S可以串分解为S= S1 S2 S3…Sm,其中Si可以为质串或单字,但必须至少有一个是质串,则称S=S1 S2 S3…S m是S的一种质子串分解。
  2.2串分解的F-MI
  本文采用改进的互信息参数F-MI来评估一个串成为术语的可能性。参数F-MI的定义分两种:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定义以串分解的F-MI为基础。
  对于串S及S的一种分解S= S1 S2 S3…Sm,串分解的F-MI的计算公式为:
  S表示待计算的串,F(S)表示S在文档集中出现的次数,T(S)表示S所有父串在文档集中出现的次数,而C(S)表示S所有父串的个数。
  参数C-value的目标是为了提高网状术语的抽取效果。由公式3.2可知,对于极大串S,C-value(S)=F(S);而对于非极大串S,C-value参数则综合考虑了S及其所有父串之间的网状关系,例如对于极大串S1=“珠穆朗玛”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),则C-value(S1)=F(S1),而C-value(S2)=0。
  而参数的定义为:
  其中,i表示表中的行变量,j表示列变量,Oi,j表示表单元(i,j)的观测值,Ei,j表示期望值。这里,我们取2€?的表来计算,如表2所示。
  表2 单词质量和监督出现次数之间的依赖关系的2€?的表
  检验从理论上讲适用于各种大小的表,但是对于2€?的表的表达形式相对简单:
  =(N是语料库中二元对的总数)
  2.3串的F-MI
  对某一质串S= C1 C2 C3… Cm(其中Ci均为单字),质串F-MI的计算公式为:
  其中,本文定义单字的C-value(C)=F(C),如质串“珠穆朗玛”的F-MI值为:
  而对某一合串S,如果S的所有质子串分解为:
  即共有n种分解方式,根据公式3.1,分别计算每一种串分解的F-MI值(f1,f2,f3,…,fn),则合串S的F-MI的定义为:
  F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)
  本文术语抽取的重点是合串的抽取。而在抽取到的62190个合串中,只有4531个被Hownet收录,92%以上的合串未被收录,其原因是这些合串大部分并不属于严格意义上的词,而主要是一些短语和组合术语。另外,本文结合卡方检验对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高。
  3实验结果及分析
  (1)测试数据
  我们下载了新浪(http://www.sina.com.cn)网站上从2013年1月到2013年6月的文章,共计130016篇文章,约345M。
  (2)测试结果及评估
  本次实验共抽取到了241998个术语,其(下转第45页)(上接第43页)中108102个被Hownet收录,占所有抽取总数的 44.67%,质串99040个(91.62%),合串9062个(8.38%);词典之外(OOV)的133896个术语中,质串18578个(占13.87%),合串115318个(占86.13%)。当我们对词典之外的进行了人工评估,并规定,在合串中只有名词性短语才被认定为是正确的词汇。正确的词汇共有204696个,总体准确率为85.41%。
  (3)实验结果分析
  本文网络新词抽取的重点是合串的抽取。而在抽取到的124380个合串中,只有9062个被Hownet收录,90%以上的合串未被收录,其原因是这些合串大部分主要是一些短语和组合术语,并不属于严格意义上的词。另外,本文采用结合卡方检验和互信息F-MI检测对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高(表3、表4)。
  我们通过计算抽取到的术语数目与语料规模的比值来考察分析。与文献(Patrick & Dekang 2001)10M测试语料抽取到10268个术语相比(比值约1026.8),本文在约345M的测试语料上抽取到241998个术语(比值约876.8),该参数要小于前者,随着测试语料规模的增大,重复术语出现增多,所以在结果上基本是一致的。
  4结语
  本文介绍了基于卡方检验和质子串分解来获取网络新词,今后我们将针对参数F-MI的特点,继续对F-MI公式进行研究和改进,以提高质串的抽取效果;在今后会根据词法规则来自动过滤非名词的词汇。在本文提出的方法和实验结果的分析的基础上,我们将尝试结合自然语言处理中的文本自动分类技术,基本上自动实时动态地从Internet上抓取网页,并自动分类,对不同类别的文本集分别进行术语抽取,建立一个实时的动态的网络新词发现系统。
  参考文献
  [1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.
  [2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.
  [3] 刘建舟,何婷婷,姬东鸿等. 基于开放语料的汉语术语的自动抽取[c]. 沈阳:第二十届东方语言计算机处理国际学术会议,2003:43-49.
  [4] 何婷婷,张勇. 基于质子串分解的中文术语自动抽取[J].上海:计算机工程,2006,32(23):188-190.
其他文献
摘 要 计算机网络技术已经成为现代社会科学技术发展的重要力量,近几年来我国的计算机网络技术得到了快速的发展,同时网络化的管理也越来越严格。但是目前,我国的网络化技术的运用过程中还存在着很多的问题需要进一步解决。本文对我国计算机网络技术中存在的隐患和网络安全技术进行了探讨,并计算机网络安全管理提出了一定的维护措施。  关键词 计算机网络技术 安全管理 维护措施  中图分类号:TP393 文献标识码:
摘 要 随着社会的不断进步,信息技术飞速的发展,计算机在人们生活中的应用越加的广泛,为人们的生活带来了很大的方便,使人们生活逐渐向着信息化多元化的方向发展。为了能够利用计算机更好的为人们服务,因此要对计算机要进行改革,使计算机的性能大幅度提升,向着更高速更智能的方向进步,所以要对计算机软件技术进行更新,完善其系统的结构,从而来提升计算机的性能。本文主要是对计算机软件技术的现状以及发展的趋势进行了研
摘 要 无线传感器网络被认为是在二十一世纪最重要的技术之一,它将对未来人类的生活方式产生深远的影响。无线通信技术的飞速发展,数字信号处理技术和传感器技术的日益成熟对基于无线传感器网络的信息采集,处理与传输提供了技术支持。  关键词 无线传感器网络 数据 信号处理 信息采集 信息融合  中图分类号:TP21 文献标识码:A  1无线传感器简介  无线传感器网络中的每个传感器具有一个或多个节点,例如声
摘 要 本文的研究主要是简述ARM架构的嵌入式Linux系统的基本理论,解释了什么是嵌入式系统、Linux系统简介、嵌入式Linux系统、ARM架构的嵌入式Linux系统;从最基本理论入手,能引起初学者兴趣,培养基础知识;同时还简洁的阐述在WINDOWS操作系统下利用虚拟机技术,来建立一个Linux开发环境以及搭建ARM架构的嵌入式Linux系统移植环境应该注意的相关事项。  关键词 Linux系
摘 要 网络舆情是通过互联网表达和传播的各种不同情绪、态度和意见交错的总和。互联网舆情对社会影响和作用将越来越大,因此,必须高度重视。首先介绍了互联网舆情的概念与特点,然后对互联网舆情现状进行了分析,探讨了互联网舆情发展中存在的问题,最后对其引导和管理提出了解决思路。  关键词 网络舆情 管控 舆情困境 传统舆论  中图分类号:TP393 文献标识码:A  随着互联网的迅猛发展,网络已成为庞大的公
在经济高速发展的二十一世纪,随着互联网技术的不断发展,我国金融创新所依托的货币形态、支撑设施、运行机制等也发生了变化;金融创新能够不断提升我国金融市场的运用效率,因
摘 要 随着社会经济与技术的发展,人们的生活质量越发得以提升。计算机和自动化的应用领域也在不断扩大,出现了许多新的研究成果,包括在自动化,环境保护,道路交通,建筑和社区等领域。对于网络控制系统,随着智能大厦,家庭网络技术的快速发展,为了满足人们的需求,管理系统的自适应控制系统将在新世纪有很大的发展。  关键词 网络 远程控制 计算机 客户端 TCP协议  中图分类号:TP393 文献标识码:A  
摘 要 随着我国经济的快速发展,对教育的形式在不断的进行革新,现代化的教育与互联网技术进行有机的结合,从而使得现代教学更加的便捷和生动。互联网技术成为现代教学的一大帮手,改变了传统的教师“说教”的模式,从而增强了课堂的视听效果。文章主要从互联网技术对现代教育的影响以及应用两个方面进行了阐述,结合现代教育的实际发展情况,从而不断的提升教育的主动性和技术性。  关键词 互联网 现代教育 应用  中图分
摘 要 随着世界信息技术和国内市场经济的不断发展,计算机网络技术在人们的平时生活中得到了全面的普及和应用,但是21世纪新信息技术的发展步伐依然在不断加快,原来的计算机网络信息安全体系已经不能完全适应市场的需求,本文简单阐述了计算机安全防范技术,通过建模对其展开研究和分析,希望为我国计算机信息安全事业的发展提供一些借鉴性的参考。  关键词 计算机系统 安全技术 建模分析  中图分类号:TP393 文
石油天然气在国内广泛应用,石油天然气在人民生活和国家经济发展中起着越来越重要的作用.但在运输过程中,由于油气管道输运的都是易燃、易爆、易挥发和易与静电聚集的流体,极