基于概率上下文无关文法的名词短语的自动识别

被引量 : 3次 | 上传用户:longbatian911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理的主要任务是使机器自动的理解人类语言,而名词短语的识别是自然语言处理领域中非常重要的子任务,它直接关系到文本分析和文本处理的正确性。在信息抽取中将名词短语作为它的主要识别对象。本文先分析了名词短语与其他短语类别的联系,然后结合机器学习与句法分析的方法对句子中的名词短语进行了探索研究。具体包括以下几部分内容。首先,本文应用了概率上下文无关文法(PCFG)对名词短语进行了识别,为了弱化传统的PCFG中三个独立性假设条件,本文中使用的PCFG充分结合上下文语境信息,对节点标记采用分裂-合并技术并在解码时采用粗到精搜索技术。其次,提出了一种基于辅助短语标记识别名词短语的方法。本文在分析了短语不同分类体系的基础上,构建了一种映射公式,并根据该公式对不同分类体系的短语类别之间进行映射。然后,根据映射结果及短语的概率分布进行辅助短语标记的组合。实验结果表明,该方法在提高F值的基础上,有效地降低了系统的时间开销。然后,提出了一种基于条件随机场(CRF)与PCFG相融合识别名词短语的方法。实验证明CRF对短距离名词短语的识别效果较PCFG的识别效果好,而PCFG对中长距离名词短语的识别效果较CRF的好。所以本文利用融合技术,将CRF的识别结果与PCFG的识别结果进行融合。以此,达到优势互补,提高名词短语的识别精度。通过以上的研究分析,本文决定从两个角度进行名词短语的识别,实验结果表明这两种方法是有效的。为了得到更好的识别性能,还需要更深入的探讨研究。
其他文献
本文目的是为了探讨过继转输的父系抗原耐受T细胞对受体孕鼠反应性T细胞的影响。以(?)CBA/J×(?)BALB/c为正常妊娠模型,(?)CBA/J×(?)DBA/2为自然流产模型,将自然流产模型CBA
职业教育教师政策文本中关于职业教育教师专业素养的论述反映了国家对职业教育教师专业素养的要求。运用扎根理论对1993年以来我国职业教育教师政策文本进行编码分析发现,职
猪胃溃疡是指胃黏膜出现角化、糜烂和坏死或自体消化而形成圆形溃疡面甚至胃穿孔的现象。1病例介绍某养猪场饲养后备及繁殖母猪共120头,2007年猪场建成投产,2009年3月份先后有6
成昆线504桥及其支线505桥、和宜珙线106桥,钢梁伸臂安装,采用跨中合拢。 504桥,主跨为192m菱形筒支钢桁梁,桁高24m,宽10m;单线铁路。北岸、南岸分别为4孔及2孔32m上承钢鈑
目的:了解维吾尔族妇女型别特异性HPV持续感染的情况及危险因素;探讨维吾尔族妇女HPV持续感染、宫颈癌发生发展与HPV16L1、LCR甲基化的相关性。方法:收集2012年9月~2013年9月新疆
多回转阀门执行器为了实现手动/电动操作的变换,常需要添加辅助的切换装置来完成牙嵌式离合器结合和分离,操作较麻烦;执行器采用蜗轮蜗杆作为主传动装置,结构笨重,整体工作效率低;
皖江城市带地处我国中部,毗邻长江和江苏、浙江、上海等地,具有较好的区位优势和良好的产业基础。自2010年1月12日,皖江城市带承接产业转移示范区被正式批复设立以来,已经过去了
模块组合多电平变换器(Modular Multilevel Converter, MMC)是一种新型电压源型多电平变换器拓扑结构。与传统的电压源型变换器相比,独特的结构特点使其具有较高的输出电平数
在电子商务领域,智能仓库使用多移动机器人已经逐渐成为当今物流业的发展趋势。多移动机器人的路径规划技术是智能仓库系统的关键技术,随着仓库系统面积和移动机器人数量的增