现代汉语空间短语的自动识别

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:squallleo2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HNC理论中有三大基本短语,即:时间短语、空间短语、数量短语。空间短语是其中非常重要的一种短语,研究空间短语的自动识别可以为特定信息的抽取、过滤提供一定的方便,也可以为其它类型的短语等类型的识别提供一定的借鉴意义。   识别方法上,本文主要采取模式匹配,词性识别以及HNC知识库判断三级模式来识别文本中的空间短语。首先根据空间短语的构成模式从文本中匹配待判断的空间短语,然后提取空间短语的中心词,第三步通过词性来判断中心词是否可以做空间短语的中心词,如果用词性不能明确判断中心词能否作为空间短语的中心词,最后将利用HNC符号的知识来做最后的判别。   本文的主要工作包括以下几个方面:   1.构建空间短语的语料库。本文从已标注的1998年《人民日报》和北大语料库及中文信息处理资源平台中的文本语料库中搜集空间短语,并对搜集到的空间短语进行标注,标注的内容包括前边界、中心词、后边界等信息。   2.分析空间短语的构成模式。总结出空间短语的构成模式是自动识别空间短语的基础,根据总结的语料,结合对空间短语各构成要素的分析,总结出空间短语构成的形式,然后以空间短语构成的形式为基础,总结出空间短语构成的模式。   3.构建空间短语识别所需的知识库。本文的知识库包括前边界库、后边界库、HNC词语知识库的词表库、HNC词语知识库的概念类别库,HNC词语知识库的HNC符号库等。   4.自动识别程序的设计与实现。本文的识别程序使用C#语言来实现,以面向对象的思想来设计相关的类和方法。主要的模块包括:分词、载入词表、载入待处理的文本、预处理载入的文本、查找激活点、返回前后边界的位置并提取待判断的字符串、提取空间短语的中心词、使用词性知识判断空间短语的中心词、使用HNC知识判断空间短语的中心词。
其他文献
地名是专门指代大大小小的地域的语言符号,是一种社会现象,其本质功能在于指代方位,具有语言属性、地理属性和社会属性。街道名作为地名的一部分,它既反映了一种社会现象,也
《朱子语类》是朱子讲学语录,共一百四十卷,是南宋朱熹门人弟子所撰写。此书汇集了朱子及门人语录,半文半白,口语化程度较高,基本上能反映南宋时期汉语的语言面貌,是研究近代
针对20 t天车发生主梁裂纹的现象,分析了裂纹产生的原因,讨论并采取了有效的措施,彻底处理了主梁裂纹故障,确保了天车的安全运行.
目的:对广州绿洲生化科技有限公司研制的食品合成色素检测盒进行应用性研究。方法:采用食品合成色素检测盒检验食品中的合成色素,并与纸色谱法进行对比。结果:检测盒对几种常
在汉语作为第二语言教学界,一直倡导使用目标语(汉语)教目标语(汉语),让学生在课堂上有更多机会接触汉语。但在现实教学中,尤其在汉语作为外语教学的国际学校幼儿汉语课堂中,
本论文主要研究五四文学革命后出现一直到1949年,继承了清木民初小说的某些特征,迎合了大众的消遣娱乐,商业性市场化比较强,因受新文学的影响,在内容和形式上逐渐改良的一类小说。
讲故事、听故事是最普遍的艺术审美样式。上世纪90年代,中央电视台《东方时空》栏目以“讲述老百姓自己的故事”的理念开创了故事类电视专题节目的先河,随即“讲故事”蔚然成
村上春树是当代著名的日本作家。在这个纯文学日渐萧条的时代,村上春树守护着文学这片故土并创造了一代文学神话;在充斥着影音信息的多媒体时代执着地彰显着文学的魅力。当越来
在以往关于《寒夜》的研究中,研究者多从文化、心理、爱的意蕴、女性解放以及意象使用等各分论点展开论述,对悲剧的整体性、综合性特征的认识上略显不够;而在对悲剧成因的分析
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊