面向计算机的现代汉语“得”字研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:panmandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,中文信息的自动化处理越来越显示出其重要价值。然而缺少细致的致力于规则的句法描写已成为严重制约中文信息自动化处理的瓶颈。句法分析作为自然语言处理中的重点和难点,虽然经过几十年的研究与发展,但是当面对大量真实文本的分析时,由于汉语句子的复杂性和灵活性等特点,对汉语句子的完全分析无论在空间上还是在时间上都受到了极大的挑战。部分句法分析(Partial Parsing)作为近年来出现的一个新的语言处理策略,主要着眼于组块(chunk)的识别与分析。尽管部分句法分析的结果并不是一棵完整的句法树,但各个组块是完整句法树的一个子图(subgraph),只要加上组块之间的依附关系(attachment),就可以构成完整的句法树。这样就使句法分析的任务在某种程度上得到简化,同时也有利于句法分析技术在大规模真实文本处理系统中迅速得到利用。本文以“面向计算机的现代汉语‘得’字研究”为题正基于此,我们希望通过对“得”字结构的识别研究,使之成为完整句法树的一个子图,从而最终实现计算机的自动识别。由于纯粹从为计算机识别服务的目的出发,立足于面向计算机的自然语言信息处理,我们将研究范围限定在无论来源、无论读音、无论词性,凡字形相同的“得”字均在我们的讨论之列。研究重点主要集中在三个方面。第一,“得”字结构的分布特征研究。在对各类“得”字的句法功能及语义特征进行明确界定的基础上,对“得”字结构的语体分布特征进行了详细的描述,并对表现出来的明显倾向性进行了适当的分析。着重观察“得”字述补结构中“得”前成分与不同语体的对应关系,以及“得”后不同补语类型在各类语体中的分布情况,并分析其分布状况及产生对应关系的原因。第二,“得”字结构的组合特征研究。在对各类“得”字左右邻接特征分布进行统计的基础上,结合对“得”字左右邻接限制特征的调查,对“得1”、“得2”、“得3”、“得4”的左邻接和右邻接特征及其限制性特征进行了包括隐性邻接在内的详细描述,发现其邻接规律,并就“得”字的左右显性邻接共现情况进行观察和描述;引入“熵”的计算,通过数据的演算进一步说明各类“得”字对左右邻接词语所具有的选择性。第三,“得”字述补结构的语法及语义分析研究。在借鉴前人研究成果的基础上,从利于计算机识别与处理的观点出发,对“得”字述补结构的结构类型,即可能式述补结构和非可能式述补结构,从句法模式到句法成分间的语义选择进行了明确的界定;并就非可能式述补结构中补语的结构类型进行分类,确立了非可能式述补结构的结构形式与语法意义的对应关系。本文研究的创新之处在于:(1)首次以为计算机识别服务为目的,立足于面向计算机的自然语言信息处理,对现代汉语的“得”字进行包括语体分布特征、左右邻接特征、语法结构及语义关系等在内的全方位的观察与研究,借助形式标记的发掘,实现对不同类型“得”字结构的鉴别,以适应计算机对不同“得”字“理解”的要求。(2)运用词汇语法理论,定量统计与定性分析相结合,研究“得”字结构内部成分之间的邻接关系和共现关系。对显性的邻接特征和左右成分共现情况进行了详细的描述,并对隐性的邻接特征进行了预测。(3)在“得”字的邻接研究中引入“熵”的概念,通过数据的演算进一步说明各类“得”字对左右邻接词语所具有的选择性。同时,也为今后搭配概率的统计分析提供有利的数据支持。(4)从为计算机的自动识别提供尽可能形式化、可操作的语言学标准的观点出发,对“得”字述补结构的结构类型,从句法模式到句法成分间的语义选择进行了明确的界定;并就非可能式述补结构中补语的结构类型进行分类,确立了非可能式述补结构的结构形式与语法意义的对应关系。(5)建立大规模的真实文本语料库,自行标注,为本课题研究奠定了坚实的基础,保证了研究结果的信度和效度。首次实现了在大规模的语料库范围内采用基于统计的方法对现代汉语“得”字在真实文本中的使用情况进行穷尽性的研究。(6)自行研制WordParse软件和DataWord软件,完成数据库建设及数据统计分析,建构前后接续观察和统计系统;首次将XML技术成功地运用于现代汉语语料处理和语法研究,为计算机辅助现代汉语研究作了一些新的尝试。(7)本研究为致力于规则化的汉语句法描写作了一次有益的尝试。研究得出的结论及建构的框架能为类似字词结构的计算机处理研究提供借鉴,并为今后计算机相关中文信息处理的应用系统的开发提供语言学上的支持。
其他文献
肝脏是人体重要的消化器官,肝脏疾病直接影响人的健康和生存。随着医学、计算机技术及生物医学工程技术的发展,医学影像学为临床诊断提供了多种模式的医学图像,这些图像在医
每一个家庭主妇都知道,葱、姜、蒜和花椒是日常必备的调味品,如果在爆炒、清蒸、煲汤时加入它们,一定会提升食物的味道。然而你是否知道,除了提味,平时做菜时只要使用得当,它们还能
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中庸之道是儒家思想中的一种重要的、具有某种形式化特点的实践理性方法论,它对于人与人、人与自然、人和社会的和谐相处,和谐交往,以及人的自身修养方面都具有重要的指导意
信息处理技术以及相伴而生的多媒体技术的发展促使视频数据以几何级数增长,面对如此海量的视频数据,对其进行有效地管理、组织和检索已经成为亟待解决的问题。目前已有的视频
本文阐述了一个利用当前较流行动态网页编程技术开发的大学生心理健康教育系统。在现代教育和心理学等理论的指导下,结合实际需求,笔者对这个大学生心理健康教育系统进行了合
随着WWW的迅速发展,Internet上的服务器积累了大量的Web日志数据,基于Web日志的使用挖掘是目前的研究热点之一。Web使用挖掘一个多学科交叉的研究领域,涉及到数据库技术、人
网格生成是诸如有限单元法(Finite Element Method,FEM)等各类数值方法的前处理过程,是计算机辅助工程(Computer Aided Engineering,CAE)的共性支撑技术之一,所用网格的质量
随着网络技术的不断发展,如今的Web信息以两个层次形式提供用户使用,其中能够被传统的搜索引擎检索的Web信息被称为Surface Web;由于传统的搜索引擎和爬行器不具备自动填充表