语言工程实践之体验

来源 :江苏师范大学 | 被引量 : 0次 | 上传用户:yadnlf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
北京大学计算语言学研究所积30余年之努力,建成以《现代汉语语法信息词典》为基础的综合型语言知识库,为中文信息处理技术的发展发挥了重要作用.本文总结作者主持这项大规模语言工程的体验.以具体案例阐述自然语言处理技术为什么需要语言知识,需要什么样的语言知识以及如何将语言学家表述的语言知识变换成计算机能够运用的形式.期望这样的体验对探索学科交叉融合的学者也有参考价值.
其他文献
文章分析了句子的限定性与透明度,指出句子的透明度决定于其限定与非限定的分别,在此基础上分析了如何认定语句的限定与非限定。
如果比较世界语言的词形,可以发现甲金文代表的单音节词语言并不是那么理所当然,因为人类共同起源于非洲的话,汉语和其他东亚语言也应该是多音节词语言.当建立这样的观念,就会发现,先秦时期的文献中有大量双音节和多音节词,例如联绵词、名物词、词头词、重言词、人名、地名、氏族名.那么,东亚语言的单音节词是怎样来的呢?学者们研究发现,目前南亚语和部分藏缅语还处于双音节词向一个半单音节词转化和单音节化阶段,例如:
清·许瀚归纳前贤研究古音有:谐声、重文、异文、音读、音训、迭韵、方言、韵语等方法,其中尤以谐声、异文、音读与韵文最为常见.就上古声母系统而言,自顾炎武发其端绪,历经钱大昕、章太炎、黄季刚、曾运干、钱玄同、戴君仁以及陈师新雄等人之钻研,终于建构完成.大抵而言,钱大昕所采材料多属经籍异文或汉儒音训释音,章太炎先生则多从谐声偏旁立说,刘赜为黄季刚先生学说所提之左证大抵为经籍异文或汉儒音训释音,曾运干先生
汉语疑问词和句法孤岛的关系,35年来(Huang1982)一直受到句法界的关注.该现象的核心,是在量化成分可以发生隐形移位的理论假设之下,某些疑问词可以出现在阻断移位的句法孤岛内部.由此引发两个问题:究竟哪些疑问词不产生孤岛效应?其内在机制是什么?本文的着眼点在于第一个问题。仅就汉语而言,Huang 1982认为区别在于论元与非论元,Xu 1990指出“怎么”虽然是典型的非论元成分,却和论元一样可
一般语言句子结构含有主语和谓语,谓语可以包括宾语.以汉语而言,常见的句子是主+动+宾,其中主语和宾语大都可以不说/写出来.本文主要探讨两个广泛使用空论元的语言,两个看起来很像,可是又不完全一样的语言——汉语和日语。借此研究,我们可以提出合适的名词短语结构,进而对人类语言名词短语结构的通性和可能的差异,有进一步的了解,也可帮助解决长期以来对汉语的名词短语结构应该投射为NP C Noun Phras
同一语义范畴、具备信息量差异的表达词依据信息量的大小构成强弱标量词,对弱标量词进行语用解释即进行标量推理.本文采用句图匹配任务考察30名5-7岁的汉语高功能自闭症儿童在弱标量词“一些”上的标量推理能力,结果表明高功能自闭症儿童进行标量推理的比率显著低于匹配的典型发展儿童,他们倾向于对弱标量词进行逻辑解释而非语用解释.推测异常的词汇语义知识表征,使其不能建立强弱标量词之间的语义联系是高功能自闭症儿童
契丹小字是10世纪初为记录契丹语而创制的一种拼音文字.中古汉语入声一般指由p、t、k三个闭塞音作为韵尾的音节构成.契丹小字所使用年代是否存在入声韵尾学界仍有争议.契丹小字文献中以拼音形式记录了许多汉语官职名、地名、人名等.本文通过对用契丹小字记录的“臘”、“十”、“易”、“伯”、“册”以及一些专有名词的语音分析,认为现己发现的契丹小字中仍保留了部分汉语入声韵尾的痕迹.同时认为,契丹小字的字音构拟不
语气助词“的”来自于结构助词“的”,这是目前几乎所有学者的意见.本文认为,鉴于语气助词“的”和结构助词“的”在句法位置和语法功能方面的巨大差异,两者之间不太可能有直接的衍生关系,汉语史上也找不到从结构助词“的”发展为语气助词“的”的令人信服的证据.本文认为上古汉语的句末语气助词“者”是语气助词“的”的直接来源,是“者”字在语音上蜕变的结果.
汉代称文字学为小学,殆因儿童入小学,先学文字,故名.隋唐以后,则以小学为文字学、训诂学、音韵学之总称.张之洞(1837-1909)《书目答问》曰:「由小学入经学者,其经学可信.」其实,把这两句话改为「由小学入国学者,其国学可信」,也同样真确.本文举例说明小学与古籍字词研究之关系,以就正于方家.
语言理解是人类语言能力的重要成分.心理语言学的语言理解研究,目标是揭示语言理解的认知过程和神经基础,并对人工智能的自然语言处理提供启示.语言理解的代表性模型之一是Peter Hagoort的“记忆-整合-控制”模型(MUC).该模型包括三个功能成分:记忆、整合与控制.记忆指语言获得过程中习得、已在新皮层记忆结构中巩固的语言学知识.在记忆中存储了关于语言构件的知识,如音系、语素、句法构件,合起来称之