用于常识推理的中文句子语义知识抽取

来源 :厦门大学 | 被引量 : 0次 | 上传用户:averyhut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代科技高速发展,人们渴望能用本民族语言以自然、直接的方式同计算机进行交流。因此,自然语言的语义分析研究具有十分重要的意义。由于自然语言的本身局限性和语言信息传递所要求的高效性,语义分析特别是深层次的语义分析十分困难。目前有很多相关的语义分析系统包括语义角色标注、指代消解、语义消歧等等,但这些系统仅仅是对语言进行浅层语义分析,获取句子中部分的语义知识,遗漏了很多其他语义知识,从而使得通过自然语言进行的常识推理研究无法进展。   本文运用《知网(HowNet)》中的语义知识,通过对常用中文句子进行自动分词、命名实体识别、词语词性标注、句法分析、语义关系分析等步骤完成中文句子的语义知识抽取,构建句子的知识库,实现了一个用于常识推理的中文句子语义知识抽取系统。具体来说本文的研究工作主要包括以下三个方面:首先,提出了一种基于《知网(HowNet)》的中文句子语义关系依存分析方法。结合《知网(HowNet)》建立了自己的语义信息结构库,对句子进行句法依存分析,标注语义关系,最终实现整个句子的语义关系依存分析。其次,提出了一种基于KNN的中文词语语义的自动判定算法。由于《知网词典》的不完备性影响到语义关系依存分析的结果,该算法一定程度上解决未登录词的语义未知的问题,提高了语义关系依存分析的结果。最后,对句子的语义关系分析进行扩展,整合自动分词、命名实体识别、词语词性标注、句法分析、时态等等,设计并实现了一个用于常识推理的中文句子语义知识抽取系统。我们将实现系统所抽取到的知识成功地运用到了一个常识推理的系统中,取得了不错的效果。希望我们的研究可以帮助机器更好地理解自然语言,为实现人机交流打下基础。
其他文献
随着互联网的发展,可以获取和利用的图像信息越来越多,如何从这些图像信息中检索出自己需要的图像信息成为当前比较活跃的研究领域之一。形状特征作为图像低层特征之一,作为
随着计算机信息技术的发展,尤其是互联网的兴起,各个应用领域原有的单机系统迫切需要进行集成整合。以新兴的SOAP协议为基础的Web Services应用体系,恰恰可以作为系统平台整
为了保证Web应用程序的质量,Web应用必须进行相应的测试。随着Web应用程序规模和结构复杂性的增加,回归测试行为往往受到时间等资源的限制。因此,Web测试效率亟待提高。越来越多的自动化测试工具正在被广泛使用,这些工具能在一定程度上提高Web测试效率。但在回归测试中,固定不变的网页元素定位器十分脆弱,往往会导致测试用例失效。为此,本文提出相应的方法来自动生成网页元素XPath定位器,通过爬取网页页
学位
随着因特网的普及和多媒体处理技术的迅猛发展,多媒体信息的共享己成为网络时代的主题,但随之而来的是数字化信息的安全性面临着严峻的挑战。因此,对网络传输中的多媒体信息
随着LTE网络建设的快速发展和4G用户的不断攀升,对无线网络的需求越来越高,网络质量成为影响用户满意度的关键因素。如何在网络快速发展的情况下对4G网络进行优化,提高网络利
随着智能手机功能的增强和移动互联网的普及,智能手机占手机总数的比重飞速增长,针对智能手机的恶意程序和黑客攻击也逐渐增多。但智能手机的安全防护水平还停留在初级阶段,
在计算机辅助近景摄影测量系统中,用相机从不同方位对场景拍摄一组照片,在计算机上对该组照片上的目标点进行标记,获得各个标记点在不同照片中的二维坐标值,经过一系列算法,
云存储系统为存储大规模数据应运而生,其底层采用分布式文件系统作为存储平台。HDFS(Hadoop Distributed File Sysytem)是开源的云计算平台Hadoop提出的分布式文件系统,其设
互联网的快速发展,使得网络的规模越来越庞大,结构越来越复杂,网络用户数量呈指数级增长,而网络中的非关键业务的泛滥也导致网络的带宽资源被大量地消耗,影响了其他关键网络
随着电信企业的重组和3G牌照的发放,中国电信市场进入更加激烈的全业务竞争时代,如何适应日趋激烈的市场竞争环境,成为电信企业的重要问题。电信行业重组,中国移动面临着诸多