基于本体的中文分词算法的研究与实现

被引量 : 0次 | 上传用户:gaga1235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人类将面对着浩瀚的信息海洋。已知在由计算机进行存储的信息中有80%是由文字为载体进行传输的。面对这样庞大的文字信息数量,如何利用计算机更有效的处理这些信息就成为计算机技术的一个新的研究领域。这样的背景下对中文信息处理技术的研究就应运而生,而作为中文处理技术的最基本环节的中文分词技术也就自然而然的成为研究的热点。中文分词技术就是利用计算机技术把没有分割标志的汉字串转换为符合现实语言应用的汉语语言词串的过程,即在书面汉语中利用计算机技术建立词的边界的过程。中文分词在现实中有着很广泛的应用,它隶属自然语言处理领域,是句法分析和语义理解过程等深层中文信息处理的基础,是中文信息处理的最初环节。现有的中文分词算法总体来说可以分为基于词典的中文分词算法、基于统计的中文分词算法和基于理解的中文分词算法三类。前两类算法是现今对中文分词技术研究的主流,而基于理解的中文分词算法是中文分词技术未来的研究趋势。当前在对中文分词技术进行研究时主要是从中文分词的算法、歧义处理技术、未登录词的识别等几个方面开始着手。本文主要把分词算法的设计和歧义处理两个方面作为切入点展开研究与实践:(1)将本体引入到中文分词领域,尝试用语义本体代替传统的机械词典来进行分词,并结合正向与逆向最大匹配法,设计了一种基于本体的双向最大匹配分词算法。通过实验测试证明该算法在分词准确率与召回率方面与传统的基于词典的中文分词算法相比有了显著的提高。(2)对于分词过程中产生的歧义,本文结合领域本体的特性,通过对语义关联强度计算来进行歧义字段的消歧工作。这种歧义处理方法充分的体现了利用语义本体进行分词相对于利用传统的分词词典进行分词的优势所在。(3)对基于本体的中文分词系统的框架进行了设计,在分词之前利用事先建立的规则库对待切分材料进行预处理。先将材料中的命名实体进行简单识别,以此对待切分材料进行初次分词,大大减小了分词的复杂度和节省了分词的时间。并对对分词系统的分词模块、歧义处理模块等进行了具体设计。本文提出了一种新的基于本体的中文分词算法,并借助本体的优势,对分词过程中产生的歧义进行处理。通过实验测试,证明这种算法是有效的。
其他文献
流传于楚地的河神话 ,从河神内在神性的规定到处在形象的描绘 ,都异于流传于黄河沿岸传统的河神话。屈原《九歌·河伯》对传统的河神话及河伯形象进行了再创造。在屈原所创造
刑事立案线索是社会公众揭露犯罪、运用法律武器保护自己合法权益的重要工具,也是检察机关查办职务犯罪案件的重要来源。由于历史上的、现实国情上的、立法上的原因,导致立案线
近年来,液化气行业的运营越来越暴露出各种病机,损害了广大消费者的切身利益。建立城乡液化气配送中心是有利于国计民生的重要举措。在此就瓶装液化气配送中心的具体规划与管
当前形势下受各种因素影响,促使了小学教学模式进行改革,只有在不断激发学生创新思维的基础上才能够为学生未来发展创造条件。小学音乐教育作为小学教育的重要组成部分,它能
《厄舍古屋的倒塌》是美国19世纪诗人、短篇小说家和文艺批评家埃德加爱伦坡的作品。在小说方面,坡与马克吐温和福克纳等作家相提并论,因为他开创了美国侦探小说和现代科幻小说
研究背景:心血管疾病(CVD)是终末期肾脏病(ESRD)维持性透析患者死亡的主要原因之一。透析患者发生CVD的危险因素包括:(1)与一般人群相同的传统因素,如高血压、糖尿病等;(2)和尿
蒸散是水循环的关键一环,决定了土壤-植被-大气系统中水热传输过程。森林作为面积最大的陆地生态系统,其蒸散是全球水分循环的重要分量,也是全球气候变化的重要影响因素。然
GATS《金融附件》中的审慎例外条款非常特殊,它的设立目的旨在平衡金融服务自由化与WTO成员国内规制自主权。但因该条款涉及的金融业部门非常敏感,发展中国家代表并不愿在当前
<正> 裴世清,生于隋代河东闻喜(今山西闻喜裴柏村),生卒年代不详,主要活动在隋唐二代。他在隋为鸿胪寺掌客、文林郎,入唐为驾部郎中、江中刺使等职。 在隋代河东裴氏中,裴世
超声成像技术在医学、无损检测及海底地形探测等领域中应用广泛,而超声传感器作为其主要部件,已成为一大研究热点。其中电容式超声传感器(CMUT)由于有无需匹配层,且带宽较高、易