中文自动分词若干技术的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:amorg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本是按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切分问题。中文文本自动分词已成为中文信息处理的一个前沿课题。本课题对中文自动分词方法、歧义字段的计算机自动识别、命名实体的计算机自动识别、中文自动分词词典机制等技术进行了分析和研究。针对某些技术上的不足,提出了改进方案。本论文的主要工作有:(1)歧义字段的计算机自动识别对歧义字段产生的原因进行了研究,给出了交集型歧义字段和组合型歧义字段的计算机自动识别方法。(2)命名实体的计算机自动识别分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别方法;对中文地名的计算机自动识别给出了利用知识库和规则库,采用推理机制进行计算机自动识别的方法;对机构名称的计算机自动识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。(3)中文自动分词词典机制介绍了三种典型的中文自动分词词典机制:整词二分、TRIE索引树及逐字二分的词典机制;对基于PATRICIA Tree的中文自动分词词典机制进行了改进,并对改进后的机制—“首字哈希-词尾PATRICIA Tree”机制进行了实验检验。实验结果显示,“首字哈希-词尾PATRICIA Tree”机制在时间和空间效率上都有很大提高。
其他文献
面向对象编程(Obiect-Oriented Programming,OOP)是一种实现软件模块化和可重用的编程规范,较好地解决对象和数据的封装问题。但是随着编程实践的日益丰富,OOP也表现出缺陷:
首钢矿业公司在企业管理中,注重加大科技含量。狠抓计算机的开发与应用,为企业插上现代化管理的翅膀,管理效能不断提高。加大投入强化硬件建设首钢矿业公司把强化计算机管理看作
随着Internet和Web技术的发展,WWW已经成为一个巨大的信息资源库,然而使用传统的搜索引擎,用户要精确地找到所需信息往往十分困难。Web信息抽取技术正是在这样的背景下出现的
该文概要梳理了晚清时期(1833至1911年)地学翻译史的发展脉络,以历史事件和时间为节点,搜集与整理了这一时期地学翻译活动的作品及相关的人物、出版机构及代表性事件.了解西
随着P2P技术在各个领域的广泛运用,以P2P网络为依托的P2P群发通信算法日益成为影响P2P技术发展的一个重要方面。由于通常使用并发通信时间作为衡量P2P网络中群发通信算法的主
复制检测技术在信息时代得到非常广泛的应用,尤其在计算机程序设计方面。复制检测又为两类:一类是形式化语言文本(如:计算机程序代码等)复制检测,另一类是自然语言文本复制检
生物特征识别技术比传统身份鉴别方法更安全、更方便,同时能够克服传统身份鉴别方法易丢失、易仿冒、易破解的缺点,是近些年兴起的热门学科,已经逐渐成为国内外的一个研究热
显示模块是心电设备的重要组成部分,为心电设备提供人机交互和显示效果的支持。好的人机交互和显示效果可以方便用户操作心电仪和观察心电数据,对准确判断至关重要。本文针对
随着计算机网络和多媒体技术的不断发展,流媒体直播技术的应用越来越广泛。近几年,无线网络的飞速发展和带宽的迅速提高,为流媒体技术在无线网络中的应用奠定了坚实的基础。
近日,团中央办公厅发[2005]14号文授予广东徐闻友好农场中学美术教师冯才权“全国乡村青年文化名人”称号。青年书画家冯才权近年来在教学之余,立足基层,紧密围绕社会主义和