基于CRFs的中文分词算法研究与实现

来源 :北京邮电大学 | 被引量 : 28次 | 上传用户:dfvgb345g33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是汉语自然语言处理的基础性任务,分词的准确度直接影响到后续处理任务,分词的速度影响一些系统的实际应用。条件随机场(CRFs)是用于序列标记和数据分割以及组块分析的条件概率模型,是给定输入序列条件下计算输出序列的无向图模型。它属于“判别”模型,没有“生成”模型的代表隐马尔可夫模型(HMMs)严格的输出独立性假设,且克服了最大熵马尔可夫模型(MEMMs)等其它“判别”模型的标记偏置问题。该模型可以非常容易的将输入序列中的任意特征纳入到模型中。条件随机场理论与它之前的基于统计方法的模型有着联系。条件随机场理论有着隐马尔可夫模型面临的三个基本问题,在解决相同问题时又用到了相似的解决方法。其条件概率模型与最大熵模型的概率模型的推导原理及参数估计函数的形式相同,且其条件概率模型借鉴了最大熵马尔可夫模型的概率分布的形式。本文系统地描述了条件随机场理论。为了更清楚的描述条件随机场理论,我们先是给出了隐马尔可夫模型、最大熵模型和最大熵马尔可夫模型的相关描述。而后给出了条件随机场的定义、模型结构、势函数的定义、参数估计、训练方法和计算方法等。接着本文描述了将条件随机场用于汉语分词,采用汉字标注的分词方法及基于CRFs的中文自动分词系统的实现。基于CRFs的中文分词的准确度很高,但分词速度有待提高。分词速度是分词系统的一个重要指标,分词速度有赖于词典结构查询速度的提高,本文提出了基于双字节的双数组查询方法,速度上比基于单字节查询提高了10%左右,并针对双数组结构空间稀疏和存储空间占用量大的问题,给出了解决方法,使双字节查询方法的双数组结构在时间和空间上获得了一定的平衡。
其他文献
文章采用主成分分析法、超效率DEA以及空间相关分析等方法对金融集聚指数以及生态效率水平进行评价,利用2009年—2013年相关数据,通过构建了空间滞后模型对金融集聚与地区生
要完成一次出色的钢琴演奏,不仅需要演奏者有着高超且熟练的演奏技巧,同时还对演奏者的心理素质有着较高的要求。紧张心理是钢琴演奏过程中最常见的心理素质问题,应对紧张心理是
<正>脑转移是对肿瘤患者生活质量影响非常大的问题。据统计20%~40%的肿瘤患者在肿瘤的发展过程中都会出现脑转移。目前对于脑转移有个"多育的土壤"学说,是指某组织(如脑、骨)
<正> 一王国维是近代一位有名的学者。鲁迅先生称他“是老实人”,认为“要谈国学,他才可以算一个研究国学的人物。”郭沫若同志推崇他是“新史学的开山”,“很有科学头脑的人
近年来,工业厂房、商业广场、科技产业园、物流仓储、体育场馆以及航空工业等建筑都广泛采用金属结构建筑。钢结构建筑有很多优于混凝土建筑的特性,比如设计独特、构造完美、
社会主义市场经济体制释放了社会资源的流动性,促进了各阶层间的流动。然而当下,由于人脉资源、户籍制度、家庭教育等先赋性资源以及外部教育资源等后致性资源在青年阶层中的
"木铎千里"用之于童老师,我觉得他是担得起这一称谓的,也应该是恰如其分的。首先,在所有的身份中,童老师把"教师"看得最重;在所有的活动中,他又把"上课"看得最为神圣,最是幸
近年来,随着国家对乡村建设力度的进一步加快,以及农村居民人均纯收入的迅速增长,居民对居住条件提出了更高的要求,乡村别墅孕育而生,但因乡村受制于风土人情、相邻要求等环
目的探讨情境教学法在临床医学专业外科学总论教学中的实践效果。方法选取2010级临床医学专业3班为实验组,临床医学专业1、2班为对照组,实验组的外科学总论教学以情境教学法为
医院医用消耗器材的管理是医院器材管理部门的主要职责之一。针对耗材管理中存在的普遍问题,引入医用耗材供应目录技术并进行实践,旨在建立制度化、规范化的医用耗材管理机制