汉语分词中未登录词识别及词性标注的研究与实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:a553892340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要介绍了汉语分词中未登录词识别与词性标注方法。未登录词是影响汉语分词准确率的一个重要因素,未登录词包括人名、地名、时间名、数词等,提高这类词的识别率能够在一定程度上提高汉语分词的准确率;词性标注是中文信息化处理的基础性工作,其任务是用计算机来自动地标注出文本中所有词的词性。词性标注在机器翻译、自动摘要、信息检索、Web文本挖掘、文本分类、文本校对、语音识别、语音合成等许多领域起着重要的作用,是自然语言处理的基础性课题。提高词性标注的准确率,是提高自然语言处理效果的基础之一,因此词性标注的方法研究具有重要意义。 本文采用了统计与规则相结合的方法对未登录词进行识别,该方法解决了基于规则的方法带来的规则获取瓶颈问题,同时克服了基于统计的方法过于依赖语料库的缺陷。实验证明,统计与规则相结合的方法能有效的提高汉语分词的准确率。 本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。提出采用条件随机场模型,通过概率训练获得了模型参数。同时采用backoff参数平滑算法来解决了条件随机场模型的数据稀疏问题。最后,运用Viterbi算法以句子为单位进行词性标注。实验证明,基于概率统计的-阶条件随机场模型以及Viterbi算法能有效的解决汉语词性标注的问题。 另外,在汉语分词的词典结构方面,本文提出了一种基于双数组Trie加密的词典存储结构,该词典存储结构不仅能够有效地提高词典检索效率、降低词典的空间复杂度,并且克服了传统双数组词典结构装载时间过长的缺点,同时,该结构的加密存储方式能够有效保护词典信息不被窃取。对保护知识产权起到了重要的作用。
其他文献
目前,复杂网络和多智能体系统正以极大的魅力吸引着来自控制科学、信息学、数学、物理学、化学、生物学、医学、管理学、社会学以及经济学等不同领域的专家学者为之开展深入研
电力能源是人们日常生活中最常用的能源之一。随着科技的发展、人类社会文明的进步,小到个人居住环境,大到工厂企业都已经离不开电力能源带来的巨大便捷和利益。电力能源的生产主要有:火力发电、风力发电、水利发电以及核反应堆发电等。在我国的发电企业中,火电厂发电量约占总发电量的80%左右,所以火电厂是我国电力能源的主要来源。火电厂发电所用的主要燃料是煤炭,煤炭在高温燃烧时会产生大量污染物,包括气体污染物和固体
抽油机电机是油田系统中重要的设备之一,其运行状况关系到油田的产油量。而在各油田,为了保证抽油机工作在正常状态,需要掌握整个抽油机的电能消耗及各种电压电流等参数,依靠
生物信息学是利用数学、信息学、统计学和计算机科学的方法研究生物学问题。癌症生物信息学从信息角度来研究肿瘤的生物学。癌症是一种涉及基因组动态变化的疾病,错义突变构
随着现代科学技术的发展和人民生活水平的提高,人们对住宅的安全性提出了更高的要求。由于视频监控具有直观、方便、信息内容丰富等的特点,而被广发的应用各种安防系统中。现
机器人视觉伺服具有广阔的发展前景。由于摄像头畸变等因素的影响,基于系统标定的视觉伺服系统有很大的局限性,人们开展了无标定视觉伺服的研究。而在实际的视觉伺服系统中,
随着人们对能源危机及环境污染的日益重视,风力发电系统在世界范围内得到了迅速发展,有效的提高机组运行效率、最大限度地利用风能已成为风力发电技术研究的主要内容。因此对风力发电机组建模仿真,为有效保证机组运行提供了必然条件。论文研究了风力发电系统的基础理论,根据风速、风力机、双馈发电机的数学模型在Matlab/Simulink中分别建立仿真模型;根据坐标变化原则从双馈电机的基本电磁理论出发,研究内部变量
网络控制系统具有布线简单、结构灵活、易于系统扩展和维护以及能够实现信息资源共享等优点,因此,网络控制系统的研究已经成为控制科学及工程领域的研究热点之一。论文研究了
铁路运输在我国各种现代运输方式中占有头等重要地位,随着我国铁路运输不断大规模提速,对机车的运行安全提出了更高的要求。针对目前铁路机车运行状态监测实时性差的缺点,本
温度的测量在工业领域和其他领域中都具有十分重要的作用,随着科学技术的进步,在辐射测温领域中出现了许多新的发展方向,接触式辐射测温即为其一,它的基本思想是将测温腔体与被测对象直接接触,传热稳定以后再测出测温腔体的辐射温度,因此测温腔体辐射特性的确定就是关键的一环。描述腔体辐射特性的技术指标是腔体的积分发射率,为求得积分发射率,重要的是知道沿腔壁的有效发射率分布,然而高精度的测量这些量是很困难的,所以