中文分词规范可计算化的研究与实现

被引量 : 0次 | 上传用户:ahyiahyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶颈之一,其中对中文分词规范的研究,即如何确定一个汉字串是否为词,是分词的首要问题。虽然国内外许多研究人员在歧义切分、未登录词这些领域进行了深入的研究,但针对分词规范的研究很少,而这个问题也一直是中文分词的基础难题,一直困扰着中文分词的进展。 本文针对中文分词规范的科学性进行了深入研究,并对中文分词规范的两个方面:完备性和一致性,进行了深入的研究。在可计算化方面,本文在对国家规范进行详细的研究分析的基础上,将分词规范进行可计算的实现。同时通过查找语料库不一致的切分单位,并从中挖掘出一些经验准则。最后通过实验使用可计算的规范规则对语料进行测试和分析。在分析方面,本文就分词系统在使用分词规范的规则后的精度,与不使用规则的分词方法进行了全面的比较,再指出了分词规范的重要性和价值。
其他文献
移动ad hoc网络——MANET(Mobile ad hoc network)正逐渐成为无线网络研究领域的热点。移动ad hoc网络独有的特性,使其更容易受到攻击,构造网络安全体系也更为复杂。因此安全性
文化教学对语言教学的影响一直是外语教学界普遍关心的一个问题。众所周知,语言与文化的关系密不可分。语言是文化的载体,文化体现在语言之中,正如人类学家克拉克洪所说,离开了语
干旱灾害对小麦稳产增产影响很大。明晰不同农田灌溉水平下旱灾对小麦生产技术效率的影响具有重要意义。本文基于15个小麦主产省区1991—2016年面板数据,运用随机前沿函数分
研究在28日龄断奶仔猪日粮中添加芽孢杆菌、低聚果糖制剂对其生长性能及血清IgA、IgG、CD4、CD8、猪瘟抗体水平等指标的影响。选择28日龄断奶仔猪(杜×长×大)80头,分4组,每
首次细致地研究了 In As量子点中直接掺杂 Be对其发光特性的影响。光致发光 ( PL)谱的研究表明 ,较低掺杂浓度时 ,发光峰蓝移 ,同时伴随着发光谱线变窄。而较高浓度的掺杂会
目的:探讨早期糖尿病周围神经病变(DPN)大鼠血清CRP、TNF-α和IL-6含量与神经功能之间的关系,观察通络糖泰方进行短期干预的作用和可能机制。 方法:选用SD大鼠,采用两次四氧嘧
本文利用醋酸锰试剂分别与1-芳甲酰基-3-杂环基硫脲及1-芳甲酰基-5-芳基-2-硫代缩二脲反应合成了2-芳甲酰氨基杂环并噻唑(2a~2l)及噻二唑(4a~4f)两个系列的杂环衍生物,然后利用
为阐明海浪河地表水体中重金属污染物的分布特征与风险水平,对研究区域内As、Cd、Zn、Cu、Pb、Mn等重金属污染物浓度进行了分析检测,并采用美国环境保护局(USEPA)推荐的健康
财政部在2011年10月发布的《小企业会计准则》对于面临市场生存压力的小企业是一个极大的政策利好。《小企业会计准则》基本以现行的《企业所得税法》为导向,其理念为尽量使
担保行业在我国起步较晚,但发挥了很大的作用,它是缓解我国中小企业融资难的有效制度安排。近些年来,随着经济的不断发展,融资性担保公司在迅速发展的同时也暴露出了一些影响