【摘 要】
:
中文分词是中文自然语言处理的基础性任务,分词的准确性直接影响到后续处理任务,分词的速度影响到后续的直接应用。成功的分词方法需要具有较高的准确性和快速切分的能力。由
论文部分内容阅读
中文分词是中文自然语言处理的基础性任务,分词的准确性直接影响到后续处理任务,分词的速度影响到后续的直接应用。成功的分词方法需要具有较高的准确性和快速切分的能力。由于中文自身的复杂性,如何做到有准又快地分词一直是中文自然语言处理的难题。
本文首先介绍了分词技术研究的现状以及应用范围,阐述了当前常见的分词方法和各种分词方法的优缺点,分析了中文分词研究面临的问题,由此引出本文的研究论题:基于词典的机械切分可以做到比较快速的切分,但是其不足之处是局限于词典,准确率和处理新词的能力无法达到满意的效果,条件随机域统计模型能很好地达到新词识别的能力;然后提出了一种结合词典和CRF统计分词的方法,将CRF识别新词的优势和机械分词的速度优势相结合。改进了CRF的解码部分,使用词典先做全切分,而后依据模板计算阈值并以此判定是否为新词,同时可以在平均程度上加快解码速度:由于词典是联系机械分词和统计分词的重要纽带,为了实现吸纳新词和快速切分,本文提出了分级词典的方法,由核心词典和临时词典组成,核心词典是分词接口的唯一依据,临时词典负责记录新词。
本文采用人民日报1998年1月语料库和部分网络抓取语料做了一些实验,并进行了封闭测试。实验验证了使用本方法完成新词发现任务的可行性,其他系统的横向评测使用标准做了横向比较,实验表明该方法具有较快的分词速度和较高的准确率,是一种可行有效的分词方法。
其他文献
近年来,虚拟机技术再度成为学术界和工业界的热点话题。虚拟机技术在云计算、高可用服务、安全等很多领域得到了广泛的应用。在嵌入式开发中,通过在PC机或者服务器上运行嵌入
城市应急智能决策系统,是促进城市智能化、现代化不可或缺的部分,也正在成为各级政府日益关注的建设任务。如何高效利用有限的资源,提高政府应对突发事件快速反应的和抗风险
图像分割是图像处理和计算机视觉领域中的一个最具挑战性的技术,已经有几十年的发展历程了。早期的图像分割技术都是针对灰度图像和结构化场景图像的,这些图像的形式较简单、特
对同一领域软件的复用开发被认为是实现工业化生产方式的重要途径,而需求的精确分析验证则是软件高品质复用开发的基础,当前主流的生产线驱动方法是采用特征模型的方式捕获领域
随着政府对科技项目投入的经费逐年增加,科技项目申报数量和范围的逐步扩大,导致了项目审查和评审工作量的剧增,同时引起了种种管理上的难题,出现了很多“重复立项”的问题。目前,文档复制检测技术在保护知识产权和优化搜索引擎方面应用广泛,但在科技项目管理领域应用甚少。本论文主要研究基于科技项目知识表示模型的一种基于字段的相似度计算方法及其系统,便于高效、准确地查找相似的科技项目,向项目评审者提供预警,有效防
随着网络技术及流媒体技术的发展,视频流媒体的应用愈发普遍,而复杂多变的网络环境使得视频数据拥有的网络资源变化很快,这要求视频传输必须有适应网络状况变化的能力。因此,迫切
随着虚拟化产品的不断普及和云计算技术的蓬勃发展,虚拟化集群被广泛的用于各行业领域中,用以支撑关键应用和服务;与此同时,人们对于集群高可用性要求也变的越来越高。虚拟化
Agent以其自治性、主动性和智能性等显著特性,为传统上我们难以有效处理的事务提供了一种新的解决方案,而本体采用规范化的描述语言,对领域知识进行描述,实现知识的共享与复
随着信息化与数字化的高速发展,世界上每天所产生的计算机数据除了数量上的快速增长,其组成结构也发生了巨大的变化,非结构化数据所占的比重越来越大,增长也越来越快,而传统
无线传感器网络(Wireless Sensor Network, WSN)是由大量廉价、体积微小的传感器节点以自组织的方式组成的无线网络。本文以拓扑控制技术为出发点,针对层次拓扑控制技术中的