面向领域文献的中文分词方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:laobo999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理领域一项基础技术,随着中文信息处理应用的发展,各领域产生的文本信息逐渐增多,专业领域中文分词的需求日趋扩大。然而,当前分词领域的训练语料多为通用新闻领域语料,在跨领域分词任务中,由于训练语料和待切分文本在构词特征和分布规则上差异较大,中文分词往往无法取得较好的效果,因此面向特定领域的中文分词成为当前中文分词领域中的一个难点。本文针对特定领域的中文分词方法展开研究,设计了适用于领域文献的构词指标和相关算法,主要的研究内容与创新如下:1.根据领域文献的特殊构词特征,提出了一个新的构词指标:词频偏差,之后基于该指标设计了无监督的分词优化算法,合并优化被切散的领域词汇;2.词频偏差侧重于刻画领域词的构词特点,单独作为分词指标具有一定局限性,本文引入传统分词指标互信息辅助处理领域词外的词组搭配现象,并设计了各指标之间的合并修正算法,以提升整体分词优化效果;3.针对模型训练阶段专业领域标注语料稀缺问题,本文提出了基于神经网络的模型参数迁移学习方法。该迁移方法利用通用领域标注语料预训练初始模型,并设计模型参数迁移策略,得到专业领域分词模型。本文提出的面向领域文献的中文分词方法,是在已有的分词成果上进行优化,且融合了传统的分词指标,并通过迁移学习的方式复用通用语料中的知识。在一份农业领域语料上开展了实验,结果表明本文设计的构词指标词频偏差和分词优化算法、合并修正算法对目前常用分词工具的优化提升明显。提出的参数迁移方法在目标领域语料上F1值有小幅提升。
其他文献
在新课改理念下,小学语文教师应该转变自身的教育观念,多给学生留出一些时间、空间以及机会,除了需要教授学生们学习方法之外,还需要教授其得到语文知识的途径。通过长时间教
在当今信息时代,作为信息获取的重要一环,模拟信号到数字信号的采样受制于奈奎斯特采样定理,而这意味着较高的信息获取和存储传输成本。压缩感知理论的突破意味着更低的采样速率也能通过一定手段得到原本高速率采样才能达到的效果。传统的压缩感知方法通过求解优化问题来达到预想的效果,但求解的过程往往耗时较长,难以应用于对实时性有要求的场景。数据驱动的深度学习方法所耗费的时间主要体现在训练过程,在使用时有很好的实时
珲春市苹果产业主栽“寒富”苹果,苹果产业主要以孟岭村苹果产业为主,在整个珲春经济发展中占重要地位。近年来苹果市场发展迅速,而珲春市苹果产业各个环节很难向前推进,不仅影响自身产业发展,而且对珲春经济也产生影响。本文以珲春市苹果产业历史发展现状为研究对象。通过综述国内外及珲春市苹果产业的相关研究,查阅文献资料,以现场考察,走访座谈等方式,利用相关的农业统计数据及文字叙述,将产业的栽培引种历史分为发展初
基于视觉词袋模型的闭环检测算法在小规模静态场景和光照环境变化微小的情况下能取得很好的检测效果,但在大规模动态场景和光照变化明显的复杂场景下难以取得令人满意的检测效果。随着深度学习在场景识别中的深入研究,通过利用深度学习的方法自动学习图像的深层次特征可以有效的提高闭环检测的准确率。本文针对CNN应用于闭环检测中存在的参数设置(网络结构、学习方法、学习率等)、大数据集训练时间等问题进行分析研究,主要研
随着多媒体技术的发展以及人们对视频图像画质要求的不断提高,高清和超高清视频的应用越来越普及,如何把原有的低分辨率视频放大成高分辨率视频图像并保持图像质量的清晰锐利
捷联惯导系统(SINS)和全球定位系统(GPS)有很强的互补性,利用组合导航技术将SINS与GPS进行信息融合,能发挥它们各自的优势,SINS/GPS组合导航是目前导航技术领域内的主要研究
随着大数据时代的到来,能够处理海量数据的云计算架构逐渐成为研究热门,人们对于云计算集群性能的追求与日俱增。分布式存储作为云计算的基础,对其性能的提升尤为重要。如今
本文在算法NSGA-Ⅲ和A-NSGA-Ⅲ的基础上,提出了一种新的基于参考点自适应调整的多目标进化算法AR-NSGA-Ⅲ。在该算法中,我们更多地强调原始均匀参考点的引导作用,并且出于多样性的考量,在根据参考点进行选取之后,采用最远元素添加机制,使得种群多样性最大化。为了进一步增强算法的收敛性,本文引入基于惩罚的边界相交距离(PBI距离)来度量个体到参考点的距离。在参考点的自适应调整过程中,根据参考点
近年来,随着物联网行业的兴起,作为物联网系统重要组成的射频识别技术(Radio Frequency Identification,RFID)受到人们的广泛关注,其应用市场也随着物联网的发展而迅速扩大,被广泛应用在了电子收费系统,物流和定位跟踪系统等领域。在RFID系统中,天线是最为关键的组成部件之一,其性能直接影响着系统的识别距离、识别效率和灵敏度等参数。本论文主要研究对象为RFID系统中的阅读器
外商直接投资在促进一个国家或地区的经济发展方面发挥着重要作用,并伴随着区域间劳动力、生产技术等经济增长要素的空间流动,市场、政策及制度的作用,导致区域间经济增长迅速。然而我国在IFDI规模不断扩大的同时,也在空间维度上出现了地区间分布不平衡,不同地区吸收IFDI的程度存在显著差异的情况,具有明显的区域集聚特征,这种不均衡的IFDI空间集聚也阻碍了我国区域经济的整体协调发展。本文以我国30个省市地区