面向基金主题的中文分词方法研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:jx34343
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理(Natural Language Processing,NLP)可以让计算机理解人类的语言方式并进行学习,进而处理文本信息。中文文本由句子组成,句子由词语组成,词是最小的表达意义的单元,但是中文词语和英文单词不一样,没有空格将其分开,需要采用一定的手段来将中文词语从句子中分隔开来,即进行中文分词。中文分词是所有文本信息处理工作的第一步,分词准确与否会影响到后续工作。目前常见的中文分词算法包括基于词典、基于统计模型和基于深度学习的分词算法,中文分词技术的关键问题是目前缺乏统一的分词标准,且存在许多切分歧义和未登录词识别等问题。中文分词算法在更换分词领域时会出现分词性能的下降,为了解决这个问题,当前研究者们在研究分词领域自适应性和针对特定专业领域分词问题两个方向上做出努力,本文便是专注于解决金融领域下基金主题的中文分词问题。为了实现上述目标,本论文首先采用Scrapy框架在“天天基金网”上爬取了大量的基金新闻资讯文章,并根据该文章的特点制定了专属的中文分词标准,然后进行人工分词,制作了一份基金主题的中文分词语料库。在该语料库上选择了四种分词算法来进行实现,包括基于词典分词算法中的正向最大匹配法(Maximum Matching,MM)、基于统计模型分词算法中的隐马尔科夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional Random Field,CRF)和基于深度学习分词算法中的长短期记忆神经网络(Long Short-Term Memory,LSTM),同时选择了一种基于统计与深度学习的集成算法“条件随机场-双向长短期记忆网络(CRF-Bi LSTM)”来进行实现,详细介绍了几种算法用于中文分词任务上的实现过程,包括模型训练时生成的特征,和构建神经网络时设置的参数。最后综合比较它们在基金主题语料库上的分词表现,分词效果的评价采用准确率、召回率和F值这三个指标,实验结果表明CRF算法在该语料库上表现最好,F值高达0.9526,CRF-Bi LSTM的F值略低于CRF算法,为0.9446,究其原因,可能是CRFBi LSTM算法未能训练出最佳的参数,后续可进一步改进。其他三种算法各有优劣,分词准确率不及上述两种算法。为了进一步检验分词算法在更换分词领域后是否会出现分词性能下降的情况并找出受此改变影响最小的算法,本实验采用北京大学提供的pku_training训练集来作为通用领域的语料库,对以上五个模型进行再次训练,测试集仍旧采用人工标注的基金主题语料,结果发现除了CRF-Bi LSTM分词算法受影响较小外,其余分词算法的分词性能均出现大幅度下降,这证实了集成算法由于可以结合多个算法的优点,在中文分词的任务处理上,通常情况下效果要比单一算法更好,适用面更广。根据以上结果并考虑到模型训练的复杂程度,推荐研究者们在可以获得专业领域的语料库时,中文分词任务优先考虑CRF算法,无法获得专业领域语料库时则优先考虑CRF-Bi LSTM集成算法。
其他文献
党的十九大报告提出,实现全面建成小康社会,必须打赢三大攻坚战,其中一项重要内容是防范化解重大风险。打好防范化解重大风险攻坚战,重点是防控金融风险。银行作为金融企业,为国民经济各部门和企业经营活动提供金融服务,在金融市场中发挥着重要作用。新员工作为银行的重要人才竞争优势,是银行的新鲜血液,对银行未来发展关系重大,因此,做好银行新员工的职业适应工作,减少银行企业人员流动风险,也是防控金融风险的重要举措
学位
伴随观念的转变,考研近年来逐步升温,根据教育部官方数据,2021年考研人数达到377万人。考研热也使得硕士研究生毕业人数逐渐增多,特别是在企业用人理念趋于理性及本科生与博士生双重夹击的背景下,硕士研究生就业面临巨大的挑战,相比于本科生其用人成本较高,相比于博士生其科研水平缺乏竞争力,因而在此背景下硕士研究生能够获得一份满意的工作变得较为困难,其中所凸显的问题不容忽视。从校园进入职场,对于刚毕业的学
学位
作为社会一员,残疾人和非残疾人共同享有平等参与社会活动的权利。提高残疾人自我效能感,促进残疾人积极参与社会建设并融入社会大家庭,有利于美好和谐社会的构建。作为《中长期青年发展规划(2016-2025年)》试点地区之一,N县青年工作的一个重要内容就是为残疾青年提供针对性服务,鼓励残疾青年参与社会建设。为推动该规划的实施,N县各个部门相互配合为残疾青年群体提供优质服务。失聪员工L作为残疾青年一员,自然
学位
亲子关系是个体出生时就接触到的与父母之间的关系,伴随着个体一生的成长,对个体而言至关重要。但是,由于后期各种主客观原因如家庭婚姻破裂、父母外出工作等导致的父母和子女之间分离,或父母采取错误的教养方式以及家庭内部结构变化等的影响,使得父母与子女之间的在语言、行动和情感上产生障碍,亲子关系产生了疏离感。本文关注双职工家庭亲子关系疏离问题,在这一问题上,以往文献中学者们对于疏离问题、亲子关系疏离以及社会
学位
在如今多元化的职场环境下,未婚女员工对于自身性别的认知有所提升,比起为了家庭舍弃自身事业,她们更迫切地想要寻求一个二者间的平衡点,向往拥有自己的生活和发展。通过文献整理,了解到针对未婚女员工的研究较少,更遑论该群体的生涯适应力问题,但也发现社会支持与生涯适应力之间存在相关性。因此,本文以未婚女员工作为研究对象,基于社会支持理论开展实务活动,期望帮助该群体提高生涯适应力。这样不仅能够为生涯发展研究提
学位
我国住房制度随改革开放的脚步不断前进,社区已然成为居民区的日常居住场所。为适应房屋商品化带来的现实问题,中国于20世纪80年代引入物业管理概念。物业管理带有专业化、企业化的形象开始融入社区,影响民众的生活。2021年初施行的《民法典》首次将物业服务合同列入《合同编》,强调物业公司在社区物业管理过程中的重要地位。但是随着中国经济的快速发展,影响社区治理的主体从一元转换到多元,各主体的利益冲突导致的矛
学位
在社会发展进程中,作为生存核心力量的劳动力也随着科学技术的不断革新而在持续进行人口更新迭代。近年来,伴随着网络信息技术成长起来的新生代成为职场的主力军,并在社会生产中承担着重要的角色分工。同时,新生代作为不同时代背景下成长起来的一代人,具有区别于过去企业员工的思维模式和行为特点,在职场中,他们难以避免与传统的管理方式产生矛盾,极易出现职业适应问题。据前程无忧等大数据平台的统计,当今新生代员工的离职
学位
随着社会的进步与发展,人们的生产方式不断改变,生活水平逐渐提高,传统的婚姻观念不断受到冲击。日前,人民日报公布了近15年的离婚数据,从1987年到2017年,离婚数量从1987年的58.1万对增长到2017年的437.4万对,增长6.53倍,飙升的离婚率引起热议。受离婚率不断攀升,交通事故及急重症疾病的大幅度增大等因素影响,单亲家庭数量也不断增多。人们在关注单亲家庭时,往往将目光集中在成长于不完整
学位
报纸
期刊