结合关联置信度与结巴分词的新词发现算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:cctvnba_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进一步文本处理的准确性.近年来随着微博平台、直播平台、朋友圈等自由舆情平台的兴起,大量不规范使用的舆情文本尤其是不断出现的新词给分词结果的准确性带来了巨大的挑战,新词发现成为分词算法必须解决的问题.为解决在新词发现过程中,新词整体数据体量小、新词用法灵活以及过度合并词语易形成短语块等问题,本文提出了结合关联置信度与结巴分词的新词发现算法,该算法以结巴分词的初步分词结果为基础,通过计算词语
其他文献
随着社会经济的发展,交通拥堵、交通事故、环境污染和能源短缺等交通相关问题已成为世界各地城市,尤其是大城市的首要问题之一,已成为制约城市可持续发展的主要瓶颈。该文从出行
自《马说》被编入教材以来,专家、学者和一线教师在其文本研究和教学实践方面成果众多,为解读与教学《马说》提供了极大的帮助。【解读综述】一、《马说》的写作背景(一)唐代
目的分析肠胃康颗粒配合捏脊疗法治疗小儿厌食症的疗效。方法选取2013年3月~2015年9月我院儿科收治的小儿厌食症的患儿221例作为研究对象,将其按照随机数字表方法分为试验组1
镉不是人体的必需元素,镉的摄入对人体健康带来威胁。近年来,大米中镉含量超标问题引起了政府、公众和科学家的高度重视。在中国南方的广州,大米是大多数市民的主食,了解大米
采用敏感度分析与数值模拟相结合的方法,对影响高速列车引起地面振动的土体参数敏感度进行分析及参数反演。以宝兰客运专线榆中站附近一段路堤的地面垂向振动现场试验为依托,
识字教学不仅要注重识字量,还要注重学生的识字体验,让学生在发现汉字规律的同时建立对汉字的亲近感。教师应树立开放而有活力的识字教学理念,开发利用各个学科的识字资源,大
2013年,国外高超声速技术保持快速发展态势。美国成功地进行了X-51A的第4次飞行试验,实现超燃冲压发动机技术的重大突破;洛马公司提出新型高超声速飞机SR-72的研制计划,国防高级
以优选防柠檬干片褐变的抑制剂为目的,考察了L-半胱氨酸盐酸盐(L-Cys)、山梨酸钾、双乙酸钠、乙二胺四乙酸二钠(EDTA-2Na)对柠檬干片褐变程度的影响。在单因素实验的基础上,
从文体特征、单元语文要素、作者创作风格、课时目标达成四个方面定位文本典型表达,确定清晰的教学内容。从复述性理解、阐释性理解、评价性理解、创造性理解的阅读理解四个