博客语料的新词发现方法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户：nj_lcj

【摘要】

：

新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词

【作者】

：

黄轩李熔烽

【机构】

：

厦门大学智能科学与技术系,漳州职业技术学院经济管理系

【出处】

：

现代电子技术

【发表日期】

：

2013年02期

【关键词】

：

新词词串统计上下文分析分词候选词

【基金项目】

：

漳州职业技术学院科研计划资助项目(ZZY1107)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。

其他文献

民办高校舆情应对策略的思考

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

民办高校舆情应对

留置针致静脉炎的相关因素的探讨与对策

留置针又称套管针是头皮针的换代产品，具有减轻痛苦，减少反复穿刺，提高护理工组效率等许多优点。近几年，美国BD公司的留置针得到了广泛的应用，但在使用过程中也引起一些并发症，最常

期刊

留置针静脉炎相关因素对策

复合杆体斜侵彻机理研究

复合杆体是指在杆式穿甲弹弹芯上包裹一层密度低、杨氏模量高的护套材料形成的复合结构杆体。本文主要针对复合杆体斜侵彻半无限靶的现象进行研究,探讨这种异形杆体的斜侵彻

学位

复合杆体斜侵彻Workbench护套数值分析弹坑分析

夯实主阵地唱响主旋律掌握主导权壮大主力军

编者按$$ 深入学习、全面贯彻落实市委十一届五次全委（扩大）会议精神，是当前和今后一个时期全市上下首要的政治任务。全市各级宣传思想文化部门和新闻媒体，一方面要运用多种方

报纸

论体验式教育的理论拓展——基于马克思主义实践观的视角

<正>体验式教育从西方引入中国,因其教育理论突出了受教育者对知识的主动探索和建构,更深层地诠释了"以人为本"的教育目标,已成为中国教育教学改革重要手段和方法之一[1]。如

期刊

体验式教育“以人为本”马克思主义实践观列宁全集理论拓展

民居建筑坡屋面施工措施要点

坡屋面作为传统建筑屋面的一个分类，近年来，随着住宅产业的快速发展，坡屋面以其造型多变、色彩亮丽和隔热性能优越的特点在住宅中的使用率越来越高，从沿海到内陆城市的住宅建设中

期刊

民居建筑坡屋面施工工艺流程施工技术措施要点

交换抽象及其格式塔转换逻辑——论雷特尔对西方历史认识论的重构

“交换抽象”是现代德国哲学家索恩-雷特尔在其著作《脑力劳动与体力劳动-西方历史的认识论》中提出的一个核心概念。根据这一概念,雷特尔将马克思的商品交换形式与康德的先

期刊

交换抽象思维抽象现实抽象社会综合西方历史认识论

某型标准抛放弹的技术研究

本文立足某型标准航空抛放弹的技术研究,根据目前国内外抛放弹的发展方向,采用较新的制造工艺和方法,处理和解决了该型标准抛放弹在设计研究及制造过程中的几个重点或难点的

学位

抛放弹标准技术

早期胃癌在体固有荧光光谱特征分析

目的在体收集早期胃癌病例的胃黏膜固有荧光光谱,初步探索早期胃癌的固有荧光光谱特征。方法通过胃镜活检孔道在体实时收集12例早期胃癌患者胃部病灶和自身正常黏膜的固有荧

期刊

固有荧光光谱早期胃癌autofluorescence spectra early gastric cancer

硫酸钛催化合成柠檬酸三丁酯的研究

研究了以硫酸钛为催化剂合成的三正丁酯(TBC)的工艺条件,考察了醇酸摩尔比、催化剂用量及反应时间等因素对酯化反应的影响,并确定了最佳反应条件.

期刊

硫酸钛催化合成柠檬酸三丁酯研究催化剂

博客语料的新词发现方法

与本文相关的学术论文