一种基于N-Gram和拼音相似度的微博新词识别方法

来源 :第31届中国数据库学术会议 | 被引量 : 0次 | 上传用户:ZYXN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以微博为主要载体的网络新词具有数量多、口语化、不严谨、波动性强的特点.根据这些特点和网络新词的产生规律,提出了使用规则和N-Gram的网络新词提取方法,通过拼音和中文词语搭配库建立网络新词和现有词汇的映射关系,从而实现对网络新词的识别以及词义、词性、极性的标注.基于新浪微博最新实时数据的实验结果表明,该方法可以较好地识别出网络新词,新词提取F-measure和新词词性、极性标注准确率分别达到75.94%和84.52%.
其他文献
现有文档分发技术不能解决不确定数据的过滤问题,为了深入挖掘、检索到满足用户请求的信息,设计了一种处理不确定数据的文档过滤算法.利用概率索引结构,通过对包含不确定数据
高校公寓文化是校园文化的重要组成部分,通过体验式德育的视角,建构民航院校飞行大学生公寓文化标准,坚持“以生为本”理念,从服务师生、发挥公寓育人功能、保障学生的切身利
今年2-3月我在佳能商业摄影沙龙举办的摄影展上第一次提出所谓“跨界”的概念,。展出的照片大多拍的是普通顾客或身边的朋友,拍摄的是婚纱和写真,却运用了商业时尚摄影的种种
经信息产业部批准,由国内17家单位联合发起的IP标准研究组最近成立。这一研究组的成立,对于规范和推进我国的IP业务发展具有重要意义。IP标准研究组的主要任务是:组织研究组各成员
冲突消解俨然成为数据集成中非常重要的过程,如何高效地从冲突描述中发现真值具有重要的研究意义.随着原始数据中混乱描述集的比例越来越大,现有的方法准确率也逐渐降低.针对
会议
石灰水浸泡法用0.2%浓度的石灰澄清液,浸泡松、杉等针叶树干燥的木屑12~24小时,捞起后用清水冲洗至无浑浊,pH在7以下为止,再将水沥干,晒干后待用。如气温在20℃以下,上述浓度
随着我国经济与科技的不断发展,人们的生活水平普遍得到了提升,而汽车作为人们出行的主要工具,人们对于它的需求量也越来越大,基于此,汽车维修与保养行业迎来了商机,并以极快
在黑海和里海之间,是格鲁吉亚的一个叫做科卡萨斯的地方。那里超过100岁的老人很多,而且身体健康,不少人仍然能够劳作。1986年,世界卫生组织派出的调查组到那里进行调查,得到
为了解决类/微型驱动模型在实际应用中存在的问题,引入策略模式的思想,对驱动模型进行分析、修改,并结合双EDMA通道数据传输的方式进行视频驱动开发,不但可以提高视频驱动程
语文已经成为教学改革中的重点,素质教育的基础,小学语文是学生学习的开端.就目前而言,小学语文课堂教学已经发生了较大的改进,作为基础性教学,如何在实际的课堂教学中提高学