网络中新词识别方法研究

来源 :SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会) | 被引量 : 0次 | 上传用户:liongliong511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着互联网的迅猛发展,网络中新词大量涌现。本文提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高新词的召回率。在此基础上结合分析新词的内部模式,对垃圾串进行过滤以确定新词。本文利用训练垃圾词典的方法对单字串垃圾进行过滤,用改进的互信息与独立成词概率结合的方法确定多字词模式的新词。由此,大幅度提高了新词识别的准确率。
其他文献
  为了探究人源甲型H1N1流感病毒的变异规律,本文提出了一种图形化表达病毒序列的方法,该方法首先将甲型H1N1流感病毒HA基因的符号序列数字化表达,利用主成分分析(PCA)将高维
WebQQ客户端可运行于多种不同平台,并通过WebQQ通信协议与腾讯服务器进行交互,界面美观,体验流畅.通过对WebQQ网页页面进行抓包分析,获取WebQQ通信协议,设计了桌面版QQ客户端
摘要:新一轮课程改革的核心之一是培养学生的创新精神和实践能力,创新源于问题。而中学生的问题意识淡薄、缺乏提问勇气、缺少提问策略,造成了我国高中生提出数学问题能力的欠缺。本文结合教学实际提出几点在高中数学教学中培养学生发现问题和提出问题的措施,以不断培养学生的创新精神和实践能力。  关键词:高中数学; 教学培养  一、向学生阐明“提出问题”的意义  教学中,教师应首先使学生明确:创新教育是现代教育发
美人鱼发光杆菌是引起鱼类“巴斯德氏菌病”的病原菌,它不但宿主多样,致病性强,而且影响范围广泛,使得欧洲、北美洲、日本的海水养殖业遭受了严重的损失,并且该病在近几年已经蔓延
下一代互联网的发展和研究方向是语义,而本体是表达知识语义最好的方法之一.本文研究了本体的定义、本体的分类、本体的功能、本体的构建方法和具体构建流程.以旅游领域为对
变形观测方法简便易行,其成果直观可靠,能够真实反映大坝的工作性态,是大坝安全监测的主要监测量之一,也是大坝安全监控的重要指标。 本文基于人工神经网络的非线性函数逼近能
网络免疫技术是抑制病毒传播的主要方法之一.本文针对当前网络病毒免疫策略中忽略的网络节点异质性;以及现实网络病毒免疫策略的流行度问题,对带有免疫策略流行度的策略和网
随着科学技术水平的不断提高,新材料、新工艺的采用,不断提高了水利建设的科技含量,大大减少了工程投资,提高了工程安全系数。预应力闸墩结构体系具有断面尺寸小、刚度大、承
在信息技术发达的时代,人们对信息的实时性要求越来越高.如何及时、快速、高效地把大量的数据信息呈现在客户端,是目前研究的一个重要问题.采用传统的"请求一应答"模式,已不
本论文对山东半岛地区的4株禽Ⅰ型副粘病毒强毒株进行了分离,对其血清学、临床毒力表现和分子生物学方面进行了研究。 将4株地方强毒株经绒毛尿囊腔接种10日龄鸡胚,鸡胚接种