基于语料库的多词单位抽取方法研究

来源 :第三届中国数据挖掘学术会议(CCDM2009) | 被引量 : 0次 | 上传用户:wangcongyu003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  多词单位是由两个或多个单词组成的独立的语义单位。多词单位的发现和使用在词典编纂、语言翻译和信息检索等领域有着重要的作用。发现多词单位的主要途径是从语料库中进行抽取。目前已经出现了很多从语料库中抽取多词单位的研究。抽取方法以统计学和语言学的知识为设计依据,近些年来也出现了一些数据挖掘算法的应用。本文介绍了研究者们在多词单位抽取算法中的一些工作,包括多词单位的评分和选择。将评分算法根据它们的设计依据划分为三类,对它们进行总结分析,并用实验进行了验证。本文还介绍了多种评分算法的组合方法,使用这些组合方法可以互补各种评分算法,达到更好的抽取效果。
其他文献
我所在的陕西省渭南市从1999年开始启动医保,2000年末,我转行做起了医保经办工作。3年来的酸甜苦辣,使我对医保经办工作从不懂到熟悉,从熟悉到熟练,从熟练到热爱。一段不长的
  人脸识别已经成为模式识别和图像处理的最新研究问题之一,尽管人们提出了许多人脸识别算法并且取得了很大的成绩,但是由于人脸表情、位置、方向和灯光的变化,从而使得人脸识
会议
期刊
  针对如何快速有效地搜索用户所需要的Web资源问题,文中在介绍HITS算法的基础上,分析其产生主题漂移的原因,并结合内容相关度策略,提出一种新的CSHITS搜索算法,该算法通过
  在特定领域问答系统中,领域知识直接影响问答效果,本文提出了一种领域问答答案提取方法,以问题分析得到问题查询、问题类型及答案类型为基础,借助领域知识检索获得答案提取候
会议
  话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,它通过训练得到的话题模型,识别出后续报道中与已知话题有关的报道,属于话题检测与跟踪的一项子任务。本
会议
天峨县六排镇个体户利燕军,利用稻草、玉米芯、玉米秆、黄豆秆、木屑、野生芭芒秆等农作物下脚料,每公斤种出鲜木耳1~1.5公斤、收入3元。利燕军今年37岁,高中毕业,从1982年始
  在中文文本分类模型中提出了文本的KWP度量。在文本分类系统中SVM决策表上建立了CKWP约简方法,利用CKWP值标注训练集文本的方法改进了中文文本分类系统。
元素碘作为一种化学消毒剂的显著地位已经确立。与其它消毒剂相比元素碘具有抗菌谱最广,在极低浓度如百万分之0.5~2时仍具有极短杀菌时间。有效pH范围广(pH 5.0~9.0),不产生抗
  自动文摘是自然语言处理的一个分支研究领域。基于语义的自动文摘方法解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量。常用语义模型包