基于词汇吸引与排斥模型的共现词提取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:anyjz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共现词提取在信息挖掘和自然语言处理中有着十分重要的地位.而传统的共现词提取方法仅仅局限在单一的一种统计量上,其结果十分不精确,需要人工再进行整理.本文提出了一种基于词汇吸引与排斥模型的共现词提取算法,并通过将多种常用统计量进行组合,改进了算法的效果.在开放测试环境下,所提取的共现词其用户感兴趣度为60.87%.将该算法应用于基于Web的共现词检索系统,在速度和共现词的提取精度上均取得了比较好的效果.
其他文献
改革开放以来,我国一直致力于构建开放型经济发展模式。长期以来,特别是“十五”期间,我国投资率、净出口额持续走高,消费率持续走低,形成了主要依靠投资、净出口拉动的经济增长模
实体指代识别(Entity Mention Detection, EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别
一、需求创造原则需求创造原则是支撑市场营销的诸原则中的核心原则。该原则认为,需求并非固定或有一定限度,而可以通过企业的努力去扩大和创造。 1.需求创造原则要求企业明
石油合同是拥有油气资源的国家和要在该国投入风险资金进行勘探开发的石油公司(一般为外国石油公司,下同)之间确立关系的协议。石油合同确立资源国与石油公司关系时,以下列主
同门竞争,如果能维持良性竞争,就能让双方都获得发展;而如果同室操戈恶性竞争,就会两败俱伤。做一个成功的人要有大胸怀和大智慧,做企业亦是如此,大河有水,小河才不会干。
2010年1月将迎来西部大开发十周年。近十年来,西部大开发取得了巨大成效,西部地区经济加快发展,基础设施明显增强,生态环境得到了更有力保护,老百姓也得到了更多实惠。为了迎
目前,石油企业正在按照党中央、国务院的统一部署,抓紧进行重组改制工作。重组改制后,石油企业将分成以油气开发、炼油化工及油气销售为主业的股份公司和以钻井勘探、辅助生
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个
1998年,编辑部认真执行办刊方针,坚持为企业、为读者和作者服务的宗旨,树立精品意识,从提高刊物整体质量入手,积极采取措施,努力改进工作,办刊质量有了进一步提高。全年共出
几乎人人都想赚大钱,但真正赚到大钱的人毕竟是少数。这是因为他们在无限商机的商海中,没有驾驭好赚钱的机会。那么把握商机的秘诀是什么呢? 以下几个方面的内容会告诉你答案