基于大规模语料库的汉语词义相似度计算方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:binics
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。
其他文献
目的探讨卡介苗能够更好的成功接种的方法,提高婴幼儿卡介苗接种质量。方法对142名婴幼儿进行卡介苗规范化接种,分为实验组和对照组。对照组采用家长抱紧婴儿进行传统卡介苗接
目的:探讨三甲医院护理人力资源配置的最佳比例,为人力资源配置标准提供依据,指导临床护理人员的合理调配。方法:以咸宁市某三甲医院为研究现场,选取创伤骨科、口腔科、神经外
黄岩,一座有着千年文化底蕴的古城,历经岁月淘洗,沉淀下数千件珍贵文物。令人扼腕的是,其中部分文物竟因保护不力出现了褪色、霉变。这些年,为给这些文物安个"家",台州市黄岩
文章建立了集聚经济理论和要素禀赋论相结合的理论框架来研究城乡产业转移的路径。城市要素价格上涨、产业的布局指向、区域要素禀赋、运输费用等共同决定了城乡产业转移的路
在分析复合图书馆时代馆藏发展工作的显著变化的基础上,对馆藏发展政策的目的、内容、特征、功能、制定、修订和研究意义进行较为系统的论述。 On the basis of analyzing t
对核电站建设期异物事件根本原因进行了分析,对传统人误和组织错误进行了介绍,并应用人因理论从防异物规范、防异物组织内部沟通和防异物安全培训但个方面对核电站建设期异物
对图的拉普拉斯谱半径研究状况做了一个梳理,主要介绍了近几年来对图的拉普拉斯谱半径和拟拉普拉斯谱半径的界的研究所取得的成果,同时指出一些未曾解决的问题和今后的研究方
立足于基层农业建设项目中建设资金的资金管理,项目管理,地方配套及相关制度方面的现状,基于客观存在的问题,为基层农业项目资金管理提出符合相关法律法规和对策。
肠道传染病因其传染性强、传播速度快,迄今仍是全球性的重要公共卫生问题之一,同时肠道传染病的发病水平也是衡量一个国家和地区经济、文化发展和卫生保健水平的重要参考指标
客家民间文献是历史与现实的存在,是客家研究和地方客家工作的宝贵资源.目前,客家文献资源建设主要是比较单一的客家谱牒的搜集、整理和文献数据库的初步建设,总体上还不能适