基于图的同义词集自动获取方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户：silvervan

【摘要】

：

同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采

【作者】

：

吴云芳石静金澎

【机构】

：

计算语言学教育部重点实验室北京大学,北京大学计算语言学研究所,乐山师范学院智能信息处理及应用实验室

【出处】

：

计算机研究与发展

【发表日期】

：

2011年4期

【关键词】

：

相似词同义词集图模型并列结构 Newman算法边权值 similar words semantic class graph model coord

【基金项目】

：

国家自然科学基金项目（60703063 61003206）, 九十八年度蒋经国国际学术交流基金会奖助项目（RG013-D-09）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果：分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.

其他文献

基于粒度层次映射转换的时态粒点差运算方法

计算两个时态粒点在任意时态粒度下的差值是时态断言的基础，提出基于时态粒度的层次映射转换方法，将时态粒点映射为各时态粒度下的可列集，差运算可转换为不同粒度映射下的自然数

期刊

时态粒度时态粒点差运算粒度转换temporal granularity temporal point subtraction granularity

一种利用类标号关系的多类标号分类方法

多类标号分类问题中,一个实例可以同时有多个类标号,而多类标号分类的任务是为新实例预测一个合适的类标号集合.给定一个新实例,可能与之相关联的候选类标号集合数量达指数级

期刊

多类标号分类类标号关系机器学习互信息数据挖掘multi-label classificationlabel correlationsmachine

基于图的同义词集自动获取方法

与本文相关的学术论文