【摘 要】
:
百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的
【机 构】
:
北京大学计算语言学教育部重点实验室
【基金项目】
:
国家自然科学基金资助项目(60973053 91024009), 博士点基金项目(20090001110047)
论文部分内容阅读
百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的基于图模型的半指导方法。利用百度百科中词条间的相关关系和开放分类,该文使用不同的准则计算词条间的相似度,结合词条和分类的关联性,分类与分类之间的关联性,使用标记传播算法,在130万个词条上进行了品牌名称的挖掘,取得了较好地效果。
其他文献
水族文字被称为水书。为了满足水书研究者和出版业界的需要,设计了水字字符集的Unicode编码,利用字体制作软件建立了水字TrueType字库。该文提出了一种基于笔形特征的编码方法,
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高
该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本
在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字(R)的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义