维基百科人物属性自动获取方法研究

来源 :第五届全国青年计算语言学研讨会(YWCL 2010) | 被引量 : 0次 | 上传用户:liongliong420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人物属性抽取是人名搜索引擎和社会关系网络构建的重要基础。本文提出了一种从维基百科中自动获取人物属性的方法。该方法利用人物类维基文本现有信息盒中的“人物姓名-属性-值”三元组关系,对给定的每个属性,将人物姓名和属性值标记到维基自由文本中,自动生成带标注的数据集。利用该数据集使用机器学习的方法自动生成模板,通过模板匹配从维基文本中获取更多的属性信息,同时也达到了生成完整的信息盒的目的。 实验证明,该方法可以有效的抽取出人物的属性。
其他文献
明清白话小说融诗词曲赋等韵文于叙事之中,形成了独具特色的多体浑融的小说文体。 以抒情见长的诗词等韵文同时也都具有或强或弱的叙事性.韵文在小说中有着叙述
会议
@@节奏、句式和意境是中国古典诗歌研究中极为重要的三个范畴。节奏是传统诗学中的句法论的研究重点。论诗者普遍著重研究分析单音节和双音节词如何组合成句,从而创
会议
@@如果我们说,迄今为止,陶渊明的文学史地位尚未得到确切的说明,此言一出,恐怕不是被当作非常可怪之论,也难免有众取宠之嫌。对于陶渊明在文学史上的评价,如果从锺嵘《诗
会议
@@本文誉试回溯原典,揭示繁钦以气言音乐之影响,比照曹丕的理解与运用,从而较准确解读其时的文气论,还原历史之一隅;并解读繁钦『潜气内转』之原初意义;进而说明封待曹丕
会议
本文主要介绍了杜克在华学习项目(DSIC)的教学模式,并探讨了该种教学模式在我国当前课程设置大背景下的可应用性和可借鉴性。
会议
由于传统藏语书写中标点符号的特殊性,在藏语句子中如何找到正确的句子边界,是正确识别句子的首要问题。本文通过对藏语法律文本语料的观察,利用规则提出了一个藏语句
会议
随着标签作为web2.0时代一种重要的资源描述方式引起了人们极大的重视。本文主要分析了中文博客网站标签的标注情况,包括标签分类、热门标签、命名实体、网络流行语
会议
事件信息抽取是自然语言处理中一个较新的领域,汉语方面还有很大的研究空间。本文提出了一个以完整突发事件文本为处理对象的事件信息抽取策略。目前语义角色的识别
会议
这篇论文介绍了一个新颖的关键词组提取方法。该方法使用了LDA模型。方法通过LDA模型来获得文档的主题信息,通过将这些信息与其它特征信息整合起来,给短语进行了打分,
会议
本文提出了一种用语义标签、语义指纹来表示关联语义知识的形式化方法,其中语义标签指代语义中的一个知识单元(也即概念),语义指纹是对语义标签所指代概念的描述,由语
会议