基于中文维基百科的文本扩充

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lm4194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科条目解释页面的内部链接将维基百科中的一个个条目有机联系起来,使得维基百科中的知识不再是无结构的独立页面,也使得读者无需重新在维基百科中检索即可方便地浏览与当前条目相关的其他知识。维基百科内部链接所起到的作用以及志愿者添加内部链接的过程,给了我们一定的启发:普通中文文本也可以添加类似的指向维基百科页面的超链接,一方面,这些超链接所指向的维基百科条目页面能够辅助用户理解当前文本,增加阅读的乐趣,另一方面,这些超链接的锚文本能在一定程度上代表当前文本的主题,可以作为当前文本的关键词,而文本的关键词在自然语言处理的其他领域有着很重要的作用。   基于中文维基百科的文本扩充是指利用中文维基百科对普通文本进行分析,抽取出其中的关键词,并进行词义消歧,最终添加指向维基百科条目页面的链接来达到文本扩充的目的。这一过程中主要的工作和特色是充分利用了中文维基百科来辅助本文的研究工作,具体体现在如下四个方面:   第一,从维基百科中获得词表,辅助关键词抽取的过程。关键词抽取过程中使用基于正向最大匹配算法的分词工具来进行分词,其中分词工具的词库来源于三个方面:中文维基百科的条目列表、中文维基百科条目解释页面内部链接的锚文本列表、搜狗互联网词库。经过分词之后,再从分词结果中挑选出出现在前两个分词词库中的词语作为候选关键词。   第二,将维基百科作为一个大型的半标注的语义知识库来辅助选择最终的关键词和多义词消歧义的过程。维基百科中的内部链接和开放分类信息蕴涵了丰富的语义知识,我们利用这两个资源来对候选关键词进行评估,以及对歧义词进行消歧。   第三,将维基百科中的条目解释页面作为文本扩充后超链接的目标指向。文本经过本文的关键词抽取和歧义词消歧义之后,通过添加适当的html标签使其中的关键词成为指向维基百科的超链接。   最后,将维基百科作为测试语料。为了验证本文关键词抽取和词义消歧的效果,我们从维基百科中挑选了一定数目的条目文章作为测试集,通过与人工标注的维基百科条目文章进行比对发现,本文的关键词抽取和词义消歧均能达到较好的效果。     
其他文献
随着全球化的快速发展,社会的竞争也越来越大,人们需要不断地扩充自己的知识,提高自己的技能来适应这个日新月异的世界,因此,在这样一个学习型的社会背景下,远程学习平台的发
随着科学技术的快速发展,新型的人机交互(Human Machine Interaction, HMI)技术逐渐成为当前计算机科学领域的研究热点。语音情感识别的研究对于增强计算机的人性化和智能化,
作为数据挖掘技术的一个重要分支,聚类分析是数据挖掘中一种非常重要的挖掘方法。它主要研究数据之间的物理或逻辑关系,通过一组特定的规则把数据集划分成为若干个由性质相似
多机器人系统作为一种人工系统,实际上是对自然界和人类社会中群体系统的一种模拟。多机器人协作与控制研究的基本思想就是将多机器人系统看作是一个群体或一个社会,从组织和
随着科技的进步,网络技术的不断发展,地理信息系统也逐渐应用到各个方面并渗入到人们的日常生活当中。针对各阶层用户提供一种基于自然语言的地理信息系统查询接口具有广阔的
随着信息技术和互联网、物联网、嵌入式等技术的发展,计算模式逐渐向普适计算模式演变,与此相对应的上下文感知技术成为国内外的研究热点,并取得许多重大成果。目前,一些成熟
RFID是Radio Frequency Identification的英文缩写,其中文名称是射频识别技术,它是应用无线电波自动识别单个物品的技术总称。在物联网中,启动RFID系统后,首先发出读取请求命
1995年,Cortes和Vapnik首先提出了支持向量机(SVM)理论,它是结构风险化准则的具体实现,且具有结构简单、全局最优以及泛化能力强的优点,特别是在解决小样本、非线性和高维模
为了实现运用机械臂的计算机书法创作模拟,本文首先介绍了计算机创作的符合隶书风格的书法字作品。然后,对创作出书法作品的骨架和笔划进行参数化,为进行机械臂书写提供控制
当今,各行各业都在使用不同样式的软件,这些软件的种类、规模以及复杂度都在一定的程度上不断地增大,这直接导致了软件发生错误的概率增大,软件出现的错误可能引发巨大的损失,有时