论文部分内容阅读
维基百科条目解释页面的内部链接将维基百科中的一个个条目有机联系起来,使得维基百科中的知识不再是无结构的独立页面,也使得读者无需重新在维基百科中检索即可方便地浏览与当前条目相关的其他知识。维基百科内部链接所起到的作用以及志愿者添加内部链接的过程,给了我们一定的启发:普通中文文本也可以添加类似的指向维基百科页面的超链接,一方面,这些超链接所指向的维基百科条目页面能够辅助用户理解当前文本,增加阅读的乐趣,另一方面,这些超链接的锚文本能在一定程度上代表当前文本的主题,可以作为当前文本的关键词,而文本的关键词在自然语言处理的其他领域有着很重要的作用。
基于中文维基百科的文本扩充是指利用中文维基百科对普通文本进行分析,抽取出其中的关键词,并进行词义消歧,最终添加指向维基百科条目页面的链接来达到文本扩充的目的。这一过程中主要的工作和特色是充分利用了中文维基百科来辅助本文的研究工作,具体体现在如下四个方面:
第一,从维基百科中获得词表,辅助关键词抽取的过程。关键词抽取过程中使用基于正向最大匹配算法的分词工具来进行分词,其中分词工具的词库来源于三个方面:中文维基百科的条目列表、中文维基百科条目解释页面内部链接的锚文本列表、搜狗互联网词库。经过分词之后,再从分词结果中挑选出出现在前两个分词词库中的词语作为候选关键词。
第二,将维基百科作为一个大型的半标注的语义知识库来辅助选择最终的关键词和多义词消歧义的过程。维基百科中的内部链接和开放分类信息蕴涵了丰富的语义知识,我们利用这两个资源来对候选关键词进行评估,以及对歧义词进行消歧。
第三,将维基百科中的条目解释页面作为文本扩充后超链接的目标指向。文本经过本文的关键词抽取和歧义词消歧义之后,通过添加适当的html标签使其中的关键词成为指向维基百科的超链接。
最后,将维基百科作为测试语料。为了验证本文关键词抽取和词义消歧的效果,我们从维基百科中挑选了一定数目的条目文章作为测试集,通过与人工标注的维基百科条目文章进行比对发现,本文的关键词抽取和词义消歧均能达到较好的效果。