论文部分内容阅读
随着维基百科的普及不断壮大,如今它已经在全球所有的网络流量中排名第五。与此同时,维基百科的普及也让web用户寻找任何主题的信息都变得十分迅速和便捷。本文旨在研究如何利用维基百科的知识来提升和改善文档分类技术。在查阅大量文献的基础上,对维基百科的细节及其对文本分类的影响做了深入而全面的探讨。本文提出了一种利用维基百科的语义知识来扩充文档的词袋表示的方法。通过对已有方法的总结与对比,本文得到以下初步结论:文件分类的性能可以使用维基百科得以改善,算法模型是影响文档分类效果的重要因素,以及当前基于位置的文档分类是行之有效的。最后可以看到,虽然本文提出的方法还有待更加深入的评估,但是该方法在一定程度上能够打破词袋模型在短文本文档中的局限性。