Using Knowledge from Wikipedia to Improve Document Classification

来源 :东南大学 | 被引量 : 0次 | 上传用户:czyangcdut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着维基百科的普及不断壮大,如今它已经在全球所有的网络流量中排名第五。与此同时,维基百科的普及也让web用户寻找任何主题的信息都变得十分迅速和便捷。本文旨在研究如何利用维基百科的知识来提升和改善文档分类技术。在查阅大量文献的基础上,对维基百科的细节及其对文本分类的影响做了深入而全面的探讨。本文提出了一种利用维基百科的语义知识来扩充文档的词袋表示的方法。通过对已有方法的总结与对比,本文得到以下初步结论:文件分类的性能可以使用维基百科得以改善,算法模型是影响文档分类效果的重要因素,以及当前基于位置的文档分类是行之有效的。最后可以看到,虽然本文提出的方法还有待更加深入的评估,但是该方法在一定程度上能够打破词袋模型在短文本文档中的局限性。
其他文献
随着电信业务的快速发展,电信管理网络规模日渐扩大,管理日趋复杂,网络管理软件的开发也日趋复杂。随着软件工程体系的不断规范化和标准化,对软件质量的要求越来越高,软件测试作为
数据挖掘是从大量的、随机的数据中,提取潜在有用的信息和知识的过程。贝叶斯网络起源于贝叶斯统计学,是一种图型化的模型,能够图形化地表示一组变量之间的联合概率分布函数。近
经济全球化与全球信息化为中国制造业带来了前所未有的机遇和挑战,以信息化带动工业化是我国的一个宏观决策,只有依靠信息技术改造传统企业,才能使我国相对落后的制造业的得到跨
随着Web信息的迅速扩展,各项基于Web的信息服务也逐渐繁荣起来。作为Web信息服务的重要组成部分之一,搜索引擎已成为人们访问互联网的重要工具。用户不仅希望搜索引擎能返回与
由于游戏开发对用户体验的要求,如何更好地绘制场景以及如何使场景和用户更好地进行交互一直是游戏设计开发最关心的两个问题。本文对这两个问题进行了研究,并且通过两项关键技
随着数值模拟在科学计算和工程应用中的地位突出及普遍使用,许多行业及领域对数值模拟的软件应用和开发都产生了强烈的需求,而线性系统的求解方法是数值模拟的核心。由于不同的
随着云计算的普及,更多的企业和个人选择将数据的存储和计算外包给云服务提供商。但是这带来两方面的问题,一方面云服务器的不完全可信会给外包数据带来安全隐患。另一方面是如
图像适配显示,是指通过对图像做适当的处理,以使其能够在不同的尺寸或长宽比下适当的显示的技术。随着多媒体技术的发展,诸如手机、PDA等移动设备成为了数字图像的重要媒介,图像
无线局域网由于使用无线电波作为载体在空中传送数据,比有线网络更容易遭到攻击,无线局域网的安全性问题也更严峻。最初的安全性解决方案没有对无线局域网的安全性起到很好的
本文以简单手绘草图设计为背景,以解决草图理解中的歧异性和模糊性为目标,对草图理解系统功能构架、学习方法的选择,草图输入交互设计等方面进行了初步的研究和实验。我们提