【摘 要】
:
互联网的发展使得数据和信息呈现海量特征,文本分类作为处理和组织大量文本信息的关键方法,可以方便人们准确的找到自己需要的知识。传统的文本分类方法基本都是处理普通文本
论文部分内容阅读
互联网的发展使得数据和信息呈现海量特征,文本分类作为处理和组织大量文本信息的关键方法,可以方便人们准确的找到自己需要的知识。传统的文本分类方法基本都是处理普通文本(长文本)分类,而短文本在现实世界中也是大量存在的,如web搜索片段、论坛和聊天信息、新闻供稿、书及电影的摘要、产品介绍与用户评语等。常用的短文本分类方法均是采用相似性度量或基于web核函数的方法,虽然都能达到一定的精确度,但是由于短文本的特征向量少而导致矩阵的稀疏性,故分类的效果并未达到满意的精度。随着短文本信息的爆炸式增长,短文本中所包含的隐含信息也越来越丰富,而人们对短文本中的隐含信息也越来越感兴趣,但短文本向量的稀疏性的特点加大了研究的难度,从而使得对短文本分类的要求越来越高。因此,短文本分类是文本分类中非常棘手问题,也是研究的热点问题之一。本文提出了一种基于本体的短文本分类研究的技术框架,重点研究如何将稀疏性的文本文档进行有效的信息补充,从而更好的进行短文本分类,并从中挖掘出有价值的信息。难点在于如何将短文本文档进行信息扩充,使其信息量丰富,实验结果表明本文采用的方法能够完成短文本分类,并取得了良好的效果。本体作为知识组织和知识表示的手段之一,其具有良好的概念层次和逻辑推理的支持,能够通过概念之间的关系来表达概念的语义,实现语义上的信息表示,可以很好的应用于短文本分类。而且使用基于本体的短文本分类方法,无须训练样本,可以通过本体获得语义信息并结合相似性计算来实现对短文本的自动分类。该研究具有应用价值和广泛的应用前景。
其他文献
<正> 陆九渊,字子静,江西抚州(今临川县)人,生于宋高宗绍兴九年(一一三九年),死于宋光宗绍熙三年(一一九三年),是“道学”中同“理学”派相对抗的“心学”派代表。他的学说是
<正> 二、农业信贷银行的资金筹措国家农业信贷银行是法国农村的主要信贷银行,是资助农业发展和农村建设的主要承担者,同时,它又是一家独立经营、自求资金平衡的专业性银行。
目的:探讨血清5种肿瘤标志物联合检测在肺癌诊断中的价值。肺癌是最常见的恶性肿瘤之一,在世界范围内男性发病率、病死率均占全部恶性肿瘤的第一位,女性占第二位,且逐年升高
目的:分析肝内胆管细胞癌的诊断、治疗及影响患者术后生存的预后因素,以提高诊治水平。资料与方法:回顾性研究2005.1至2010.1在我院诊治的53例获得随访肝内胆管细胞癌者的诊
目的:探讨综合干预对IGR、T2DM患者机体的氧化应激和抗氧化防御以及胰岛素抵抗水平改善的影响,为临床控制T2DM的病情、降低IGR人群糖尿病发病率提供理论依据。方法:(1)通过口服
2016年8月17日,习近平总书记出席推进“一带一路”建设工作座谈会并发表重要讲话。我们要深刻学习和领会总书记讲话精神,统一思想,提高认识,以总书记重要讲话为遵循,发挥好广
本文指出了黄伯荣、廖旭东版《现代汉语》(简称:黄廖版《现代汉语》)第二册中的标点符号使用不恰当即不统一、缺失、错用三种现象,分析了存在不恰当现象的原因,指出了避免此
以2个茄子品种:红茄和紫长茄的子叶和下胚轴为外植体,探讨了不同生长调节物质对外植体分化的影响和不同品种、不同外植体的分化能力差异,并建立了茄子的高频率离体再生体系。
<正>库尔勒的香梨闻名全国,在这里,记者发现很多东西都与香梨有着密切的联系,就连公交站牌上都写着"梨城公交",可见香梨对于库尔勒的重要性,它似乎已经成为这座城市的代名词
目前,我们在中国推广有机栽培和循环农业.我们在小刘固农场有2500亩地的两个堆肥工厂和两个液肥工厂,免费为当地农民提供液肥和堆肥.同时,我们也从农民处收购农作物,加工后出