基于N元汉字串模型的文本表示和实时分类的研究与实现

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:shingang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征
其他文献
在全党兴起学习贯彻“三个代表”重要思想新高潮的时刻,重温党的思想理论建设与时俱进的历史进程,对于我们在全面建设小康社会的新时期,高举旗帜,乘势前进,用“三个代表”重
期刊
解码是统计学自然语言翻译系统的重要一步,解码器的任务是用从训练文本中学习到的语言/翻译模型的信息来确定源句子最可能的翻译句子,解码器的输入是翻译模型和语言模型,以及源语
在小学语文学习中,语言文字运用是学习语文的重点。教师要在课堂上强化语言文字运用,提高学生的语言感悟及运用能力,提升学生的语文综合素养。
从GIS和ERP各自功能特点讨论了将GIS集成到ERP中的可行性,GIS能够弥补ERP在描述空间位置及基于空间位置上进行统计分析的不足。最后以某公司的GIS-ERP为例,介绍了如何将GIS与ERP进行有效集成,并重点论述了如何实现空间数据和统计数据的集成。
祖花已作为切花栽培了数十年.从二十世纪八十年代中期开始,安祖花作为盆花迅速地流行起来,是许多观叶生产商流行生产的一个产品.安祖花相对容易栽培,有着美丽的叶片,在适宜的
在实现专有应用协议(含表示层,应用层)时,应用协议的编码规则遵从于ASN.1或与之类似.而应用报文的编解码传统实现方案众多但效率却各有优劣.这里提出了一种通用的面向对象化
创建文明社区,要抓的工作很多,概括地讲,主要应抓好以下五项工作: 一、抓教育。创建文明社区活动是一项长期的根本性的任务,当前特别要着力改变社区思想政治工作薄弱的状况,
期刊
朋友,您可知道什么样的企业是健康长寿的,什么样的企业是病态危险的?这里,我们献给您一个科学方法,这就是河南许继集团发现的"四条死亡线"。它反映了企业的内在规律。"四条死
期刊
在语文课堂中,朗读占有重要地位。扎实有效的朗读指导对于孩子的语感培养有着重要作用。本文从课内阅读和课外阅读两方面出发,挖掘如何扎实有效地进行朗读教学,在教朗读时如
近三年来,崇仁街工委中心组理论学习坚持以我国改革开放和现代化建设的实际问题为中心,树立和发扬好的学风,不断改进学习方法,紧密结合全街工作实际开展理论学习和研讨,做到
期刊