独立于语种的文本分类方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:amoyzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了特征选择和大量预处理过程。我们系统地研究了模型中的关键因素以及它们对分类结果的影响,并详细介绍了评价方法。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。
其他文献
随着网络应用的不断发展、安全设备的类型和数量的不断增多,造成了安全资源描述形式各式各样,使得网络安全管理工作越来越复杂。本文提出了一套建设安全集中管理中心时如何屏
本文介绍了一个基于Lotus Notes/Domino的Intranet网络系统的设计与实现,着重探讨了在建立Intranet网络系统的过程中所应考虑的各种因素,对网络的规划设计和系统软,硬件和选择做了比较详细的说明,为建立同类型的网
19世纪初,在英国的约克郡,红、绿装分别代表女性的不同身份,着红装的女人表示已婚,着绿装的女人则表示未婚。当时,伦敦议会大厦前经常发生马车轧人的事故,于是人们受到女士红
期刊
在使用保留IP地址的Intranet与Internet互连时,经常是通过安装路由器或代理服务器来实现。Internet用户要访问Intranet主机,要渗透防火墙才能进行连接。文章主要介绍如何在Liun
目前已应用的TOE网卡是一次拷贝传输,没有实现零拷贝。RDMA技术可以实现零拷贝,但它需要全新编程接口且只能与对等网卡通信。本文介绍了一种面向TCP/IP卸载、由网络协议栈完成本
《机械基础》课程是从生产实践中发展起来、又直接为生产实践服务的学科。因此它是一门与生产实践联系紧密的课程,在教学中有意识地引导学生理论联系实际,可以取得事半功倍的效果。因此,教好这门课程的关键在于培养学生各方面的能力以及理论联系实践的能力。  一、善用适当教学方法,发掘学生自主潜能  《机械基础》是一门理论联系实际的学科,教师一定要处理好理论教学与实践教学的关系,使学生既能学到机械基础理论知识,又
本文简要描述了MPEG-1视频编码,解压模型,分析了MPEG-1比特流特点,讨论了基于PC的MPEG解压的主要问题,用C语言实现了一种从硬盘播放MPEG文件的软件压程序并重点讨论了MPEG-
Q:田先生是一家证券公司职员。公司有一项特别的制度,即每月进行目标管理分数考评,如果全年考评总成绩倒数第一,将被公司解聘。而且这一规定是经过公司高层会议专门决定并写入
中国是一个语言及其丰富的国家,除了使用人口占汉族总人口73%的北方方言外,还有其他许多地方方言。其中以江浙一带流行的吴方言使用人口最多,占汉族总人口的7.2%。其次是闽方
期刊
Q:我是一家热电公司职工。5年前,公司与我们一批职工签订的劳动合同早已到期,可公司迟迟未与我们续签合同。有人找到工会也没有个正式说法。听人说,若是中断一段时间,将来会影响我