基于栏目的藏文网页文本自动分类方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:clarain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。
其他文献
该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本
该文根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用"维吾尔语语音声学参数库",选择了包含鼻音m、n和的单音节以及多音节词,提取它们的声学参数并进行统计
在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字(R)的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义
韶光似水东流去,眼睛一眨又一 年。日脚真是好过,再过不多 久,我们又将握别猴年,迎迓鸡年 了。鸡又该是出风头的辰光;鸡不必 自掏腰包,自会有人为它梳妆打扮, 大做广告;自会
每年春末夏初之际,时时收到家乡的绍兴干菜,在我故乡又称霉干菜,每每打开包裹,霉干菜独特馥郁的香气令我沉醉在浓浓的乡风情思之中,悠然自得。笔者祖籍浙江诸暨,离开故土已四
原料:鸡掌肉250克、干尖椒150克。 调料:孜然10克、辣酱10克、花生酱10克、盐及味精少许。 制作:将鸡掌肉加入辣酱、花生酱、盐、味精腌制后入油锅炸至外脆内嫩捞出,加入干尖
“非典”的流行,彻底灭绝了乘着如今的大好春光出国游山玩水的可能,好在上海是个海纳百川的大都市,想要感受正宗的异国风情也并非难事。对小饕而言,不幸中的大幸正在于此。
百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的
要采访谢晋实在不是一件容易的事,这位年逾八旬的国际、国内著名导演,不仅有忙碌的拍片工作,还有频繁的国内外文化艺术交流活动,又有以他名字命名的明星学校、影视学院校长、
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。