中文网页形式自动分类

来源 :中国中文信息学会,沈阳航空工业学院 | 被引量 : 0次 | 上传用户：laiyongxuan

【摘要】

：

传统的网页分类大都基于内容,这种方式采用字词特征项匹配的方法,没有考虑网页的结构信息.为了充分挖掘网页的结构特征,本文提出了网页按形式分类的机制.以往关于形式分类的研究大都基于普通文本,但是网页文本不同于普通文本,它具有URL和HTML标签等对网页结构有较大影响的特征.本文从URL和网页的HTML标签中提取特征,并借用了普通文本形式分类中使用的部分特征项作为网页形式分类的特征集合,最后使用SVM分

【作者】

：

董静林鸿飞杨志豪

【机构】

：

大连理工大学计算科学与工程系,大连,116024

【出处】

：

中国中文信息学会,沈阳航空工业学院

【发表日期】

：

2006年11期

【关键词】

：

自动形式分类特征提取 HTML标签中文网页网页分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

汉语方言的南北区分

本文对汉语方言的分区进行了探讨。文章围绕分类的层级性、北方方言和官话、秦晋方言和晋语、秦晋方言和中原官话、南北差异、方言地理学和方言类型的考察等进行了论述。

会议

汉语方言方言分区地理语言学

从汉藏对音材料看古汉语声调的构拟

本文对古汉语声调的构拟进行了研究。文章认为，原始汉藏语里，阴声韵和人声韵同属一个超音位，两者是形态变换的关系，所以在变调别义的时候，它的语音记号特别着重，韵尾一直保留到唐朝。

会议

古代藏语上古语音汉语声调

佤语的音节搭配律

佤语音节的配合规律是佤语的特点之一,对它的研究可以使我们更进一步了解佤语的结构特点及发展规律。本文阐述了瓦语的音节配合的模式，分析了音节配合规律对构词的影响。

会议

民族语言瓦语发音音节结构

苗瑶语声调的分化、合并与裂变

本文对苗瑶语声调的变化进行了分析。文章围绕苗瑶语声调的分化、苗瑶语声调的合并、苗瑶语声调的裂变等进行了论述。

会议

民族语言苗瑶语声调声调裂变

南宁市白话声母系统与普通话、中古音声母系统的比较研究

本文对南宁市白话声母系统与普通话、中古音声母系统进行了比较研究。文章介绍了南宁市白话的发音特点，阐述了南宁市白话声母系统与普通话、中古音声母系统的对应关系。

会议

民族语言壮语发音南宁白话

他留话的语音及其特点

本文对云南他留话的语音及其特点进行了分析。文章介绍了他留话的声母、韵母、声调及音节结构，并在此基础上，通过和彝语支、缅语支，以及与彝语诸方言的比较，认为他留话与彝语支语言，尤其与巍山彝语的关系是非常接近。

会议

民族语言他留话巍山彝语

藏语拉萨话语音声学参数数据库(多媒体光盘)介绍

本文对藏语拉萨话语音声学参数数据库进行了介绍。文章围绕语音的标注符号、语音声学参数数据库结构和特征选择、语音采样数据、数据库文本集等进行了论述。

会议

拉萨话语音语音数据库数据库结构

基于条件随机域的中文命名实体识别

本文基于条件随机域模型处理中文命名实体中的人名、地名、组织机构名识别,综合利用外部特征,研究了字一级包括外国译名在内的中文人名、地名、简单组织机构名的识别,采用了利用互信息获取外部统计词典并建立外部特征的方法.初步实验结果表明,外部特征的加入可以弥补训练规模的不足、显著提高识别效果.

会议

中文命名实体识别条件随机域统计词典

基于机器学习的分词不一致自动识别研究

分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键.本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串.我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22％和83.13％.

会议

分词自动识别机器学习

基于非连续短语的统计翻译模型

本文给出了基于非连续短语的统计翻译方法,翻译的基本单元从连续短语扩展到带有间隔的非连续短语,这种方法可以更好地解决句子中词语翻译时的上下文依赖问题.在形式上,非连续短语方法和层次型短语方法相似,不同之处在于前者只允许包含一个非终结符的短语(如turn on),因此,非连续短语方法抽取的短语数量较少,搜索效率也得到提高.初步实验表明,非连续短语方法的翻译结果是令人满意的.

会议

非连续短语统计机器翻译短语模型

中文网页形式自动分类

与本文相关的学术论文