基于语句相似度的网页标题抽取方法

来源 :第五届全国青年计算语言学研讨会(YWCL 2010) | 被引量 : 0次 | 上传用户：wanglaow

【摘要】

：

目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取，但是这些方法只考虑到了HTML的统计特点，没有考虑标题与正文信息之间的关系。本文提出一种基于相似度

【作者】

：

李国华昝红英

【机构】

：

郑州大学信息工程学院,河南郑州 450001

【出处】

：

第五届全国青年计算语言学研讨会(YWCL 2010)

【发表日期】

：

2010年期

【关键词】

：

语句相似度网页标题抽取方法信息统计特点特征生成特定规则实验结果权值关系泛化能力非标准 HTML HITS算法模型结构计算标签

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取，但是这些方法只考虑到了HTML的统计特点，没有考虑标题与正文信息之间的关系。本文提出一种基于相似度的网页标题抽取方法，充分利用了网页标题与正文信息之间的关系，通过计算两两“单位”之间的相似度和对应的权值，并引入HITS算法模型对权值进行调整，根据特定的选取方法抽取出真实标题。实验结果表明，该方法不仅对“非标准网页”的抽取达到满意的效果，而且对“标准网页”具有较高的泛化能力。

其他文献

书法家·黄秋实

黑龙江省文联原副主席兼《书法赏评》杂志主编。中国作家协会会员,一级作家。中国书法家协会会员,黑龙江省书法家协会顾问。著有《大自然·生活·我》、 Former chairman of

期刊

书法家协会作家协会会员黄秋实书法作品副主席中国美术馆雪斋挪亚方舟艺术研讨会文艺精品

依存信息在蛋白质关系抽取中的作用

基于核函数的蛋白质关系(PPI)抽取可以捕获结构化句法信息，取得了较高的性能，但计算复杂度过高。本文结合词汇、句法信息，重点探讨了依存信息对基于特征向量的蛋白质关系(PP

会议

句法信息蛋白质关系抽取特征向量PPI性能计算复杂度语料库实验基本短语结构化核函数系统词汇测度捕获

促进风险投资发展的财政政策选择

我国的风险投资业发端于1985年,历经了从无到有、从散乱无序到逐步规范的过程,已经有了较大程度的发展,但同时也应该看到,目前风险投资公司规模过小,实力较弱;资金投入不足,

期刊

风险投资业财政政策选择风险投资公司高新技术产业资金投入科技成果转化率税收激励政策资金来源渠道抵免风险投资基金

警惕食用鱼胆中毒

鱼胆,俗称苦胆,生于鱼腹的上部。它不但味道非常苦,而且多数含有毒性,其毒素虽有药用价值,但人们往往却忽视鱼胆的危害。据研究,鱼胆中含有胆酸、甘胆酸及胆色素和钙盐等成

期刊

鱼胆中毒甘胆酸如黄钙盐草鱼胆汁药用功能人体健康水火烫伤中毒事故阿尔法

LDA主题驱动的中文多文档自动文摘方法

多文档自动文摘能够帮助人们自动、快速地获取信息，本文实现了一个基于主题模型的中文多文档自动文摘系统，其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation，LDA)，

会议

基于流行排序的查询推荐方法

针对传统查询推荐方法中存在的相关性度量问题和冗余性问题，本文中提出了一种新的基于流行排序的查询推荐方法。该方法利用查询数据内在的全局流行结构来获得查询之间的相关性

会议

探寻全球变暖之策

地球气温曾在5500万年前极速攀升,不仅导致海平面升高、海洋酸度增大,还使得一些物种永久消亡,这种全球性变暖现象就是著名的“古新世-始新世极热事件”.不过,这种现象在科学

期刊

气候变化全球气候变暖科学家海洋沉积物热事件解决方案地球气温始新世海平面古新世物种酸度价值成因

题录信息的机器翻译方法

本文针对题录信息中的人名、地址、机构名和公司名的不同特征，分别设计了不同的翻译方法，并依靠词典和翻译规则，实现了大部分内容的翻译。对于人名翻译，本文设计了拼音转换、假名

会议

题录信息翻译方法机构名拼音转换人名翻译公司地址设计翻译流程翻译规则特征实验切分内容假名词典

一种基于认知情景框架的文本分类方法

在文本分类领域，常用的特征选择方法(如文档频率)是基于概率统计信息的。本文从一个全新的角度，即基于认知情境的语义框架的角度进行特征选择，这种方法可以较准确地抓住文本类别

会议

认知情境语义框架文本分类方法特征选择选择方法文档频率统计信息角度基于概率机器学习分类效率分类精度促进作用最大熵召回率类实验分类器

基于动态流通语料库的连词考察

连词使用范围报广，越来越受到语言学研究的重视，同时也是语言教学中的重要一环。已有的连词研究多是定性的对连词范围、功能、用法的研究和探讨。本文在国家语言资源监测与研究

会议

基于语句相似度的网页标题抽取方法

与本文相关的学术论文