基于DIV标签分段的藏文网页正文提取研究

来源 :西藏大学学报 | 被引量 : 0次 | 上传用户：dx3386136

【摘要】

：

文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息

【作者】

：

才让叁智赵栋材

【机构】

：

西藏大学藏文信息技术研究中心

【出处】

：

西藏大学学报

【发表日期】

：

2016年2期

【关键词】

：

藏文网页分段正文信息 DIV元素标签 Tibetan webpage paragraphing main body text information DI

【基金项目】

：

2015年度西藏自治区自然科学基金项目“藏文搜索引擎关键技术研究”（项目号：2015ZR-14-9）,2015年度西藏自治区自然科学基金项目“基于逐字匹配的藏文分词技术与未登录词研究”（项目号：2015ZR-14-10）, 2013年度国家自然科学基金重大项目“跨语言社会舆情分析基础理论与关键技术研究”（项目号：61331013）阶段性成果

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。

其他文献

论明朝管理西藏宗教事务的基本经验

明朝中央对西藏宗教事务的管理采取了三项重要措施：一是以都司武卫行使西藏地方军政的管理;二是打破元代只倚重萨迦一派,采取＂多封众建,尚用僧徒＂政策,维持藏区政治分散和教派分

期刊

明中央政府西藏地方宗教事务经验the central government of the Ming Dynasty Tibet religious af

沼肥在种植业上的应用

一、沼肥的形成农村沼气用户将人畜粪便、粉碎的农作物秸秆等有机物质,投入到密封的沼气池内,在厌氧条件下,经过多种微生物发酵作用而产生沼气。沼气燃烧即放出二氧化碳气体,

期刊

沼肥厌氧二氧化碳气体人畜粪便微生物发酵水溶性养分氮素肥料水压间残余物田面

农产品电子商务的“通榆模式”

<正>"十三五"时期是全面建成小康社会的决胜阶段,到2020年要确保农村贫困人口实现脱贫,这无疑是全面建成小康社会最艰巨的任务。我省有15个集中连片特困地区(县),有8个国家扶

期刊

农产品电子商务电子商务发展畜禽产品

白城市洮北区“严把四关”审核干部人事档案

严把政策关,审核从规为据。组织相关人员认真学习＂审核问答＂,编制了《干部人事档案专项审核工作使用手册》,确保执行审核标准统一。建立《专项审核保密制度》《专项审核责任追

期刊

干部人事档案疑点问题审核标准使用手册四关逐行保密制度人文关怀政策法规细化工作

重度难治性褥疮术前及术后护理设计及体会

目的：探讨Ⅲ-Ⅳ度难治性褥疮的护理设计方法及临床护理效果。方法：Ⅲ-Ⅳ度褥疮患者23例，均按照手术前和手术后两个阶段进行分期护理，包括局部创面护理、全身状态护理及指导护理。

期刊

褥疮护理Pressure UlcerNursing

六安市人民医院省级临床医学重点学科数增至7个

日前,安徽省“十二五”临床重点专科建设计划第二批建设项目名单公布,六安市人民医院急诊医学科获批为培育专科建设项目,病理科获批为特色专科建设项目,建设周期为2013-2015

期刊

六安市人民医院临床重点专科医学重点学科省级建设项目数急诊医学特色专科

枇杷新优品并中——冬玉

该品种由江苏省太湖常绿果树技术推广中心与苏州市吴中区东山镇农林服务站从苏州东山槎湾实生枇杷资源中筛选得到的优株．属中熟枇杷品种，适宜在苏南太湖丘陵地区种植。18年生树

期刊

枇杷品种技术推广常绿果树丘陵地区苏州市服务站吴中区江苏省

高速公路桥梁施工中高墩施工技术应用

随着我国交通业的发展,高速公路桥梁施工逐渐增多。在进行高速公路建设的过程中,已经应用了一些新型的技术和设备,促进了施工技术的发展,因为公路工程的建设不仅关系到区域内

期刊

高速公路桥梁高墩施工技术

巧用实验提高课堂效率

初中生的认知体系处于不断完善的时期，对于世界充满未知的好奇，探索欲望强烈，物理知识作为生活现象的整体总结，更能激发初中生的探索意识。物理实验能够使初中生更加直观地感受到

期刊

巧用实验物理课堂提高效率有效策略

严在细处聚焦中心干在实处聚力大局

2015年以来,通化市各级组织部门和组工干部紧紧围绕＂六个一＂发展布局,按照＂整体推进、抓住重点、特色鲜明、突出创新＂的工作思路,突出全面从严治党这条主线,着眼全局抓谋划、从严

期刊

聚焦组工干部组织部门从严治党组织工作党的建设组织保证转型发展

基于DIV标签分段的藏文网页正文提取研究

与本文相关的学术论文