基于结构和文本特征的网页分类技术研究

来源 :中国科学技术大学学报 | 被引量 : 0次 | 上传用户:sst3562008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.
其他文献
文章采用问卷调查、重要表现程度分析等研究方法,选取17个观测变量进行游客满意度研究分析,通过问卷调查收集相关的数据,进而运用分析模型对数据进行研究分析,明确了游客满意
为了避免在图像去噪时对非噪声点产生运算,更好地保护图像边缘细节,针对彩色图像设计了一种椒盐噪点检测方法.首先,将图像中的每个像素点作为待检测点,对待检测点及其左侧相
采用文献分析法,找出清末与民国后期四川使用较广泛的教科书,对比研究二者的不同之处,包括内容的呈现、概念的表述、例子的选择的特点.通过其与《复兴初级中学教科书》的对比
许多画家、书家写了一辈子的字,画了一辈子的画,就是缺少一点真正属于自己的东西,跟着别人后面邯郸学步,终因自己的底气不足,学识浅薄以及自己的无所适从而逼使自己重新回到
以淮北矿区为研究区域,采集了311个土壤样品,测定了Cr,Ni,Cu,Zn,Pb,As的含量,研究重金属的空间分布特征,同时对土壤重金属进行环境评价.结果表明,研究区土壤中6种重金属存在
拓扑相是一类不能由经典朗道对称破缺理论描述的奇特物质态.这种态具有一些有趣的性质,如依赖于拓扑流形的基态简并度、准粒子分数统计和拓扑纠缠熵等.拓扑相的性质研究在凝
潜藏叙事自唐代在唐传奇中出现雏形后,逐渐随着时间的推移而成熟。及到明清时期,章回小说大量出现,随着文本数量的增加,潜藏叙事方法在使用频度和使用范围上都出现了增长与扩
睡虎地秦简中有《除弟子律》,学界关于“弟子”这一特殊身份群体研究的材料多集中于《睡虎地秦墓竹简》。近来上海辞书出版社出版的《岳麓书院藏秦简(四)》中“弟子”一词多次
法律价值和基本原则是法的灵魂,立法必须先确立立法价值取向和基本原则。我国民间融资立法价值存在取向不明、各价值间关系不顺等问题,法律原则也没有成为法律规则统领,法律
一、历史对青白瓷的赞誉景德镇宋代所烧制的青白釉瓷,其釉色介于青白二色之间,由于青中有白或白中泛青的釉色,因此称之为青白瓷,一般习惯上还有“影青”、或是“罩青”、“映