网页信息抽取及其自动文本分类的实现

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:lzhonline276
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。
其他文献
《磁共振成像》杂志(Chinese Journal of Magnetic Resonance Imaging,ISSN 1674-8034,CN 11-5902/R),是由中华人民共和国国家卫生健康委员会主管、中国医院协会和首都医科大
介绍了自动提取数字河网的常用方法和不足,阐述了利用DEM和DRLN(digital river and lake network)的改进算法的基本思路。基于全球陆地一公里基础高程GLOBE数据,利用遥感影像获得的自然流域水系矢量数据对DEM进行重新处理,自动提取了汉江流域的数字河网,能够有效避免了原始DEM可能造成的错误。最后,利用ArcHydro工具构建了具有拓扑关系的水文网络,从而为进一步开展
患者男,31岁,3年前无明显诱因出现双侧鼻塞且呈持续性,伴有头痛、嗅觉下降及记忆力下降。1年前开始出现夜间鼻出血,量不详,次数逐渐增多。病来无面部麻木,无牙齿疼痛。近来无
2004年3月,新疆生产建设兵团植物药资源与中药现代化重点实验室被新疆生产建设兵团(以下简称兵团)科技局批准为省级重点实验室。该实验室管理单位是兵团,依托单位是石河子大学
随着全球化竞争的日趋激烈.当代企业必须更加灵活、有效地生产用户所需的产品,而在产品设计中.缺乏对产品功能设计的描述,这就限制了产品的知识表达、传播、共享。文中从产品知识
患者女,44岁,因腹痛腹胀10 d就诊,实验室检查:CA125明显升高(128.98 U/mL),降钙素原明显升高(0.231 ng/mL),血沉明显升高(42 mm/h),胃蛋白酶原I减低(49.1 ng/mL);骨髓穿刺:粒
目的探讨磁共振体素内不相干运动(intravoxel incoherent motion,IVIM)与扩散加权成像(diffusion weighted imaging,DWI)对局部晚期宫颈癌同步放化疗近期疗效的评估及预测价
从膜脂相变、膜透性及稳定性、活性氧自由基、保护酶系、质膜蛋白等方面概述了温度胁迫下果树膜系统的变化,同时提出了提高膜系统抗性和修复能力的措施.
目的探讨磁共振增强成像(contrast-enhanced magnetic resonance imaging,CEMRI)联合扩散加权成像(diffusion weighted imaging,DWI)在不典型肝脓肿及肝脏转移瘤诊断中的诊断
<正>~~
期刊