基于多特征融合的网页正文提取及双语网站探测

被引量 : 0次 | 上传用户:poilkjqwe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,互联网信息规模呈指数级增长,同时互联网海量信息的背后伴随着质量的参差不齐,准确,快速,全面的获取信息变得越来越困难,强大的信息提取能力变得备受关注,信息海量堆积也对信息抽取技术提出了新的机遇与挑战。而随着自然语言处理技术的飞速发展,机器翻译技术在现实生活中的变得越来越实用,有道翻译,Google翻译,百度翻译等相关产品已经成为非专业人士进行外文学习工作的重要工具。双语语料是机器翻译的基础,是机器翻译中训练、测试、分析机器翻译模型的重要数据。双语语料的数量与质量直接关系到机器翻译参数的训练结果,同时很大程度上对后续的机器翻译产品性能产生影响。构建一个质量高、数量大的双语语料库对机器翻译、自然语言处理等问题有巨大的应用价值和学术意义。本文着力于架构并实现一个性能优异、效率高的双语文本抽取系统(此系统是互联网双语语料抓取系统的子系统,不包括爬虫和句子对齐)。本文的主要研究内容包含两个方面:网页正文提取和双语网页探测。本文使用多特征融合技术针对网页正文进行提取,不同于传统生成DOM树的网页处理方法,本文采用基于容器标签的线性化重构方法对网页进行处理,在数据结构上使得需要进行树操作的算法简化到基于线性表的处理,同时通过长度,分词结果,句子数,等多个特征综合判断正文脉络,而后通过基于信息增益的聚类获得网页正文。在双语网页探测方面本文采用基于局部句子锚点搜索的互译率计算对正文得到的双语文本进行互译判断。在此基础上本文计加入了基于命名实体重合度、代词比率等特征的辅助正文判断算法,基于同一网站的大量网页的模板自动生成算法,来提升算法的准确率。本文的网页正文提取和双语网页探测系统达到了目前同领域的顶级水平,本系统及后续处理系统生成中英三千万双语语料并经过了黑龙江省电子信息产品监督检验院软件评测中心的严格检测准确率在95%以上。实验结果也验证了本文提出的多特征融合方法在双语语料挖掘领域的有效性。
其他文献
进入21世纪,我国加入WTO,标志着对外开放的门户实质性打开了,经济得以迅速发展,从而加快了国有企业体制改革和运营模式的战略调整,人力资源结构与流动也全面国际化,社会结构
大气颗粒物中的极性有机物因其较强的吸湿性而对大气能见度、全球气候及人体健康有非常重要的影响。气溶胶中的极性有机物有很多来源,其中二次有机气溶胶(SOA)和生物质燃烧是其
明代是我国封建社会的后期,制度相当完善。研究明代文学,当措意其制度。君主专制之下,明王朝强化对知识分子的控制,要求士夫为君所用,传统儒家观念士人也以从仕作为人生价值
中国传统文化中的和合理念,早在诸子百家中就推崇备至。在21世纪经济全球化的背景下,古老的和合文化可以化解人类社会的五大冲突和危机;可以对市场经济中的商道以指导。
全球气候变化已经成为政界、商界、科学界共同关注的重要问题之一。减少二氧化碳排放、发展低碳经济成为世界各国的共识和必然选择。我国已超越美国成为第一大二氧化碳排放国
加氢反应器是石化行业中的关键设备,其安全运行至关重要。加氢反应器钢在长期服役过程后会产生氢脆及回火脆,导致材料韧性变差,因此需考虑防止加氢反应器的脆断失效。目前,加
航空航天工业上广泛应用的6-8wt.%Y2O3部分稳定的ZrO2(6-8YSZ)热障涂层陶瓷材料仅能稳定工作于1200℃以下的环境中,当工作温度超过1200℃时,6-8YSZ陶瓷材料容易发生相变,相变伴随
秦鹏章先生是我国民族乐坛资深前辈,民乐指挥家、作曲家、理论家,更是一位演奏艺龄长达60余年的著名琵琶演奏家和单簧管演奏家。为此,中央民族乐团和中国民族管弦乐学会于近日在京
新一代测序数据的出现和其惊人的进步,为发展生物信息学研究方法,在全基因组中预测基因的启动子区域及转录因子结合位点,从而更好地阐明和理解基因转录调控机制奠定了基础。基因
现有的无线频谱分配方案导致频谱使用率与日益增加的无线通信业务量之间产生了巨大的矛盾,而认知无线电则是解决该矛盾的核心技术。认知无线电用户通过智能感知周围电磁频谱环