中文网站抓取及编码转换研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:xingyu9404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在分析GB2312、GBK、GB18030、Big5、UTF-8等中文字符编码特征的基础上,重点研究了网页文件的中文字符编码识别技术。通过对比不同的文本特征(布尔权重、词频权重、词频倒文档频权重)和机器学习方法(多元线性回归、朴素贝叶斯、K临近算法、支持向量机),提出了一种综合应用中文字符编码规则和网页文本特征的中文字符编码识别模型。该模型对于有着严格编码规则的UTF-8编码,按照其编码规则来判断。对于码位空间重合的GB系列和Big5编码采用网页文本特征来识别。试验表明,该模型在阈值(属于UTF-8编码的字符数比总字符数)等于1时,对UTF-8编码识别率为100%。特征值个数大于65个时,四种机器学习方法对GB系列和Big5编码识别率均为100%。为了实现农业垂直搜索引擎中中文统一编码的任务,本研究设计开发了农业网页中文字符编码自动识别和各类编码转换为UTF-8编码的通用模块。该模块以网络爬虫下载的网页为输入参数,首先抽取其中的中文,再根据编码规则判断是否采用UTF-8编码。若不是UTF-8编码,则根据实验得到的特征值,采用布尔权重和多元线性回归算法判断编码是GB系列编码还是Big5编码。最后采用iconv函数将网页统一转为UTF-8编码。
其他文献
本论文在综述了磁控溅射、薄膜表面浸润性以及钛的氧化物薄膜材料的研究进展的基础上,确定了以中频交流磁控溅射技术结合退火、水热后处理等方法制备TiOx薄膜的研究方向。系统
本文通过对荣华二采区10
期刊
耕地是农业生产的重要物质基础。党中央和国务院一直保持着对农田基本建设的高度重视。最近几年来,国家出台了多项支持政策,投入了大量资金,农田基础设施不断地改善,农业综合生产
随着经济与社会的快速发展,我国城市用地日趋紧张,房屋规划建设对地下空间的需求随之不断提升.基于此,本文将简单分析基坑被动土加固的原理,并结合某软土地区建筑工程,围绕深
近年来,随着经济建设的发展以及城市化进程的推进,使得建筑行业成为当前热门行业之一,在建筑行业快速发展的情况下人们高度重视建筑质量问题,由于受到施工技术,条件等多种因
摘 要:深化教学改革,构建良好的教学形态,是核心素养下初中英语教学发展的重要内容。本文立足核心素养,从教与学两个维度空间,就初中英语写作教学的有效构建提出了几点建议,旨在推动初中英语写作教学对核心素养的实践。  关键词:初中英语;核心素养;写作教学  随着新课改的不断推进,初中英语教学环境发生了巨大变化,以核心素养为导向的英语教学构建,着力于教与学两个维度的有效生成。初中英语核心素养包括语言能力、
本文结合笔者在广东汕头某工程实践中的经验,分析了沿海软土地区岩土工程中的常见问题,并提出了砂井排水、塑料排水板法以及水泥搅拌桩法这些该地区岩土工程的问题处理对策.
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
GaN系列材料作为第三代宽禁带半导体材料的代表,有着广阔的应用前景,特别是蓝、绿光以及紫外波段的新一代光电子器件,包括发光二极管,激光器和探测器这三种光电子器件,以及白光照
学位
如今我国在房建工程施工过程中防渗透技术以及取得了不错的成就.但是即使是在新时代发展背景下,房建工程防渗漏技术还是存在着一些问题.因此为了能够进一步强化我国房建工程