基于大规模类别体系的网页分类及在商品分类中的应用研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户：gaolch002

【摘要】

：

近年来，随着互联网信息技术的广泛应用，电子文本不断地快速累积，数量大到难以对它们进行有效地管理与利用。因此，管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用

【作者】

：

陈沧

【机构】

：

扬州大学

【出处】

：

扬州大学

【发表日期】

：

2010年期

【关键词】

：

大规模类别网页分类商品分类电子文本管理信息系统文本分类数据采集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着互联网信息技术的广泛应用，电子文本不断地快速累积，数量大到难以对它们进行有效地管理与利用。因此，管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用自动化的技术快速有效地协助人们对文本文件、网页数据等进行分类已经成均当前信息服务与知识管理方面的重要课题。　　自动分类可以减少人工劳动的工作量，在实际应用中至少可以节省一半以上的人力。对用户而言，自动分类的结果可以视为一种分类提示，这对于减轻人工分析文本、人工文本归类方面的工作有相当大的帮助。本文从商品网页角度切入，主要针对互联网商品数据信息管理领域做了以下几个方面的工作：　　 1、基于大规模类别体系的数据采集工作。网络中的数据量庞大且数据分布相对分散，大部分的网页都没有经过标注，特定领域的信息也不易获取，这就使得在大规模类别体系下，网页分类算法实验数据的组织与评价方式多种多样，而且数据规模都较小，数据集质量也比较差。因此，做好基于大规模类别体系的数据采集工作，形成一个大规模基准数据集会给研究者带来很大帮助。本文提出了一种基于类别分布的采集策略，并在此基础上设计一个大规模采集系统，支持并行方式爬行站点，通过提交一组待采集的网页URL地址开始收集数据。对于特定领域如淘宝网的数据采集，我们针对网站的个性化设置编写符合网站设计的定向爬虫来抓取所需的特定信息。　　 2、基于跨文档关系的网页分类研究。面对大规模类别体系，层次类别研究策略是一个很好的选择。但在文本分类研究中的层次分类研究中多数利用文档自身的词语集合，而忽略了其中文档间的链接关系。本文从文档间的特殊关系，如父子关系、兄弟节点关系等入手，进行大类别数即大规模类别情况下的文本层次分类研究。　　 3、基于层次类别体系的商品分类研究。在电子商务交易中，类别都是按照商品间一个树状层次结构来进行分类的。在进行商品分类研究时，考虑到商品的特殊特征，比如某些商品根据商品的品牌名称就可以得到其所属的分类类别，即其品牌的特征性区分度很高。基于这一点，我们在研究中准备了一部描述商品品牌的词典供中文分词时调用。另一方面，本文在分类时引入一种“区分式”朴素贝叶斯分类器模型来进行分类。实验证明，基于“区分式”朴素贝叶斯分类模型的分类效果要比标准贝叶斯分类模型效果好。

其他文献

生如夏花之绚烂

“Let life be beautiful like summer flowers and Death like autumn leaves”,这是印度大诗人诺贝尔奖获得者泰戈尔的诗句,我国著名翻译家郑振铎先生把它翻译成“使生如夏

期刊

中国因素引领全球股市大跌？

方明　　经济学博士　　中国银行全球金融市场部高级分析师　　　　2月27日,星期二,中国股市大跌,全球主要股指也大幅下挫当日,中国上证综指下跌8.84%;恒生指数下跌1.76%;日经指数下跌0.52%;道琼斯工业平均指数标普500指数和纳斯达克综合指数分别下跌了3.29%3.47%和3.86%;法国CAC-40指数德国DAX指数和英国富时100指数分别下跌了3.02%2.96%和2.31%这自然使

期刊

全球股市大跌日经指数股指上证综指指数和恒生套利交易中国概念股股灾台湾加权指数

岁月如风,往事如茶

岁月的风,千百年来依旧是那汉时的风,如风的岁月,逶迤着千山万水,在迢迢的来路上,谱写了大好的流年.rn流年婉转中的日月星辰,在历史的长河里熠熠生辉.当然,也有无法言说的缺

期刊

我的园子

身在喧嚣的闹市,总想有个心灵栖息的地方.rn我梦想自己有个园子.rn园子不用太大,哪怕只有十几平方米.春耕时节,我将它好好打理,种上一片草,种上一点花,待到四五月,花开草绿,

期刊

证券市场投资者情绪及其影响效应研究

投资者情绪在证券市场中具有重要的影响作用,本文以投资者情绪为研究主题,探讨如何测度投资者情绪,投资者情绪对于证券价格产生了何种影响效应,以及这种价格影响效应如何通过

学位

投资者情绪股票收益盈余公告上市公司投资行为证券市场

基于ARM的油井无线监测系统的设计与实现

随着国家对石油能源的重视,电子技术和通信技术在石油开采监测中的应用日益广泛。提出了一种基于ARM的油井无线网络监测系统,通过无线网络将采集到的图像数据发送到远端图像

期刊

无线监测系统ARMVideo4 Linux采集终端远端设备Web操作系统平台文件系统石油开采网络监测系统

石化项目的可行性研究——以表活剂项目为例

本文利用可行性研究的基本理论、基本方法，以石油三采专用表活剂项目的可行性问题为例，在环境保护，安全卫生，消防节能，等诸多方面进行了可行性研究和探讨，通过对石油产业发展状况、

学位

项目管理可行性研究投资决策石油项目

我来了,你还在,真好

春天的时候,随便在阳台的花盆里洒了一些青菜的种子,没过两天,嫩绿的小菜苗便破土而出,生机一片.旁边的茉莉枯枝开始泛青,刚绽放的绿叶迫不及待地和阳光暗送秋波.遇见春天,好

期刊

新农村大戏农民为何当不上主角——《福建日报》“三农报道”版面编排体会

有关维护农民权益的文章难找到最近,为了汇编、出版有关“三农报道”的读物,笔者对《福建日报》《三农调查》栏目的往期文章作了搜集、整理。为方便阅读,该书大约分成“决策

期刊

三农福建日报版面编排何当农民权益主角大戏汇编报道主体《农民日报》

在凤凰山,赴约一场心灵的旅行

凤凰山,一座充满灵气的山,诗意地坐落于深圳西部.在一个春暖花开的季节里,我怀着期待的心,从北方远道而来,用一种仰望的姿态,从山脚的石板路拾阶而上,踏着时光的痕迹,一步步

期刊

基于大规模类别体系的网页分类及在商品分类中的应用研究

与本文相关的学术论文