论文部分内容阅读
近年来,随着互联网信息技术的广泛应用,电子文本不断地快速累积,数量大到难以对它们进行有效地管理与利用。因此,管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用自动化的技术快速有效地协助人们对文本文件、网页数据等进行分类已经成均当前信息服务与知识管理方面的重要课题。
自动分类可以减少人工劳动的工作量,在实际应用中至少可以节省一半以上的人力。对用户而言,自动分类的结果可以视为一种分类提示,这对于减轻人工分析文本、人工文本归类方面的工作有相当大的帮助。本文从商品网页角度切入,主要针对互联网商品数据信息管理领域做了以下几个方面的工作:
1、基于大规模类别体系的数据采集工作。网络中的数据量庞大且数据分布相对分散,大部分的网页都没有经过标注,特定领域的信息也不易获取,这就使得在大规模类别体系下,网页分类算法实验数据的组织与评价方式多种多样,而且数据规模都较小,数据集质量也比较差。因此,做好基于大规模类别体系的数据采集工作,形成一个大规模基准数据集会给研究者带来很大帮助。本文提出了一种基于类别分布的采集策略,并在此基础上设计一个大规模采集系统,支持并行方式爬行站点,通过提交一组待采集的网页URL地址开始收集数据。对于特定领域如淘宝网的数据采集,我们针对网站的个性化设置编写符合网站设计的定向爬虫来抓取所需的特定信息。
2、基于跨文档关系的网页分类研究。面对大规模类别体系,层次类别研究策略是一个很好的选择。但在文本分类研究中的层次分类研究中多数利用文档自身的词语集合,而忽略了其中文档间的链接关系。本文从文档间的特殊关系,如父子关系、兄弟节点关系等入手,进行大类别数即大规模类别情况下的文本层次分类研究。
3、基于层次类别体系的商品分类研究。在电子商务交易中,类别都是按照商品间一个树状层次结构来进行分类的。在进行商品分类研究时,考虑到商品的特殊特征,比如某些商品根据商品的品牌名称就可以得到其所属的分类类别,即其品牌的特征性区分度很高。基于这一点,我们在研究中准备了一部描述商品品牌的词典供中文分词时调用。另一方面,本文在分类时引入一种“区分式”朴素贝叶斯分类器模型来进行分类。实验证明,基于“区分式”朴素贝叶斯分类模型的分类效果要比标准贝叶斯分类模型效果好。