论文部分内容阅读
1.引言
如今,随着Internet的飞速发展,数以万计Web应用走进人们的日常生活,网络中信息类型日渐庞杂。为了从海量Web信息中获取知识模式,就亟需将Web技术与文本挖掘技术相结合,对Internet进行Web挖掘。
2.Web挖掘分类
Web信息的多样性决定了Web 挖掘任务的多样性。Web挖掘的信息可分为以下几类:(1)网页本身的内容; (2)网页内部结构,包括HTML或XML;(3)网页之间的链接结构; (4)描述网页被如何访问的使用数据;(5)用户简档,包括人数统计、用户注册信息、cookie中的信息。根据以上信息类别,将Web挖掘任务分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。
3. Web文本挖掘流程
Web中的信息多样化,其中最主要的信息资源是文本, 因此Web文本挖掘成为Web挖掘的一个重要研究领域。由于Web文本挖掘涉及的领域广泛, 挖掘的内容丰富、复杂,目前对Web文本挖掘国内外还没有统一、准确的定义。
Web文本挖掘的流程一般包括:Web文本收集与预处理、特征的表示和提取、Web 文本挖掘、挖掘结果评价、信息表示与信息导航。
4.Web文本挖掘关键技术
Web文本挖掘过程中, 文本特征值的提取是挖掘工作的基础,而文本分类、聚类是挖掘工作最重要的部分。
4.1 文本信息预处理
文本预处理主要包括WEB文本文档的分词处理。在中文文档的词频统计前, 需先对中文文档进行分词处理,即在词条间加入分隔符, 使之转换为分散的词流形式。分词的基本算法有: (1)标志法。如切分标志法、统计标引法。 (2)基于词典与规则匹配法。(3)语义语用法。如后缀分词法。(4)词频统计法。
4.2 文本特征表示
文本特征值的提取是对从WEB 文档中抽取出来的代表其主题内容的元数据( 特征项) 形成特征矢量来表示WEB文本。描述性特征包括文本的名称、日期、大小、类型等, 而语义性特征包括文本的作者、标题、内容、关键词等。特征值的提取现在已有多种方法, 如: 文档频次阈值方法、信息增益方法(IG)、x2统计方法(CHI) 、互信息熵方法和基于奇异值分解的潜在语义索引方法等。
WEB文档特征表示的模型有多种, 其中矢量空间模型(VSM) 是应用较多且效果较好的特征表示方法之一, 即将WEB文本文档看成是一组词条( t1,t2,…tn)构成,对于每一词条ti,都根据其在文档中重要程度赋予一定的权值Wi,可以将其看成是一个n 维坐标系,W1,W2,…,Wn为对应的坐标值, 因此每一篇文档都可以映射为由一组词条矢量构成的向量空间中的一点, 对于所有WEB文档都用词条特征矢量:
V(doc)=(t1,w1(doc);t2,w2(doc);…tn,wn(doc))
来表示文档doc。可以将文档doc中出现的所有单词作为ti,也可以要求ti是doc中出现的所有短语, 从而提高内容特征表示的准确性。wi(doc)是第i词条在文档doc中的权值。wi(doc)的计算方法有很多种, 在VSM中的TF-IDF是一种常见的权值确定方法,即: ??
log/
如今,随着Internet的飞速发展,数以万计Web应用走进人们的日常生活,网络中信息类型日渐庞杂。为了从海量Web信息中获取知识模式,就亟需将Web技术与文本挖掘技术相结合,对Internet进行Web挖掘。
2.Web挖掘分类
Web信息的多样性决定了Web 挖掘任务的多样性。Web挖掘的信息可分为以下几类:(1)网页本身的内容; (2)网页内部结构,包括HTML或XML;(3)网页之间的链接结构; (4)描述网页被如何访问的使用数据;(5)用户简档,包括人数统计、用户注册信息、cookie中的信息。根据以上信息类别,将Web挖掘任务分为三类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。
3. Web文本挖掘流程
Web中的信息多样化,其中最主要的信息资源是文本, 因此Web文本挖掘成为Web挖掘的一个重要研究领域。由于Web文本挖掘涉及的领域广泛, 挖掘的内容丰富、复杂,目前对Web文本挖掘国内外还没有统一、准确的定义。
Web文本挖掘的流程一般包括:Web文本收集与预处理、特征的表示和提取、Web 文本挖掘、挖掘结果评价、信息表示与信息导航。
4.Web文本挖掘关键技术
Web文本挖掘过程中, 文本特征值的提取是挖掘工作的基础,而文本分类、聚类是挖掘工作最重要的部分。
4.1 文本信息预处理
文本预处理主要包括WEB文本文档的分词处理。在中文文档的词频统计前, 需先对中文文档进行分词处理,即在词条间加入分隔符, 使之转换为分散的词流形式。分词的基本算法有: (1)标志法。如切分标志法、统计标引法。 (2)基于词典与规则匹配法。(3)语义语用法。如后缀分词法。(4)词频统计法。
4.2 文本特征表示
文本特征值的提取是对从WEB 文档中抽取出来的代表其主题内容的元数据( 特征项) 形成特征矢量来表示WEB文本。描述性特征包括文本的名称、日期、大小、类型等, 而语义性特征包括文本的作者、标题、内容、关键词等。特征值的提取现在已有多种方法, 如: 文档频次阈值方法、信息增益方法(IG)、x2统计方法(CHI) 、互信息熵方法和基于奇异值分解的潜在语义索引方法等。
WEB文档特征表示的模型有多种, 其中矢量空间模型(VSM) 是应用较多且效果较好的特征表示方法之一, 即将WEB文本文档看成是一组词条( t1,t2,…tn)构成,对于每一词条ti,都根据其在文档中重要程度赋予一定的权值Wi,可以将其看成是一个n 维坐标系,W1,W2,…,Wn为对应的坐标值, 因此每一篇文档都可以映射为由一组词条矢量构成的向量空间中的一点, 对于所有WEB文档都用词条特征矢量:
V(doc)=(t1,w1(doc);t2,w2(doc);…tn,wn(doc))
来表示文档doc。可以将文档doc中出现的所有单词作为ti,也可以要求ti是doc中出现的所有短语, 从而提高内容特征表示的准确性。wi(doc)是第i词条在文档doc中的权值。wi(doc)的计算方法有很多种, 在VSM中的TF-IDF是一种常见的权值确定方法,即: ??
log/