论文部分内容阅读
随着计算机和互联网的不断普及,人与人之间的交往不再受时间和地域的限制,人们可以通过E-mail、即时通讯工具、BBS、博客、聊天室等手段进行广泛的信息交流,现实社会越来越多的被网络化,以前基于人情世故的关系脉络也开始数码化为社会关系网络。社会关系网络既可以娱乐,也可以创造价值,逐渐在商业领域和社会活动等方面发挥了越来越重要的作用。但如何挖掘社会关系网络、采用什么样的技术和方法是一个回避不了的现实问题,社会关系网络的挖掘技术及其方法研究成为了目前的研究热点和难点问题。基于此,本文通过对国内外研究现状的综合分析,做了以下主要研究工作:对互联网上的web信息进行了分类,根据形成社会关系网络的web信息的不同,把社会关系网络分为了自治的社会网络、合作关系的社会网络和开放的社会网络。提出了社会关系网络构建方案,对于E-mail、BBS、博客等各种自治的社会网络,根据朋友之间的通信联系(邮件数、跟帖、消息等)构建社会关系网络;对于像在线论文集这种通过特定数据集合在无意间构成的合作网络,本文通过作者之间的共同作者或作者之间的引用关系构建网络;对于互联网上大量的web文档(新闻、人物介绍等)构成的开放的社会网络,通过人名之间的共现构建社会关系网。对互联网的信息内容提取技术进行分析和研究。对于电子邮件,通过提取头信息、提取邮件体内容和邮件内容解析三个步骤,实现对电子邮件信息的抽取;通过网页爬取、页面解析、结构树生成和信息获取实现对html页面内容的提取。对于E-mail、Blog、BBS、电子论坛,本文通过分析作者所写的邮件、博客、帖子、回复信息等样本数据的特征,构建了中文作者的特征体系,并通过二次变换支持向量机算法(DTSVM)实现对社会网络节点的身份确认。对于基于网络搜索引擎获取的新闻资讯、人物简介,在线论文数据库获取的论文摘要等web信息,本文采用社会网络的自动聚类方法来确定社会网络节点。对当前的社会网络可视化技术进行了分析和比较,基FDA(Force-Directed Algorithm)算法,利用Prefuse可视化工具实现了社会关系网络的可视化。为了验证所给出的模型和方法的正确性和有效性,本文分别以电子邮件、在线论文集和搜索引擎为信息源构建了社会网络。实验结果验证了本研究的可行性,从而为后续社会网络挖掘工作奠定了基础。