论文部分内容阅读
社会化网络为可描述现实社会活动的虚拟网络,该虚拟网络划分的聚类结果体现了真实社会活动群体的状态,这些群体可能因为某种原因(家人、同事或相同兴趣等)自然形成。因此社会化网络是真实社会的写照,并且通过研究社会化网络结构可以获知现实社会的特征和发展趋势。虽然通过分析社区内节点分布情况和社区间关联情况可以帮助获知用户特征和网络拓扑结构等信息,但是由于人物角色和人物关系的多样性和复杂性,导致社会化网络中的节点属性和节点间关联关系具有多样性和复杂性,因此针对社会化网络结构的研究不能局限于不可重叠的分类、聚类等算法。由于不同的社会属性导致不同的社区划分,社会化网络用户可能同时从属于多个社区。另一方面,节点间的一条关联关系的类型是单一的,因此每条边可唯一划分到某特定社区。如假设社会化网络中唯一有价值的知识是网络结构,那么节点的特征是其所有边的特征集合。社会化网络允许用户自主生成个性化数据,丰富的用户信息有利于全方面分析用户特征,但用户自主产生的数据规范性较差且信息产生过程不可控,所以其数据是大规模且低质量的。因此管理复杂网络信息的难度增加,并且其处理对象不能局限于写入性知识,必须重视拥有大量领域知识的中心节点或专家节点,该类节点可为复杂网络提供高质量信息,并扩充网络有效知识储备量。另外,关注类似于中心节点的核心节点,可帮助获知信息传播规律、预测网络结构发展趋势、分析节点状态变化概率等。由于社会化网络为动态网络,因此其分析算法的稳定性需控制在合理范围内,即算法过于稳定导致对新增数据不敏感,相反导致算法易受临时性信息影响而错误划分节点。综上,针对社会化网络的研究面临很多困难,无论是从数据复杂度方面或是动态网络结构分析难度方面都对现有的数据挖掘算法提出了挑战,但是无论是社会化搜索、个性化推荐,还是人物角色多重定位、知识图谱构建都建立在社会化网络基础之上,这是以往所有网络平台无法实现的。时至今日,互联网逐步迈向全网社交化时代,并且伴随着移动终端的普及和移动网络技术的提升,社会化网络呈现微信息、移动化特征,使得网络更加全面覆盖生活,因此针对社会化网络的研究引起越来越多的科研人员、企业、政府机关的重视。正如当年以雅虎为代表的门户互联网时代被以谷歌为代表的搜索引擎时代更替一样,也许将来社交网络时代会更替如今已屹立十年的搜索引擎时代。无论如何,社会化网络的低运营成本,以及更具粘性的服务,正在改变着传统互联网格局。本文从不同方面对社会化网络进行研究。第一,综合分析节点的临时性属性和节点维持固有状态能力,最终提出稳定性较强的社区划分算法。本文提出的算法不单纯依据新增数据或节点现有特征,而是综合考虑网络拓扑结构的历史数据以及节点维持固有状态能力和新增数据变化程度,用于计算状态发生变化的节点对原始集群的隶属程度,并结合新增数据以及数据变化趋势以确定节点变化程度,最终实现社区划分及动态更新。第二,提出一种基于属性的边绑定算法,该方法以更加清晰的方式展示复杂网络结构,其将相似的边输出在相近的位置并调整边的弧度,进而实现相似节点聚类和社区发现。第三,以被分析对象为中心节点,计算其与存在通路但不直接相连节点的关联概率,实现网络有效知识的合理扩充,以弥补确定性事件的小数据问题,进而根据边的属性进行边的不重叠聚类,通过对节点集合的分析、合并,最终实现可重叠节点社区划分。第四,提出一种在兴趣领域中寻求知识量较多用户的信息检索方法,即通过构建用户兴趣分布曲线和计算临界点处斜率以发现专家用户,最终实现从众多用户群中发现兴趣领域专家,其中所指专家不仅包含权威用户中的专家节点,也包含普通用户中的专家节点。第五,提出一种知识表示方法和架构融合策略,采用挖掘多文档共同出现的结构实现隐含语义关系发现。该算法可同时分析多个文档,并且文档分析过程中仅需扫描文档一遍,因此该方法极大程度地降低了算法的计算复杂度并提高了文本匹配的准确度。第六,通过构建贝叶斯网络实现针对复杂概率模型的约减,并在低密度网络中分析节点间的影响度以预测中心节点状态并分析网络结构变化趋势。该方法根据用户间的三种不同关联形式和最短距离,计算节点间的相互影响度,以分析邻接节点状态变化程度,并预测中心节点的动作趋势。最后,各章的实验部分分别在不同数据集中将新提出的算法与其他相似算法进行比较,进而可视化输出对比结果并详细说明优势和区别,以验证算法的可行性和正确性。