基于校园BBS的用户社团关系挖掘系统的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:sven55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益发展和广泛普及,社交网络越来越成为人们生活中密不可分的一部分。电子布告栏系统(Bulletin Board System,BBS)作为互联网最早、也是最典型的信息交流平台的之一,已逐步发展成为人们发表言论、表达思想的重要平台。本文主要对校园BBS进行数据采集和分析,对于校园网BBS而言,作为互联网和高校局域网的一个重要组成部分,由于其用户范围的限定性,其专业性和使用网络的目的性较强,对这类BBS进行有针对性的数据分析有很重要的意义。本文中研究并实现了一种基于BBS用户之间发帖、回帖等互动行为和BBS中用户发布的具体文字进行社团关系挖掘的系统,该系统具备了数据采集和存储、数据分析和社团挖掘等功能。通过分析用户之间发帖和回帖等互动行为、BBS中用户发布的具体文字信息,分析得出用户之间的关联度,将关联度较大的用户群划分为一个社团,并通过情感分析工具对社团进行贴标签,最后将研究成果以可视化的方式在平台上展现出来。对于BBS在社交化方面的演化和发展,舆情监测,校园的管理和建设都有着重要的意义。本文针对校园BBS的社团发掘系统的研究工作如下:1.利用北邮人论坛提供的公开API对论坛数据进行爬取,并使用MongoDB数据库对爬取的JSON格式的数据进行整理和存储。在对数据进行爬取时,需要使用Java语言对论坛API进行持续地、增量地数据爬取,并对爬取的JSON数据进行了编码、完整性检查等操作。通过对多种数据库进行调研和比较,本文最终决定使用非关系型数据库MongoDB对数据进行存储,实践表明,系统运行效率的提高很大程度上得益于MongoDB数据库的使用。2.对用户发帖和回帖等互动关系和论坛中用户发布的具体文字内容两方面进行分析,得出最终的社团结果。一方面使用优化后的GN(Girvan-Newman)相关算法得出用户之间关系的亲密度,从而分析出论坛中可能存在的社团,另一方面使用分词工具和优化的TF-IDF算法社团文本进行分词、关键词提取等操作,对已经得到的社团进行特点发现,使每个社团有各自的定义,从而使读者更加直观地了解论坛的结构特点和用户之间的关系。
其他文献
RLIM已知的功能是作为转录辅抑制蛋白或作为E3泛素连接酶,抑制某些LIM同源蛋白的转录,参与发育的调控。肿瘤抑制蛋白p53翻译后修饰的一种重要形式是乙酰化,由组氨酸乙酰转移
<正>2013年以来,力士德工程机械产品继续延续出口增长势头,力士德公司通过招投标成功中标埃塞俄比亚第一条高速公路建设项目,力士德5台挖掘机、15台装载机、4台压路机远赴埃
当前对于汉语动量词的研究已十分丰富,大多是从动量词某个动量词的产生及历时发展、分类、或动量词短语结构等角度进行研究。前人主要对典型动量词进行句法语义特征研究。有
目的:研究WISP1在大鼠哮喘模型中的表达及不同炎症因子刺激RTED大鼠气道上皮细胞后WISP1的表达。以Wnt通路为研究对象,探讨WISP1和哮喘的发病关系,并在此基础上深入研究WISP1
本学位论文通过综合运用线性泛函分析的理论和微分方程定性与稳定性研究技巧相结合的方法,系统地刻画了几类时滞微分方程的若干定性性质,所获结果补充和完善了已有文献的相关
好的流通模式可以促进源头监管,实现流通安全。果蔬类农产品是我们日常食用较多的鲜活农产品,也是目前认为可能存在问题较大的一类产品。通过规范与调整果蔬流通模式,加强源
快速、准确获取耕地时空信息是研究耕地时空格局和生态效应的基础,也是及时制定应对粮食问题相应对策的迫切需求对,长期的耕地时空变化进行监测对维护粮食安全和农业发展以及可持续发展有重要意义。以迁安市为研究区,基于2000和2017年Landsat TM/OLI影像,采用面向对象分类方法,提取迁安市耕地信息,并以此为基础,探究迁安市耕地时空格局及其生态效益,以期为相关部门制定规划和政策提供科学依据。对迁安
随着现代教育技术与计算机信息技术的快速发展,高校根据自身发展的需求,充分依托各云计算平台大力开展校园信息化建设。大学生心理健康教育作为高校思想政治教育的重要内容之
目的在大鼠哮喘模型上观察甲磺司特(Suplatast Tosilate,IPD)干预前后哮喘大鼠气道炎症、肺组织白细胞介素5(Interleukin-5,IL-5)基因表达以及肺泡灌洗液(bronchoalveolar la
随着我国经济发展水平的不断提升,我国各行各业都迎来了蓬勃的发展,在这其中建筑行业作为快速发展的领域,得到了人们前所未有的关注。由于近年来人们生活水平的不断提升,人们