【摘 要】
:
通过对BBS话题模型、话题相似度、话题检测评价标准以及话题趋势的分析和研究,提出了基于内容分析的中文BBS话题检测算法:通过爬虫获取BBS信息;采用基于URL和Xpath的网页模板
【机 构】
:
深圳职业技术学院电子与信息工程学院
论文部分内容阅读
通过对BBS话题模型、话题相似度、话题检测评价标准以及话题趋势的分析和研究,提出了基于内容分析的中文BBS话题检测算法:通过爬虫获取BBS信息;采用基于URL和Xpath的网页模板处理BBS信息;应用ICTLAS实现BBS信息的分词;采用Carrot2对BBS话题进行聚类,基于功率谱的热点话题分析以及基于时间序列的话题预测。最后,通过采用J2EE开发包及Eclipse集成开发环境,结合Hibernate、GWT等技术实现了中文BBS话题检测系统,并在多个BBS论坛上进行了测试,取得了良好的效果。
其他文献
盲水印提取时不需要参考原始图像,在数字产品的版权保护中具有更广泛的应用前景。提出的盲水印算法在分块DCT的基础上,采用了关系嵌入和量化嵌入自适应选择的嵌入策略。关系为8×8图像块DCT的直流系数和之字形排列的第二个低频系数之间的大小关系。量化嵌入采用抖动调制,可以方便地调节水印的透明性和鲁棒性。大量仿真实验结果表明它对噪声、滤波、JPEG压缩、剪切等攻击有很好的鲁棒性且具有良好的透明性。
马克思主义哲学创新与发展的难点之一就是马克思主义哲学本体论的创新与发展。马克思主义哲学本体论在新时期发生了两次重大转向:一次是由“物质本体论”向“实践本体论”的转
<正>二胡是中国民族民间艺术的物态符号,经过上千年的风雨洗礼和社会传承,到20世纪中叶,我国近代音乐教育家演奏家刘天华先生将二胡这种中国民族民间最具代表性和表现力的乐
介绍飞行控制系统虚拟样机开发平台的体系结构。针对Rhapsody模型,采用ActiveX数据对象技术开发了客户/服务器结构的分布式模型库管理系统,实现了复杂系统虚拟样机设计工程中模型、文档的规范化管理和可重用。该系统由显示层、逻辑层和数据层组成,其中逻辑层包括模型结构管理、文档管理、用户权限管理和系统信息管理四个模块。详细阐述了该系统的体系结构、功能、特点及实现方法,并结合Rhapsody飞行控制
P2P网络的应用日益广泛,但是针对网络中各个终端主机网络接口带宽各异的实际情况,目前的覆盖多播模型没有综合考虑节点的延迟和实际可用带宽的限制。针对上述问题,提出了一种基于P2P网络的层次化覆盖多播模型(HOMM),该模型综合考虑了延迟和带宽两种因素,采用优先度作为构建ALM树的标准,在簇内构建局部ALM树,同时节点的加入、失效等操作的影响只局限于较小的局部范围内,使整个P2P网络的数据转发负载更为