基于特征加权与密度聚类的景区信息挖掘系统研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:zhj8028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和移动设备的普及,基于互联网的景点、酒店等个性化信息服务日益增多,这些信息数据的重要性也日趋凸显。面对日渐积累的庞大的信息数据,如何从这些数据资源中发现出更深层次的联系和规律而非表面的关系成为了国内外学者研究的热点。作为数据挖掘领域中的重要方法,空间密度聚类算法与特征加权算法被广泛地应用于数据分析与处理中。论文通过对景区兴趣点信息及景区文本数据进行分析,采用空间密度聚类算法DBSCAN和特征加权算法TFIDF处理数据集,设计并实现了支持热点区域发现和特色关键词提取功能的景区信息挖掘系统。论文的主要研究工作如下:(1)针对景区兴趣点与景区文本数据源进行了数据预处理与数据存储。去除景区兴趣点数据源中存在的异常数据,并补全其中的缺失数据;将景区文本数据源进行分词处理并去除其中存在的空文本数据与无意义的停用词。最后根据数据属性类别分别存储入库。(2)提出了一种改进型空间密度聚类算法KM-DBSCAN。由于传统DBSCAN最终聚类效果极度依赖于其两个输入参数的选择,且输入参数的全局性还会导致算法对于非均匀密度分布数据集的聚类效果不良。针对上述弊端,提出了改进的自适应参数空间密度聚类算法KM-DBSCAN。改进算法通过k-means对数据进行简单分区,引入均值漂移向量得到各分区的Eps与MinPts值,接着对各分区进行局部聚类并合并聚类结果。改进算法改善了其对于参数Eps与MinPts的依赖性且在非均匀密度分布数据集上也表现良好,并通过对比实验证实了该算法的合理性与有效性。(3)提出了一种改进型特征加权算法FDCD-TFIDF。由于传统特征加权算法TFIDF未考虑数据集类别间分布的不平衡性且未正确反映文本向量在分类体系的类间与类内分布情况,导致算法对于文本类别偏斜数据集的处理效果不佳。因此针对上述缺点,本文通过引进词频分布因子和类别分布因子进行改进。上述分布因子既考虑到数据集类别间的分布差异又可以反映特征向量在文本类间与类内的分布差异,因此能够准确地衡量特征向量在文本集中的重要程度,并通过对比实验证实了该算法处理类别偏斜数据集的有效性。(4)设计并实现了基于特征加权与密度聚类的景区信息挖掘系统。将改进的特征加权算法FDCD-TFIDF和密度聚类算法KM-DBSCAN与实际系统相结合,既可以展示景区特色关键词又提供了景区热点区域分布展示以及景区周边区域设施检索功能,该系统能够帮助用户更好的挑选个性化旅游景点,更方便快捷地获取景区周边信息,提高效率,对出游规划提供可靠的数据支持。通过系统调试与分析结果可知,本文设计实现的景区信息挖掘系统符合预期效果,表明了该系统的可靠性与实用性,对于景区服务现代化及景区周边规划具有重要意义。
其他文献
数据伴随着人们的生产生活不断涌现,数据量在不断升级,产生的领域也越来越广,且维度也越来越高,这对分析这些数据的有效方法提出了前所未有的挑战,由此产生了“维数诅咒”的概念,特征选择是解决维数问题的有效方法,特征选择开始展现出越来越重要的作用是在上世纪90年代后,各种特征选择方法开始涌现,许多新的方法、新的思路层出不穷,对数据降维技术的发展起到了关键的作用。由Fisher判别演化的Fisher Sco
荣誉制度是弗吉尼亚大学规范学生学术行为、促进大学内部人员相互信任的一种契约,是学生对学校承诺自身的信用制度,反映了学生自治、自主管理的传统,涉及到校园生活的方方面面,其核心思想是:别人对你完全信任,你对自己的行为完全负责。荣誉制度是弗吉尼亚大学最为重要的一项制度,也被视为弗吉尼亚大学建校的根基,已成为美国高校的特色制度之一。研究弗吉尼亚大学荣誉制度,揭示其特色,可以为高校更好地承担起立德树人的使命
记忆的所有权效应是探索年幼儿童自我的一种有效方法。自我参照效应(self-reference effect,SRE)也是探索自我非常重要的方法和手段。大多数发展性SRE研究中应用的标准范式要求儿童能够识别与自我或他人相关的抽象性格特征。鉴于这种发展模式,我们应该利用具体而非抽象的加工任务,提供一种更合适的方法来探索儿童的自我发展。与自我参照效应相关联的另一个重要概念是自我所有权效应。所有权范式要求
随着移动芯片以及诸多功耗限制型集成电路应用的快速发展,如何减少芯片的功耗成为超大规模集成电路(Very Large Scale Integration Circuit,VLSI)设计的重要挑战。其中,静态随机存储器(Static Random Access Memory,SRAM)因其运算性能方面的优越性而被广泛应用于各种处理器的缓存和片上系统(System On Chip,SOC)中的嵌入式存储
当今移动机器人产业迅猛发展,已经深入到社会各个角落,而如何解决移动机器人自主控制是这一领域的热门问题,很多学者认为同步定位与地图构建(SLAM,Simultaneous Localization
近年来,科技发展日新月异,城市化进程不断加快,人们对定位的需求也越来越大,尤其体现在商业推送,物流管理,搜索营救等方面。在室外可以通过全球导航定位系统(Global Navigati
离线签名一直作为传统身份认证方式被广泛使用。对于签名的真伪性鉴别,目前主要还是采取人工鉴定的办法,效率低下。利用计算机实现离线签名的真伪鉴别具有广泛的应用需求和理论研究意义。LBP特征能够反映签名笔迹的纹理特征,但缺乏对签名轮廓的几何特性的描述。本文提出基于轮廓处局部二值模式(LBPC)特征和局部轮廓模式共生(LCPC)特征的离线签名鉴别方法,完成的主要工作内容如下:(1)为提升签名图像LBP特征
铝暴露途径十分广泛,暴露剂量不可预知,因此铝元素对人体暴露及随之产生的毒性作用难以避免。利用螯合剂和天然抗氧化剂拮抗铝的毒性已成为一种现代的方法。本研究从动物和细胞水平探究绿原酸(Chlorogenic acid,CGA,5-O-咖啡酰奎宁酸)对铝毒性的保护作用及机制。首先在动物水平上探究绿原酸对急性铝暴露小鼠肝脏和血液毒性的预防和保护作用。将8周龄雄性昆明小鼠在急性铝暴露(单次腹腔注射25 mg
自然场景下的文本检测是自然场景图像信息提取的基础,在车牌识别、实时翻译、图像检索等领域具有广泛的应用价值及研究意义。基于连通区域的方法是自然场景文本检测中最为常见的方法,其中最大稳定极值区域(Maximally Stable Extremal Regions,MSER)算法和颜色聚类算法都有着广泛的应用。针对传统MSER算法及传统颜色聚类算法的局限性,本文提出基于图像增强MSER与改进颜色聚类的自
视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获