基于文本挖掘的陕西旅游线路推荐

来源 :兰州大学 | 被引量 : 0次 | 上传用户:sxyzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着旅游业的快速发展,旅游带来的经济收入呈现出不断上涨的趋势.但同时,旅游景点分布不平衡,旅游线路缺少个性化推荐等问题也慢慢浮现出来.基于对此问题的考虑,本文以陕西为例,首先依靠网络爬虫技术爬取了"Maigoo"网站所记录的陕西A级及A级以上旅游景点文本数据359个,并对得到原始的样本点进行分词、去停用词、提取特征词等预处理.然后,在得到经过预处理之后的样本后,比较各文本处理模型之间的优劣,最终选用LDA主题模型对文本数据进行特征提取.在LDA主题建模过程当中,最关键的问题是如何确定主题数目,本文基于传统的困惑度曲线确定了主题数目的取值范围为[2,9].为防止过拟合问题的出现,在此基础上考虑将困惑度曲线方法与主题平均余弦相似度方法相结合,并最终确定最佳主题数目为4.就得到的文本的主题分布进行k-means聚类分析.研究发现,基于LDA主题模型的聚类效果要比基于传统的VSM向量空间模型的聚类效果要好很多.其中,在基于LDA主题模型聚类的结果中,将传统的困惑度曲线方法与主题平均余弦相似度方法结合来确定最佳主题数是效果最好的.其簇内误差平方和是最小的,为26.7553.且轮廓系数是最大的,达到0.6093.最后,根据最终的聚类结果,充分整合旅游资源,将相似景点整合在一起,并以其表现出的共同特征为主题,结合景点之间的语义信息和距离信息设计了四类推荐线路.为游客选取旅游线路提供一定的参考意见.
其他文献
自旋波是电子自旋的集体进动形式,运动中携带有丰富的振幅和相位信息,并且摒弃了传统电子传输的热损耗,因而成为新一代低能耗存储器件的理想载体。从GHz到THz,波长比相同频率的微波小4到5个数量级,这使得它们与现代纳米级的电子设备和电路兼容。随着电子器件的微型化和高频化,需要制备微纳级别的电子器件,因此对于微纳尺寸图案化薄膜自旋波的基础物理机制研究及调控是非常重要的。本文采用图案化技术研究了软磁薄膜共
学位
可充电的水系锌离子电池,以其储量丰富、价格较低、高稳定性、低氧化还原电位(-0.76 V)、高比容量(820 m Ah g-1)以及高离子电导率(约1 S cm-1)等一系列优点而引起了国内外的广泛关注。水系锌离子电池的构造包括正极、负极活性材料、水系电解质、集流体以及纤维隔膜,然而,对于电池而言,其电化学性能很大程度上受正极材料和负极材料的限制:锌作为锌离子电池中最广泛使用的负极材料,在电池的工
学位
近年来随着云计算、物联网等技术快速发展,越来越多具有计算密集和时延敏感特性的新型网络应用开始出现在用户视野。为了克服移动设备在执行新型网络应用时工作负载方面的局限性,移动边缘计算(Mobile Edge Computing,MEC)能够有效解决联网(Internet of Things,Io T)设备能量和计算能力不足的问题,成为下一代网络关键技术。边缘计算系统中任务卸载及资源分配方案受到工业界和
学位
经过十多年的发展,钙钛矿太阳能电池的光电转换效率从3.8%提升到25.7%,成为最受欢迎的第三代光伏器件。全无机CsPbX3(X=Cl,Br,I)钙钛矿太阳能电池由于具有结构简单、合适的带隙以及优良的载流子传输等特点被广泛研究。但是,全无机CsPbX3电池目前仍然存在一些问题:首先,电池中有机空穴传输材料如spiro-OMe TAD(spiro)受热易分解是影响CsPbX3器件长期稳定存在的重要因
学位
函数型数据作为一种数据类型,在许多领域经常出现.多元函数型线性回归问题作为多元线性回归问题在函数型数据下的推广.对于函数型变量选择问题,现有的方法大多没有考虑控制函数型变量的错误发现率(False discovery rate,FDR).因此,对于函数型变量选择过程,本文考虑在控制FDR的前提下,尽可能多的选择出与响应变量相关的函数型特征.最近,在高维数据下,统计学家们先后提出了model-X k
学位
目的 以时机理论为框架,探讨HIV/AIDS肛瘘手术患者在疾病不同阶段的疾病体验。方法 采用现象学研究方法,对11例HIV/AIDS肛瘘患者入院至伤口痊愈进行全周期跟踪,根据时机理论于不同阶段进行五次半结构式深入访谈,采用Colaizzi分析法分析所收集资料。结果 提炼出5个主题,分别为:(1)诊断期:担忧与懊悔;(2)术后早期:身心应对失调;(3)出院准备期:防护知识断层;(4)调整期:失助感;
期刊
区块链是一种分布式账本技术,广泛应用于构建应用程序,并在此类应用程序中解决存在的信任缺失问题。随着面向服务计算(SOC)范式的不断演进,区块链即服务(Blockchain as a Service——Baa S)应运而生。用户可以通过选择区块链服务来构建自己所需要的应用程序。然而,不可靠的区块链服务将使得用户浪费资源,甚至造成信息泄露的损失。为了构建高质量的基于区块链的应用程序,用户必须选择高可靠
学位
硫化氢(H2S)气体作为一种工业原料被普遍使用,在低浓度时,它具有臭鸡蛋气味,长期接触低浓度硫化氢,会对接触人员的眼睛、呼吸系统和中枢神经系统造成伤害。高浓度的硫化氢气体会麻痹嗅觉系统,吸入高浓度的硫化氢会使呼吸神经中枢瘫痪,从而导致窒息。因此非常有必要对生活中的硫化氢气体进行检测。纳米科学技术的进步使各种特性的纳米传感材料被开发出来,气体传感器也得到长足性的发展。由于CuO与硫化氢气体在不同浓度
学位
在流行病学研究中,评价因素间交互作用的生物学和公共卫生意义往往更为重要。与可乘交互作用相比,可加交互作用更能反映交互作用的生物学意义。Cox比例风险模型是生存分析场景下最常见的一种估计影响因素对生存结局影响效应的乘法模型。然而,乘法模型不能直接得到因素间的可加交互作用,而且利用乘法模型中的输出参数进行可加交互作用指标的计算时,其可加交互作用指标参数效应值的标准误的计算往往难以实现。贝叶斯方法能够绕
学位
投票系统因其技术决策能力而被广泛应用于诸多领域。然而,当投票系统在网络平台上运行时,往往会面临各种恶意攻击,比如,恶意软件和拒绝服务器等攻击。本文研究了多数决策投票系统在不同恶意场景中的可靠性,具体包括三种场景:特定目标攻击、随机目标攻击和动态攻击。本文严格证明了:在一定条件下,在特定目标攻击场景中,投票系统的可靠性随着被攻击目标元件个数的增加而减弱;然而,在随机目标攻击场景中,投票系统的可靠性随
学位