Ajax深度信息获取及聚类关键技术的研究

被引量 : 0次 | 上传用户:zhubob2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,人们获取知识的来源不再局限于书本和课堂,越来越多的网络公开课走入了人们的现代生活,例如著名的网易公开课,中国大学MOOC和搜狐名校公开课等。用户观看视频后,通过评论可以进行学习交流和发表观点。通过研究有效的信息采集方法和优秀的文本聚类算法,将大量分散的评论信息完整的采集、组织和归类,发现学习者关注的问题,对今后优质资源的建设,起到大众导向作用。本文的研究将涉及两种关键的技术:信息采集技术和文本聚类技术。经过分析该类型网站的结构特点,首先,评论不是以传统静态HTML网页呈现的表层信息,而是以Ajax动态网页呈现的深度信息。其次,这些评论信息是典型的短文本,文本比较口语化,隐含的话题也比较分散。这些特点就为传统信息采集及聚类技术增加了难度。本人独立完成了如下工作:第一,在评论信息采集阶段,利用HtmlUnit模拟特定的Firefox浏览器,调用浏览器API模拟用户事件的触发,获取该事件交互后的完整页面信息。该方法利用事件取代URL地址作为页面发生变化的唯一标识,有效地避免了传统爬虫对URL地址的依赖,并能够保证Ajax信息的抓全率,为后续聚类工作提供了必备的数据源。第二,对采集后的评论文本进行NLPIR中文分词,构建了公开课领域的用户字典,整理了1205个停用词,将文本转换为计算机能理解的数据模型,引入了LDA主题模型,有效地避免了传统VSM向量空间模型对语义相关性的忽略。第三,对处理后的文本进行聚类时,以初始中心的选择为研究的切入点,基于LDA模型,在部分最重要的主题维度上预先聚类,收敛的各中心点作为所有主题维度聚类的初始中心点,这使得初始点的选择更加具有代表性,避免了盲目选择造成的聚类结果不稳定。线性结合了VSM模型和LDA模型的计算公式,并通过训练确定其最优参数,应用到K-means算法中。最后用实验表明,深度评论信息获取阶段,对比已有文献的方法,本文提出的方法具有可行性及灵活性,能够提高采集率。短评论信息聚类阶段,基于VSM+LDA模型线性相加的文本相似度公式,应用到基于LDA初始聚类中心预先确定的K-means算法,聚类效果比传统K-means算法更加稳定。
其他文献
作为现代行政程序法的核心制度,行政听证制度起源于司法领域,其核心精神是“听取对方的意见”,即在作出不利于一方的决定时,应该给予对方充分的陈述、质证、辩护的机会。行政听证
相较于场内交易市场,我国场外交易市场在整个资本市场主体融资方面具有不可替代的作用。与发达国家相比,我国场外交易市场起步晚、发展缓慢。从2001年到2013年的13年间,三板市场
本文通过对烟气冷凝的分析 ,具体研究烟气冷凝对不同烟气组份的净化机理 ,并通过实验具体分析烟气冷凝对不同烟气组份的净化效果。烟气冷凝能够降低排烟中有害物质的浓度 ,减
本文是一篇针对法律英语文本中条件句汉译策略的翻译报告。在译者翻译的合同中出现了大量的条件句,由此可见条件句翻译之于法律文本翻译的普遍性和重要性。法律文书中的条件句
非合作目标的识别测量是实现空间交会对接近场操作卫星在轨服务及空间垃圾清除等课题的基础双目立体视觉是实现近距离非合作目标识别与测量的关键,双目测量系统由两台摄像机从
2012年6月29日,贵州省岑巩县思旸镇大榕村发生了重大滑坡地质灾害,造成9栋农房被损并影响300多名当地农民的生产与生活,滑坡前缘堵塞了马坡溪形成堰塞湖,严重威胁下游上千群
崩塌是贵州山区常见的地质灾害,具有隐蔽性、突发性和灾难性等特点。本文通过若干典型崩塌实例,总结了贵州山区崩塌的发育特征;以威宁县猴场镇幺岩脚崩塌为典型实例,在阐述其特征
研究目的:本研究旨在基于循证构建一套适合我国护理实际的预防导尿管相关性尿路感染(CAUTI)的干预策略,用于指导临床护理,从而降低CAUTI的发生率,节约医疗成本,缩短住院时间,
缺氧性肺动脉高压(hypoxic pulmonary hypertension, HPH),发病机制目前尚不清晰,缺氧性肺血管收缩(hypoxic pulmonaryartery vasoconstriction,HPV)和缺氧性肺血管重建(pulmonaryv
多相流在能源等工业生产中具有广泛应用,深入了解多相流机理有赖于对多相流中颗粒相的三维定量测量。全息术是一种真正的三维照相技术,在三维测量中具有巨大的潜力,应用数字