论文部分内容阅读
随着互联网的迅速发展,人们获取知识的来源不再局限于书本和课堂,越来越多的网络公开课走入了人们的现代生活,例如著名的网易公开课,中国大学MOOC和搜狐名校公开课等。用户观看视频后,通过评论可以进行学习交流和发表观点。通过研究有效的信息采集方法和优秀的文本聚类算法,将大量分散的评论信息完整的采集、组织和归类,发现学习者关注的问题,对今后优质资源的建设,起到大众导向作用。本文的研究将涉及两种关键的技术:信息采集技术和文本聚类技术。经过分析该类型网站的结构特点,首先,评论不是以传统静态HTML网页呈现的表层信息,而是以Ajax动态网页呈现的深度信息。其次,这些评论信息是典型的短文本,文本比较口语化,隐含的话题也比较分散。这些特点就为传统信息采集及聚类技术增加了难度。本人独立完成了如下工作:第一,在评论信息采集阶段,利用HtmlUnit模拟特定的Firefox浏览器,调用浏览器API模拟用户事件的触发,获取该事件交互后的完整页面信息。该方法利用事件取代URL地址作为页面发生变化的唯一标识,有效地避免了传统爬虫对URL地址的依赖,并能够保证Ajax信息的抓全率,为后续聚类工作提供了必备的数据源。第二,对采集后的评论文本进行NLPIR中文分词,构建了公开课领域的用户字典,整理了1205个停用词,将文本转换为计算机能理解的数据模型,引入了LDA主题模型,有效地避免了传统VSM向量空间模型对语义相关性的忽略。第三,对处理后的文本进行聚类时,以初始中心的选择为研究的切入点,基于LDA模型,在部分最重要的主题维度上预先聚类,收敛的各中心点作为所有主题维度聚类的初始中心点,这使得初始点的选择更加具有代表性,避免了盲目选择造成的聚类结果不稳定。线性结合了VSM模型和LDA模型的计算公式,并通过训练确定其最优参数,应用到K-means算法中。最后用实验表明,深度评论信息获取阶段,对比已有文献的方法,本文提出的方法具有可行性及灵活性,能够提高采集率。短评论信息聚类阶段,基于VSM+LDA模型线性相加的文本相似度公式,应用到基于LDA初始聚类中心预先确定的K-means算法,聚类效果比传统K-means算法更加稳定。