论文部分内容阅读
互联网是广大残疾人获取信息、就业、娱乐的主要途径,然而目前绝大多数网站在最初设计实现时只关注普通人的用户体验,忽视了许多无障碍设计细节,使得残疾人群在访问时困难重重。因此,便有了网站无障碍检测,为后续改造网站提供支持。现阶段,网站无障碍检测需要大量人工检测,人力开销巨大。为了解决这一问题,网页采样算法被广泛引入检测流程。通过采样,需要人工检测的网页数据规模被极大的压缩,使得检测可以在一个较短的时间内完成。但这也带来由于关键网页未被采样到而导致的检测结果不准确的问题。如何借助少量人工检测数据,同时保留住未被采样网页中所包含的信息,最终得到较为准确的检测结果,成为了本文的主要研究目标。 为实现这一目标,本文从寻找最能反映网页结构的特征入手,重点考虑特征的抗噪性能,最终设计了一整套面向网站无障碍检测的组稀疏特征选择方法并实现了相关系统应用,具体工作包括: (1)提出了面向网页结构提取的组稀疏特征选择算法。由于网页的结构信息主要反映在了网页标签上,因此可以使用网页中包含的标签及其出现次数来近似表达一个网页。在此基础上,我们设计出面向网页结构提取的组稀疏特征选择算法,通过局部学习分析网页分布,利用组稀疏回归评估特征重要性,从而挑选出最能反映网页结构信息的特征,为后续无障碍检测过程提供支撑。 (2)提出了面向噪声排除的局部学习交互组稀疏回归特征选择算法。随着前端技术的发展,网页的内容和形式变得越来越复杂。大量的网页标签中不可避免的存在很多冗余和噪声。对此,我们设计了面向噪声排除的局部学习交互组稀疏回归特征选择算法,通过交替进行数据分布评估和特征权重分析,逐步排除冗余和噪声带来的负面影响,保证提取的标签质量。 (3)提出了用于网站无障碍检测的半监督组稀疏回归算法。网站无障碍检测为减少人工成本,引入了采样技术,但是由于采样的随机性,还是会损失一些关键网页导致结果不准确。对此,我们设计了半监督的组稀疏回归算法,在少量人工检测结果的基础上,引入未检测网页的相似性约束,尽可能保留住了所有网页所蕴含的信息,提升检测结果质量。 在标准数据集以及网站无障碍检测数据集上的特征选择实验,充分验证了两个特征选择方法在提取网页结构信息以及抑制噪声干扰两方面的优势。最后网站无障碍检测实验,则证明半监督的组稀疏回归算法能高效且准确的给出网站中每个网页的检测结果,为评估整个网站的无障碍程度提供有力支撑。