Web数据挖掘总结

如需转载请联系听云College团队成员阮小乙，邮箱：ruanqy#tingyun.com

0x01 Web数据挖掘类型

利用Python爬虫进行Web数据挖掘已经越来越普遍，网上的各种Python爬虫资料教程比较多，但是很少有人对Web数据挖掘进行系统地总结和分析。

从目标上来讲，Web数据挖掘分为三类。最常见的是对于网站内容的爬取，包括文本、图片和文件等；其次是对于网站结构的爬取，包括网站目录，链接之间的相互跳转关系，二级域名等；还有一种爬虫是对于Web应用数据的挖掘，包括获取网站CMS类型，Web插件等。

0x02 网站内容挖掘

网站内容挖掘应用最广，最为常见，网上的Python爬虫资料大多也都属于这类。爬取下的内容也可用于很多方面。

Python编写这类爬虫的常见思路就是利用request或urllib2库定制请求，利用BeautifulSoup对原始网页进行解析，定位特定html标签，寻找目标内容。如果要提高性能，可以利用threading启用多线程，gevent启用协程（在windows上使用可能会有些问题），也可以用multiprocessing启动多进程。multiprocessing能突破python的GIL全局解释器锁的限制。

0x03 网站结构挖掘

网站结构挖掘并不是很常见，但在一些特殊的应用场景，我们也会用到。例如对于Web漏洞扫描器，爬取网站整站目录，获取二级域名是极为重要的。在第一类网站内容挖掘中，有时也需要将目标网站某个页面（通常是首页）作为入口，对整个网站所有内容进行获取和分析，这种情况下就需要对网站结构进行分析。

对于网站目录爬取，需要考虑的一个重要问题就是爬虫性能。通常网站的页面会比较多，如果直接获取所有目录，可能会耗费大量时间。另外，对于网站链接的搜索策略对爬虫的性能也会产生很大影响。一般情况下，我们会采用广度优先搜索，从入口页面开始，获取该页面内所有链接，并判断链接是否是站内链接，是否已经爬取过。为了提高速度，可以对链接进行归纳，将/page.php?id=1与/page.php?id=2认为是同一类型链接，不进行重复爬取。简单实现代码如下：

 View Code

对于二级域名的获取，如果直接从主站爬取的链接中寻找，效率很低而且结果可能并不能让人满意。目前获取二级域名有三种常用方法，第一种是利用域名字典进行猜解，类似于暴力破解。第二种种是利用各种二级域名查询接口进行查询，例如bing的查询接口如下，domain为根域名：

http://cn.bing.com/search?count=50&q=site:domain&first=1

link的二级域名查询接口为：

http://i.links.cn/subdomain/?b2=1&b3=1&b4=1&domain=domain

aleax的二级域名查询接口为：

http://alexa.chinaz.com/?domain=domain

由这些接口都能直接查询到指定根域名的二级域名，这里就不附代码了。

还有一种获取二级域名的方法是通过搜索引擎直接搜索，如百度搜索：inurl:domain 或 site:domain。这种方法比较慢。具体代码如下：

 View Code

0x04 Web应用数据挖掘

这种数据挖掘方式主要针对Web自身，旨在获取Web应用信息/Web指纹，在Web安全领域应用较多，这类代表有zoomeye、sodan等。通过获取大范围的Web应用信息，Web应用类型、版本，Web插件信息等，能够对大范围内的Web安全状况进行评估，分析特定漏洞在全球范围内造成的影响。当然也可以利用特定漏洞对大范围的Web应用进行定向攻击。

在这里我们不讨论那种大范围的扫描，我们只以CMS识别为例来简单说明Web应用数据的挖掘。CMS识别旨在判别网站所采用的CMS（内容管理系统，如WordPress），为后续的插件检测或漏洞检测做准备。

CMS识别一般从4个方面进行检测：检测特定目录是否存在；比对特定文件MD5；检测HTML页面中的关键字；检测robots文件。另外，一个巨大的CMS指纹库是保证识别效率的关键，如果指纹库太小，实际效果并不会很好。但是如果指纹库太大，又会影响到识别的速率。我搜集了一些简单的CMS指纹，写了一个简单的CMS识别脚本。代码如下：