百度“阿拉丁”解决暗网抓取

百度“阿拉丁”解决暗网抓取

前面已经介绍过暗网,这些网页和“非暗网”网页是脱钩的,也就是说Spider通过普通的抓取机制永远都不可能抓取到这些页面。用户浏览这些暗网页面一般都是通过提交条件查询或者文本框主动搜索,当然还有很多其他情况产生的暗网网页,但是普通搜索引擎的Spider考虑到很多因素是不会直接这样来操作的。由于暗网页面的数量巨大,价值也远高于非暗网页面,所以...