亚马逊反爬二之限流
限流就是对请求的速率进行限制,避免瞬时的大量请求击垮软件系统。毕竟,软件系统的处理能力是有限的。如果说超过了其处理能力的范围,软件系统可能直接就挂掉了。限流可能会导致用户的请求无法被正确处理或者无法立即被处理,不过,这往往也是权衡了软件系统的稳定性之后得到的最优解。现实生活中,处处都有限流的实际应用,就比如排队买票是为了避免大量用户涌入购票而导致售票员无法处理。
最常见就是我们在临近春节的时候, 上12306上面进行购票, 一个大型网站如亚马逊,也会通过限流,来避免网站的崩溃.
然而在爬虫过程中, 难免也会遇到网站的爬虫, 之前在亚马逊爬虫过程, 就会发现来限流, 表现特征就是,网站页面上只有“Request was throttled”这一段话, 其余位置都是空白的,这种情况,只能不断尝试刷新页面,来获得最新页面出来
def detect_limit_page_solution(self, url):
while