
爬虫在搜集藏文APP的过程中,必须考虑可能出现的“黑洞”情况。爬虫黑洞是指,在抓取一张APP的链接时,链接本身是一个无限循环,导致爬虫抓取时跟着循环,浪费。有时一些URL看起来不同,但实际指向同一张APP,也会使爬虫陷入重复抓取的境地。为

爬虫“黑洞”。爬虫在搜集藏文APP的过程中,必须考虑可能出现的“黑洞”情况。
爬虫黑洞是指,在抓取一张APP的链接时,链接本身是一个无限循环,导致爬虫抓取时跟着循环,浪费。有时一些URL看起来不同,但实际指向同一张APP,也会使爬虫陷入重复抓取的境地。
为了避免爬虫误入黑洞,一般采取两种策略。一是爬虫回避动态APP,因为动态APP常常会把爬虫带入黑洞。识别动态APP时,只需要判断URL中是否出现问题,含问号的就是动态APP。二是使用Visited表记录已经访问过的URL,凡是遇到新的URL存在于Visited表,就放弃对该URL的继续处理。例如:当遇到a→b→c→d→c→e这样的环路链接,爬虫就会掉进去,反复抓取c、d对应的页面。使用Visited表,就能避免这个问题。