帮助中心 > 我要一次同时采集多页怎么操作?
FAQ

假设你现在已经创建了一个爬虫,你可能还需要爬取多页数据。说一说淘宝爬虫,说说如何爬取多页。

https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44

https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=88

https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=132

你可以往后拉动查看网址的差异,为了更好的看出差异,可以观看下图

先不说第一页,第二页、第三页、第四页末尾分别是44、88、132,公差(或者叫做“步长”)是44

44 + 44 = 88
88 + 44 = 132

这个时候就需要去验证第五页是不是 132 + 44 = 176 ,回到网页打开第五页,发现就是 176,那么现在基本可以判断网页翻页规律就是以44为步长的一个等差数列。

我们看第一页,末尾不是 s = 0 ,我们可以再测试下,将第五页末尾数字改为 0 ,打开网址,看到真好是第一页。所以第一页也符合这个规律,很多网站的第一页“初次”看起来可能和其他页不一样,我们可以通过测试,看看第一页是否符合其他网页的通用规律。我们强烈建议 从第二页开始寻找网页的翻页规律

那么淘宝的翻页规律就是

https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s={{0-396;44}}

采集10页

造数使用{{0-396;44}} 来替换网址中数字的变化,注意第一页是从0开始,并且是小写的;,一定要注意。 你可以修改396 来爬取更多页数。

上面说的是淘宝的翻页,每一个网站的翻页规律都不同,都需要去寻找,下面说一个比较简单的案例:链家

第二页 https://bj.lianjia.com/ershoufang/pg2/
第三页 https://bj.lianjia.com/ershoufang/pg3/
第四页 https://bj.lianjia.com/ershoufang/pg4/

可以看出链家的翻页就是pg后面的数字,所以链家的翻页规律就是:

https://bj.lianjia.com/ershoufang/pg{{1-100}}/

采集100页的规则设置,注意第一页是否符合规律,是否存在第100页。

学到这里,你可以采集很多网站了,但是还存在一些特殊的网站,翻页之后网址不变的,这类网站一般是Ajax加载,比较复杂,建议遇到这种情况去咨询强大的造数客服

找到 条 关于""的回答

    没有找到关于 "" 的回答

    问题仍未解决?
    通过 提交工单 ,我们技术支持团队会为你提供帮助
    提交工单