投稿    登录
欢迎来访~

小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider;瞎几把整的)

Python 哎哟卧槽 26877浏览 359评论

扫码或搜索:进击的Coder

发送

即可立即永久解锁本站全部文章

估摸着各位小伙伴儿被想使用CrawlSpider的Rule来抓取JS,相当受折磨;

CrawlSpider Rule总是不能和Splash结合。

废话不多说,手疼····

 

方法1:

写一个自定义的函数,使用Rule中的process_request参数;来替换掉Rule本身Request的逻辑。

参考官方文档:

1、将请求更换为SplashRequest请求:

2、每次请求将本次请求的URL使用Meta参数传递下去;

3、重写 _requests_to_follow 方法:替换响应Response的URL为我们传递的URL(否则会格式为Splash的地址)

就像下面这样

方法2:

这就很简单啦!干掉类型检查就是了(/≧▽≦)/

就像这样:

以上完毕@_@!!

 

转载请注明:现金捕鱼游戏平台 » 小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider;瞎几把整的)

更多文章、联系博主、技术交流、商务合作

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

喜欢 (38)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址