python3 asyncio异步新浪微博爬虫WeiboSpider

  • 时间:
  • 浏览:1

这里太大 废话,至少 介绍一下如可会会么做的。大致是:

而weibo.com假使 输入验证码,而验证码还并能 通过yundama来验证,yundama什么都有贵,验证一次至少 一分钱吧,登录成功后,在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

使用了aiohttp,毕竟python的协程比多守护程序更给力,爬虫什么都有个频繁io的过程,自然用协程比多守护程序快了不少。

talk is cheap, show you the code

github:https://github.com/zhujiajunup/WeiboSpider

这里就不说具体如可会会么做和使用了,README.md上有使用不走,感兴趣的看源码去吧。

通过weibo.com登录界面登录,导致 weibo.cn登录导致 时要验证的话是要之类于解锁那样验证的,不好做。

后来写的用python3+urllib写的多守护程序微博(传送门),中间发现登录账号频繁被403,什么都有处里登录什么的间题迫在眉睫。而且 python的“多守护程序”并不这么 多守护程序,最近导致 刚需,时要稳定的微博爬虫,什么都有琢磨了一下使用selenium+aiohttp+redis写了有2个多多多使用asyncio的新浪爬虫。

而且 把cookies保地处redis共享

解析用的是bs4,解析后的数据装进去 kafka上,想存哪存哪~