站点图标 谷姐靓号网

一个小图站的爬虫-qianmianyao

Rate this post

其实爬这些图站的逻辑都是一个样的,没啥意思,现在的脚本是单线程,没有异步和多线程,我也是边写边学,这几天在学异步,学会了我就改一下脚本再在这个贴里发一遍,爬的是这个站:https://zazhitaotu.cc
需要的依赖是
iasyncio
os
random
re
bs4
requests
httpx
aiofiles
python 版本大于 3.7 就行
脚本地址:https://github.com/qianmianyao/python_learn/blob/main/小爬虫.py

小爬虫更新啦!
更新了异步下载,基本是3 秒一套图
方案是同步请求,异步下载,全部用异步逻辑太复杂,其次是会被网站拒绝链接。

热议
2楼 我是坏虫 7天前

大佬了解下94imm

3楼 optimism 7天前

技术贴必顶

4楼 萌墨 7天前

虽然写得很简单,不过还是鼓励继续迭代更新

5楼 专业黑人抬棺 7天前

哎呀,漏点的啊,我喜欢,收下了

6楼 llol9420 7天前

进来学习一下技术

7楼 qianmianyao 7天前

虽然写得很简单,不过还是鼓励继续迭代更新

估计更新也就是优化一下爬取速度了,不过大多数图站的模式差不多,改一下匹配方式可以通用了

8楼 萌墨 7天前

估计更新也就是优化一下爬取速度了,不过大多数图站的模式差不多,改一下匹配方式可以通用了 ...

要稳定的话我还是建议单线程爬取,设置时间延迟,还又可以按照底部页码进行爬取,而不是通过 固定url+数字
匹配方式可以换着其它的 正则,xpath,bs4,可以换着使用看看哪个效率高,熟悉一下

进阶:多线程,协程,代理ip,对网站更新的内容进行爬取

scarpy框架是个不错的东西

9楼 qianmianyao 半小时前

异步速度是真的快

申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。

退出移动版