谷姐:我们都是谷歌迷
We are all Google fans

爬虫求思路! 同花顺网站-sizzlingbun

Rate this post

http://basic.10jqka.com.cn/api/stock/export.php?export=main&type=year&code=300033

这个链接,直接从浏览器打开的话可以下载excel文件,但是从postman的话返回的是一块html,里面有window.location.href这样的js,在python里面直接用request下不下来,然后我就试了selenium,竟然好像可以检测到我用自动化了? 提示Nginx forbidden.

目前唯一能从代码里面下载的方式就是加上这样的Cookie
reviewJump=nojump; searchGuide=sg; usersurvey=1; v=A8uJBJIXLfqelHEu9ieteFWwXG6wYN8pWXSjlT3Ip4phXOWKxTBvMmlEM_lO
标红部分需要从实际的浏览器中请求,然后从network里面复制过来,但是请求两次就失效了,需要重新从真实浏览器里面请求来获得新的。有mjj有思路吗 ,想不通啊

更新:
我把真实浏览器的请求参数除了cookie里面那个v之外 全部完全复制到selenium中,还是nginx forbidden,只有把v也复制过来才可以请求成功,但是只能请求成功一次,真实浏览器每一次请求这个文件,都会生成一个新的v,好像是前端一个js文件根据时间戳酸的?,

热议
2楼 我是坏虫 1小时前

没思路绑定

是因为你没修改Selenium的默认UA

4楼 phpsky 1小时前

自动化测试原则上和正常访问没区别,带上cookie文件目录

5楼 lovees 1小时前

byte[] b = result.ResultByte;
可以直接下载
C#完全没问题,py不玩了

6楼 三丫的 1小时前

不会,帮顶

7楼 sizzlingbun 半小时前

提示是因为你没修改Selenium的默认UA

修改了还是没效果

8楼 今晚吃鸡 半小时前

修改了还是没效果

一样没效果

9楼 dragonfsky 24分钟前

等下班研究下 你可以搜下除去selenium特征看行不行

10楼 Fuck!Tencent 12分钟前

怎么爬 金十数据的电报快讯呢?? 话说楼主,你搞同花顺网站啥信息呢?

申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。

未经谷姐允许不得转载:谷姐靓号网 » 爬虫求思路! 同花顺网站-sizzlingbun
分享到: 生成海报

热门文章

评论 抢沙发

评论前必须登录!

立即登录   注册

买Google Voice认准【谷姐靓号网】

Google Voice靓号列表Google Voice自助购买
切换注册

登录

忘记密码 ?

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活