爬虫求思路! 同花顺网站-sizzlingbun

root

3年前

Rate this post

http://basic.10jqka.com.cn/api/stock/export.php?export=main&type=year&code=300033

这个链接，直接从浏览器打开的话可以下载excel文件，但是从postman的话返回的是一块html，里面有window.location.href这样的js，在python里面直接用request下不下来，然后我就试了selenium，竟然好像可以检测到我用自动化了？提示Nginx forbidden.

目前唯一能从代码里面下载的方式就是加上这样的Cookie
reviewJump=nojump; searchGuide=sg; usersurvey=1; v=A8uJBJIXLfqelHEu9ieteFWwXG6wYN8pWXSjlT3Ip4phXOWKxTBvMmlEM_lO
标红部分需要从实际的浏览器中请求，然后从network里面复制过来，但是请求两次就失效了，需要重新从真实浏览器里面请求来获得新的。有mjj有思路吗，想不通啊

更新：
我把真实浏览器的请求参数除了cookie里面那个v之外全部完全复制到selenium中，还是nginx forbidden，只有把v也复制过来才可以请求成功，但是只能请求成功一次，真实浏览器每一次请求这个文件，都会生成一个新的v，好像是前端一个js文件根据时间戳酸的？，

热议
2楼我是坏虫 1小时前

没思路绑定

是因为你没修改Selenium的默认UA

4楼 phpsky 1小时前

自动化测试原则上和正常访问没区别，带上cookie文件目录

5楼 lovees 1小时前

byte[] b = result.ResultByte;
可以直接下载
C#完全没问题,py不玩了

6楼三丫的 1小时前

不会，帮顶

7楼 sizzlingbun 半小时前

提示是因为你没修改Selenium的默认UA

修改了还是没效果

8楼今晚吃鸡半小时前

修改了还是没效果

一样没效果

9楼 dragonfsky 24分钟前

等下班研究下你可以搜下除去selenium特征看行不行

10楼 Fuck!Tencent 12分钟前

怎么爬金十数据的电报快讯呢？？话说楼主，你搞同花顺网站啥信息呢？

申明：本文内容由网友收集分享，仅供学习参考使用。如文中内容侵犯到您的利益，请在文章下方留言，本站会第一时间进行处理。