站点图标 谷姐靓号网

【持续更新】hostloc月度热帖-danube533

Rate this post

记得之前有大神发过半年度的hostloc值得收藏的帖子,后来就没更新了。现在水贴太多,看得眼花缭乱。简单学习了下python,配合chatgpt写了个抓取脚本,本来想抓年度热帖的,无奈最多只能抓1000页,改成月度并归档,好以后查阅。

先抓了22年12月份的,总体感觉质量较差,干货太少

抓取原则:回帖数 ≥ 40 && 查看数 ≥ 1500 && 过滤部分交易、踢楼贴

https://github.com/danube533/hostloc_hot

热议
2楼 solomon314 昨天12:54

正好学习下,现在灌水的太多了(包括我)

3楼 vchv 昨天12:54

不错!

4楼 HOH 昨天12:55

全是垃圾帖,垃圾堆里翻东西没啥用,建议去爬v2ex

5楼 danube533 昨天12:59

全是垃圾帖,垃圾堆里翻东西没啥用,建议去爬v2ex

几年前干货满满

6楼 xinchenmi 昨天13:04

绑定

7楼 b66667777 昨天13:10

可以

8楼 C大 昨天13:45

前排占座,想法不错!

9楼 danube533 昨天19:14

没人看就沉了

10楼 gajiodgaj 昨天19:19

好帖,有了快照不怕255

12楼 image 昨天20:00

链接发出来呀

13楼 ojcc 半小时前

支持 ,借楼同问这位老哥的loc工具箱网站啥时候恢复
@nnt

14楼 ojcc 半小时前

之前那个精华版过滤的是收藏>=10,感觉还是收藏靠谱一点毕竟是手动点的 ...

@danube533 收藏数是个非常重要的指标。

再做个排序就好了,按照回帖数/查看数 的比值来排序

15楼 ojcc 半小时前

@danube533 还有就是如果有按日的就好了,很多帖子具有即时性,时间长了就失效了

16楼 言和 半小时前

页面可以做成表格,现在这样的排版不好看

申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。

退出移动版