记得之前有大神发过半年度的hostloc值得收藏的帖子,后来就没更新了。现在水贴太多,看得眼花缭乱。简单学习了下python,配合chatgpt写了个抓取脚本,本来想抓年度热帖的,无奈最多只能抓1000页,改成月度并归档,好以后查阅。
先抓了22年12月份的,总体感觉质量较差,干货太少
抓取原则:回帖数 ≥ 40 && 查看数 ≥ 1500 && 过滤部分交易、踢楼贴
https://github.com/danube533/hostloc_hot
热议
2楼 solomon314 昨天12:54
正好学习下,现在灌水的太多了(包括我)
3楼 vchv 昨天12:54
不错!
4楼 HOH 昨天12:55
全是垃圾帖,垃圾堆里翻东西没啥用,建议去爬v2ex
5楼 danube533 昨天12:59
全是垃圾帖,垃圾堆里翻东西没啥用,建议去爬v2ex
几年前干货满满
6楼 xinchenmi 昨天13:04
绑定
7楼 b66667777 昨天13:10
可以
8楼 C大 昨天13:45
前排占座,想法不错!
9楼 danube533 昨天19:14
没人看就沉了
10楼 gajiodgaj 昨天19:19
好帖,有了快照不怕255
12楼 image 昨天20:00
链接发出来呀
13楼 ojcc 半小时前
支持 ,借楼同问这位老哥的loc工具箱网站啥时候恢复
@nnt
14楼 ojcc 半小时前
之前那个精华版过滤的是收藏>=10,感觉还是收藏靠谱一点毕竟是手动点的 ...
@danube533 收藏数是个非常重要的指标。
再做个排序就好了,按照回帖数/查看数 的比值来排序
15楼 ojcc 半小时前
@danube533 还有就是如果有按日的就好了,很多帖子具有即时性,时间长了就失效了
16楼 言和 半小时前
页面可以做成表格,现在这样的排版不好看
申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。
评论前必须登录!
立即登录 注册