谷姐:我们都是谷歌迷
We are all Google fans

如何收集更多的短信内容样本?用于机器学习-edexb008

Rate this post

最近课题作业需要做个垃圾短信识别的工具
整理了几千条短信内容,然后一条条手工标记区分正常短信和垃圾短信,用来训练机器学习模型。
发现几千条样本还是太少了点,现在准确率还远远不够,需要继续收集样本。
只要短信内容正文就好,不需要发信收信号码,脱敏后应该没有隐私问题。
想请问各位MJJ大佬,还能从哪里收集更多的短信样本?
小弟感激不尽!提供有用线索必有重谢!有偿信息亦可直接私信!

热议
推荐楼 colla 1小时前

IOS上熊猫吃短信不就是深度学习做的

2楼 guowq 5小时前

曾经见过有人花钱收垃圾短信的

3楼 qwerttaa 5小时前

你把你手机,能注册的,挨着注册一遍

jd和tb,能开会员的,那些免费入会一类的,挨着开。然后等俩月

要么你就直接爬一下那些接码站,不想爬,就写信联系,交易一下,py一下

4楼 edexb008 5小时前

曾经见过有人花钱收垃圾短信的

那种是撸黑产羊毛的吧

5楼 shiyu 5小时前

用程序编点垃圾短信然后喂给模型

6楼 edexb008 5小时前

你把你手机,能注册的,挨着注册一遍

jd和tb,能开会员的,那些免费入会一类的,挨着开。然后等俩月

现在这几千条就是靠我自己手机里的各种优惠送券短信

接码站倒是看过,基本都是验证码的信息,正常短信、垃圾短信比较少

7楼 coxpc 5小时前

github有不少相关,数据集虽然旧了但是垃圾短信还是换汤不换药

8楼 coxpc 5小时前

https://github.com/wandouqiang/RubbishMessage/tree/master/data
https://github.com/hrwhisper/SpamMessage/tree/master/data
https://github.com/mJackie/SpamMessage/tree/master/Classfier/DataPreprocess

9楼 kyc 5小时前

人工智能哟点高端啊!tensorflow吗

10楼 longkulo 5小时前

https://yunjisms.xyz/
用爬虫爬下,几十万条还是有的

12楼 edexb008 2分钟前

https://github.com/wandouqiang/RubbishMessage/tree/master/data
https://github.com/hrwhisper/SpamMess ...

多谢大佬!我之前有看到过这些,网上的数据集有点偏离真实场景,对准确率有点影响。

申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。

未经谷姐允许不得转载:谷姐靓号网 » 如何收集更多的短信内容样本?用于机器学习-edexb008
分享到: 生成海报

热门文章

评论 抢沙发

评论前必须登录!

立即登录   注册

买Google Voice认准【谷姐靓号网】

Google Voice靓号列表Google Voice自助购买
切换注册

登录

忘记密码 ?

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活