想弄个采集站,采集上亿个文章,想全部放在同一个目录下(不创建子文件夹目录),这样可行吗?会不会出问题呢?比如效率会更差之类的?
热议
2楼 251768938 2小时前
3楼 yc260982 2小时前
简单分个2层目录即可
4楼 会翻车吗 2小时前
别放同一个文件夹下
有什么劣势可以告诉我吗
5楼 acpp 2小时前
建议hash分到多个子文件夹
6楼 我是坏虫 2小时前
有什么劣势可以告诉我吗
7楼 海的尽头 2小时前
估计电脑都崩溃了
8楼 251768938 2小时前
有什么劣势可以告诉我吗
查看,大概可以理解为能存储的文件数量上限,一般这个数量都是几千万,也就是说,别说放一个文件夹了,你放一个文件系统里都放不下几亿个文件。
再假设你通过一些设置,改大了这个上限,可以存储这么多文件了,这样的话其实单个文件夹和多个文件夹区别不大,都会很卡,因为inode总数过大,查找缓慢。
这种大量小文件存储,可以考虑用leveldb或者rocksdb来做,原理大概是把很多小文件整合成一个大文件。
10楼 cnly1987 2小时前
基本上不可能。
12楼 yrj 半小时前
你不入库吗?直接生成html保存?
申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。
评论前必须登录!
立即登录 注册