如何从一个大文件中分离小文件

月光魔力鸭

2018-09-12 10:24 阅读 1099 喜欢 0 nodejs 文件切割

背景

互联网应用经常需要存储用户上传的图片，比如facebook相册。

facebook目前存储了2600亿张照片，总大小为20PB，每张照片约为80KB。用户每周新增照片数量为10亿。（总大小60TB），平均每秒新增3500张照片（3500次写请求），读操作峰值可以达到每秒百万次。

考虑到一台标配的服务器的硬盘是10TB，理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数，如果超过500w，性能会大幅下降。

在普通的linux文件系统中，读取一个文件包括三次磁盘io:首先读取目录元数据到内存，其次把文件中的inode节点装载到内存，最后读取实际的文件内容。由于小文件个数太多，无法将所有的目录以及文件的inode信息缓存到内存，因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此，facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

1个物理文件的大小=32MB。因此linux服务器中的文件个数在 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

- 1字节的标记位。0代表接下来的照片仍然可用，1代表接下来的照片已经被删除，2代表该物理文件接下来已经没有图片了。

- 4字节的size。标记照片的大小x。

- x字节，照片文件本身。

实现

首先，文件已经到手，现在的目标是，根据规则，将文件的所有图片解出。

思路：...没有思路读取，然后循环，然后写入即可。

代码:

var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i<b.length;){
    var start = i;
    var flag = b.slice(start,start+1);//获得标志位
    flag = getR(flag);
    if(flag == 0){
        var size = getR(b.slice(start+1,start+5));
        //将图片输出
        fs.writeFile(c+'.jpg',b.slice(start+5,start+6+size),function(){
            console.log('图片写入完成')
        });
        i = i + 1 + 4 + size;
        c++;
    }else if(flag == 1){
        var size =getR( b.slice(start+1,start+5));
        i = i + 1 + 4 + size;
    }else if(flag == 2){
        i = b.length;
    }
}

function getR ( buf ){
    return parseInt(buf.toString('hex'),16);
}

额，对于我个人的难点在于 16进制转 10进制..

首先将BUFFER 转成字符串，buffer内为16进制的，转成string ,则调用Buffer.toString('hex');

//其中buffer的 toString 还支持以下几个类型encode
utf8
hex
ascii
binary
base64
utf-16le

然后获得16进制的字符串，然后见字符串转化为10进制的数字

var str = 'ff';
parseInt(str,16);
//以下转化
var a = 'ff';//字符串
parseInt(a,16);//255
var a = 0xff;
a.toString(10);//"255"
//如果想把16进制转化为10进制
var a = 0xff;
parseInt(a)
parseInt(a.toString(16))

转载请注明出处: https://chrunlee.cn/article/bigfile-split-picture.html

感谢支持!

赞赏支持

喜欢

评论信息 (请文明评论)

暂无评论，快来快来写想法...

推荐

nvm nodejs的版本管理

在平时nodejs练习过程中，可能会安装多个不同版本的nodejs,那么我们如何来轻松的管理和切换呢？推荐你一个nvm来试试水

好好住抓图记录

最近家里正在装修，实在是不知道怎么做，之前看好好住APP上有不少设计的图，部分还挺好看。。就去看了下有没有WEB端，结果还真有，就有了下文，我抓了几万张图片,然后根据关键字进行分类，从里面找心仪的设计。

网易云音乐NCM格式转化为mp3

前段时间帮朋友下歌放在车上听..结果好多都是ncm格式，伤心，搜索了下发现基本上这格式解密有好多昂，可惜UI我都不太想要..决定抄一下，自己做一个。这里先记录下核心代码，回头补充个UI 做个小程序。

pm2 管理nodejs集群，同时使用redis共享session

通过pm2来实现nodejs应用的集群，不过我之前没做session共享，导致.. 登录不上啊啊啊啊，无奈，又重新对redis进行了集成。

微信小程序解密反编译之node实现

对于开发来说，看到别人家的小程序都这么靓，这么顺畅，这么好用，用户又多... 自然是眼馋的..用户馋不来，可以先馋他的身子..啊不，代码啊。

nodejs给文件链接添加md5

在开发的时候，经常会有css js 文件的变更，然后部署后发现没有起到作用，最终发现是缓存的问题，如何来方便的解决

开发自己的nodejs命令行工具

在日常开发中，经常会频繁的做一些重复性的操作，作为一名程序员，解放双手的时刻到了

记录千库网的一次自动登录

写文章总会需要一些素材，但是好多素材都是收费或有限制的，还是我要求不高，在千库网看了下还不错，有各签到还送VIP，于是就有了想法....