如何从一个大文件中分离小文件

如何从一个大文件中分离小文件

BUG集散地

2018-09-12 10:24 阅读 39 喜欢 0 nodejs 文件切割

背景

互联网应用经常需要存储用户上传的图片,比如facebook相册。

facebook目前存储了2600亿张照片,总大小为20PB,每张照片约为80KB。用户每周新增照片数量为10亿。(总大小60TB),平均每秒新增3500张照片(3500次写请求),读操作峰值可以达到每秒百万次。

考虑到一台标配的服务器的硬盘是10TB,理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数,如果超过500w,性能会大幅下降。

在普通的linux文件系统中,读取一个文件包括三次磁盘io:首先读取目录元数据到内存,其次把文件中的inode节点装载到内存,最后读取实际的文件内容。由于小文件个数太多,无法将所有的目录以及文件的inode信息缓存到内存,因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此,facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

1个物理文件的大小=32MB。因此linux服务器中的文件个数在 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

- 1字节的标记位。0代表接下来的照片仍然可用,1代表接下来的照片已经被删除,2代表该物理文件接下来已经没有图片了。

- 4字节的size。标记照片的大小x。

- x字节,照片文件本身。
实现

首先,文件已经到手,现在的目标是,根据规则,将文件的所有图片解出。

思路:...没有思路 读取,然后循环,然后写入即可。

代码:

var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i<b.length;){
    var start = i;
    var flag = b.slice(start,start+1);//获得标志位
    flag = getR(flag);
    if(flag == 0){
        var size = getR(b.slice(start+1,start+5));
        //将图片输出
        fs.writeFile(c+'.jpg',b.slice(start+5,start+6+size),function(){
            console.log('图片写入完成')
        });
        i = i + 1 + 4 + size;
        c++;
    }else if(flag == 1){
        var size =getR( b.slice(start+1,start+5));
        i = i + 1 + 4 + size;
    }else if(flag == 2){
        i = b.length;
    }
}

function getR ( buf ){
    return parseInt(buf.toString('hex'),16);
}

额,对于我个人的难点在于 16进制转 10进制..

  1. 首先将BUFFER 转成字符串,buffer内为16进制的,转成string ,则调用Buffer.toString('hex');
    //其中buffer的 toString 还支持以下几个类型encode
    utf8
    hex
    ascii
    binary
    base64
    utf-16le
  2. 然后获得16进制的字符串,然后见字符串转化为10进制的数字
    var str = 'ff';
    parseInt(str,16);
    //以下转化
    var a = 'ff';//字符串
    parseInt(a,16);//255
    var a = 0xff;
    a.toString(10);//"255"
    //如果想把16进制转化为10进制
    var a = 0xff;
    parseInt(a)
    parseInt(a.toString(16))

转载请注明出处: https://chrunlee.cn/article/bigfile-split-picture.html


如果对你有用的话,请赏给作者一个馒头吧 ...或帮点下页面底部的广告,感谢!!

赞赏支持
提交评论
评论信息(请文明评论)
暂无评论,快来快来写想法...
推荐
在我们做运维或者小工具的时候,总会有些需要提醒的事情,比如服务器宕机或者天气提醒,但是发email又会不够及时或者可能会忽略,那么短信就是一个不错的选择了
也不知道咋回事 ... 哈哈,忽然想研究下磁力网站,其实并不是很想懂里面的原理,只是搞不明白他们的资源是从哪里来的..很是纳闷?
通过nodejs来进行爬取页面的内容,这里简单试试做个小任务..
前几天给朋友帮忙,想要一个一模一样的网站...自告奋勇去帮忙.. 结果发现之前一直没处理过类似的情况,虽然也写过爬虫,不过看了下网站,也不算麻烦。于是简单实现了这个自动抓站的功能,最终整理成为一个自动抓站的工具,能省很多的事情。
目前了解的有两个模块可以实现二维码的模块,一个是node-qrcode ,这个算是比较大众的,不过环境比较复杂,所以...连看都没看;还有一个是小众的 qr-image ,这个比较简单,没有其他环境依赖,安装即可用,因为要实现一个简单的在线二维码生成,就先用这个试试水了
在开发项目过程中,经常需要将开发的项目部署到服务器上,但是每个环境都有每个环境的配置等等,如果每次打包的时候都要去调整(可能删除、替换等),那就很烦人了,这里分享下自己实现的几个简单的小工具(当然这个工具可能只对我自己有用),希望能够帮到你。
在使用puppeteer 跳转窗口的时候,发现waitForNavigator 并不起作用,最后找到通过browser 获得page 并继续操作。
记录下通过nodejs调用imagemagick 的时候发现的一个错误,command failed -- crop .