通过nodejs来读取pptx内的图片

通过nodejs来读取pptx内的图片

月光魔力鸭

2020-12-24 00:51 阅读 313 喜欢 0 nodejs 读取pptx

为什么要读取图片呢?需求来源于这里。我有一大堆的ppt文件,里面全是图片,想将这些图片全部拿到,然后存储在数据库中,在线上预览,一张张的保存我自然是不乐意的。

找了一大堆文档都是读取pptx,没有读取ppt的怎么办,先转为pptx 吧,于是有了批量将ppt格式转为pptx格式的文章...

相关模块或文档

大体思路

其实高版本的pptx 也好,docx也好,本质上是一个压缩文件,我们完全可以将他的后缀改为rarzip 然后解压,就可以拿到里面的xml 或 资源文件,所以,思路就是将文档通过jszip 解压获取内部的文件,然后读取xml 找到对应的关系,然后将image读取出来进行保存。

实现代码

/**
 * 读取目录下的pptx 文件,并得到ppt的各个页面的截图数据,然后进行处理成为结构化数据。
 * @author chrunlee
 */
const JSZIP = require('jszip');
const fs = require('fs');
const path = require('path');
const xml2js = require('xml2js');
/**
 * 获取ppt内各个slide对应的图片路径,含多张图片
 * @param {Strin}} filePath pptx filepath
 */
function getSliders (filePath/**pptx filePath */,targetFolder) { 
  let data = fs.readFileSync(filePath)
  const zip = new JSZIP();
  return new Promise((r, j) => {
    //加载pptx数据
    zip.loadAsync(data).then(async zip => {
      let files = Object.keys(zip.files).filter(t => {
        return t.startsWith('ppt/slides') && path.extname(t) == '.rels';
      })
      //做文件名排序
      files.sort((a, b) => {
        let asq = path.basename(a).substr(0, path.basename(a).indexOf('.')).replace('slide', '');
        let bsq = path.basename(b).substr(0, path.basename(b).indexOf('.')).replace('slide', '');
        return asq - bsq;
      })

      let sliders = [];
      for (let file of files) { 
        //读取xml内容
        let content = await zip.file(file).async('string');
        let obj = await xml2js.parseStringPromise(content);
        //获取关联关系
        let relationship = obj.Relationships.Relationship;//[[]]
        let arr = relationship.filter(ship => {
          return path.extname(ship.$.Target) == '.jpeg' || path.extname(ship.$.Target) == '.png'
        }).map(ship => {
          return {
            id: ship.$.Id.replace('rId',''),
            filePath: 'ppt/'+ship.$.Target.substr(3)
          }
        }).sort((a, b) => {
          return a.id - b.id;
        })
        sliders.push(arr);
      }
      //将图片进行存储,并返回真实路径
      let fileArr = [];
      fs.mkdirSync(targetFolder, { recursive: true });
      for (let arr of sliders) { 
        let objarr = [];
        if (arr && arr.length > 0) { 
          for (let obj of arr) { 
            let stream = await zip.file(obj.filePath).async('nodebuffer');
            let realFilePath = path.join(targetFolder, path.basename(obj.filePath));
            fs.writeFileSync(realFilePath,stream);
            objarr.push({
              id : obj.id,filePath : realFilePath
            })
          }
        }
        fileArr.push(objarr);
      }
      r(fileArr);
    })
  })

}
(async function () { 
  let sliders = await getSliders('./蓝天空.pptx', 'd:/nodejs/toy/ppt转pptx读取/image/蓝天空/');
})();

通过读取ppt/slides/_rels/***.rels文件,来获得该slide中对应的图片,找到对应的关系,然后通过jszip来获得该图片数据流进行保存,思路很简单,主要还是对使用的模块的api不熟悉,找了不少资料。


仔细看ppt还会发现,有大部分ppt中一页有多张图片是拼接起来的...其实我是想讲多张图片合并为一张图片进行保存的。

当然,合并图片的就不在这里面写了,是另外一篇文章了,等我后续更新吧。 实现方式还是通过gm来进行合并,命令超级简单..就是安装费劲。

转载请注明出处: https://chrunlee.cn/article/nodejs-pptx-image.html


感谢支持!

赞赏支持
提交评论
评论信息 (请文明评论)
暂无评论,快来快来写想法...
推荐
最近看到知乎上一话题:微信公众号文章里的视频怎么下载?。看还是有很多人推荐啥工具啊,很是捉急,当然本次的主题也是通过程序来获取内容,但是目前来说仅仅是娱乐吧。
今天写文章,突然发现自己常用的素材站换成了webp格式的图片.. 可惜本站还没准备加这个支持,所以准备加个webp转jpg的小功能,继续使用啦。
前几天给朋友帮忙,想要一个一模一样的网站...自告奋勇去帮忙.. 结果发现之前一直没处理过类似的情况,虽然也写过爬虫,不过看了下网站,也不算麻烦。于是简单实现了这个自动抓站的功能,最终整理成为一个自动抓站的工具,能省很多的事情。
对于开发来说,看到别人家的小程序都这么靓,这么顺畅,这么好用,用户又多... 自然是眼馋的..用户馋不来,可以先馋他的身子..啊不,代码啊。
前段时间帮朋友下歌放在车上听..结果好多都是ncm格式,伤心 ,搜索了下发现基本上这格式解密有好多昂,可惜UI我都不太想要..决定抄一下,自己做一个。 这里先记录下核心代码,回头补充个UI 做个小程序。
在我们做运维或者小工具的时候,总会有些需要提醒的事情,比如服务器宕机或者天气提醒,但是发email又会不够及时或者可能会忽略,那么短信就是一个不错的选择了
经常会遇到需要系统重启后自动执行的一些任务,在windows 上可以将对应的程序打包成service 然后自启动即可
之前在知乎上有看到,基本上都是一致的,这里提供一个nodejs版本的针对微信内dat文件进行处理恢复为图片的方法。