如何通过程序自动抓取微信公众号文章的内容和视频

如何通过程序自动抓取微信公众号文章的内容和视频

月光魔力鸭

2020-12-04 09:02 阅读 1285 喜欢 4 puppeteer 爬虫

最近看到知乎上一话题:微信公众号文章里的视频怎么下载?。看还是有很多人推荐啥工具啊,很是捉急,当然本次的主题也是通过程序来获取内容,但是目前来说仅仅是娱乐吧。

微信公众号文章里的视频怎么下载

其实,如果只是针对一个文章的话是很简单的,直接通过复制文章地址 ,在谷歌浏览器打开后,然后在视频右下角点击全屏,点击右下角的点点点,点击下载即可。

当然也可以通过F12来查看video标签或查看network数据请求。

这些都是一些基本的操作了,这里不细说了,下边主要是通过puppeteer来获取视频并下载。

之前通过puppeteer其实已经做过很多事情了,登录啊 签到啊 等等,我也不知道我为啥会继续做,因为总体来说没有什么技术含量的,目前主要是做个铺垫,后续研究下如何抓取所有公众号的所有文章。

话不多说,直接上代码

/**
 * 小爬虫。
 * 目标:
 * 将微信公众号的视频下载下来,将文章保存PDF。
 * 
 * 问题:如果等待资源文件全部加载完毕后,才打印PDF。
 * 
 * 后续计划:
 * 获取某公众号内所有的文章地址,并进行轮询获取所有视频/文章PDF。
 * --微信。
 */

const puppeteer = require('puppeteer');
const path = require('path');
const fs = require('fs');
const helper = require('think-helper');//创建目录api
const axios = require('axios');
const folder = __dirname;

let url = `https://mp.weixin.qq.com/s/fwY6FPFCfgdJNTd22qqjKg`;
// let url = `https://mp.weixin.qq.com/s?__biz=MjM5MDAwNTk0MA==&mid=2653094471&idx=1&sn=8f430a2f1764714815ee9f523091b88b`;

function wsf(rs,ws){
    return new Promise((r,j)=>{
        rs.pipe(ws);
        ws.on('close',e=>{
            r();
        })
    });
}


(async function(){

    let browser = await puppeteer.launch({
        headless : true,
        executablePath : 'C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe'
    });

    console.log(`开启新页面:[${url}]`);
    const page = await browser.newPage();

    let asyncArr = [];
    page.on('response',async (res)=>{
        try{
            let json = await res.json();//
            if(json && json.url_info){
                console.log(`获取到异步视频数据.`);
                asyncArr = asyncArr.concat(json.url_info);
            }
        }catch(e){}
    })
    console.log(`等待页面数据请求加载完成。`)
    await page.goto(url,{
        waitUntil : 'networkidle2'//请求结束
    });

    //url
    let videoArr = await page.evaluate(()=>{
        return $('video').get().map(t=>{
            return $(t).attr('src');
        })
    });
    
    //获取公众号信息
    let name = await page.evaluate(()=>{
        return $('.account_nickname_inner').length > 0 ? $('.account_nickname_inner').text() : $('.rich_media_meta_nickname #js_name').text();
    });
    let title = await page.evaluate(()=>{
        return $('.common_share_title').length > 0 ? $('.common_share_title').text() : $('.rich_media_title').text();
    });
    name = name.trim();
    title = title.trim();
    console.log(`获取到公众号信息:[${name}-${title}]`)


    //创建目录
    let folderPath = path.join(folder,name,title);
    helper.mkdir(folderPath);//创建目录
    //对视频做处理。
    let vr = [];

    vr =vr.concat(videoArr.map(t=>{
        let u = new URL(t);
        let fileName = title+path.extname(u.pathname);
        let filePath = path.join(folderPath,fileName);
        return {
            title : fileName,
            filePath : filePath,
            url : t
        }
    }));

    vr = vr.concat(asyncArr.map(t=>{
        let u = new URL(t.url);
        let fileName = t.video_quality_wording +'-'+ title+path.extname(u.pathname);
        let filePath = path.join(folderPath,fileName);
        return {
            title : fileName,
            filePath : filePath,
            url : t.url
        }
    }));

    console.log(`开始准备下载视频文件`);
    for(let video of vr){
        console.log(`开始下载视频:[${video.title}]`)
        await axios.get(video.url,{
            responseType : 'stream'
        }).then(async rs=>{
            await wsf(rs.data,fs.createWriteStream(video.filePath));
        })
    }

    //将页面滚动到最底部
    await page.evaluate(()=>{
        $('html').get(0).scrollTop = $('html').get(0).scrollHeight
    });
    console.log('等待资源加载.....')
    // await page.evaluate(function(){
    //     let timeLimit = 60 * 1000;
    //     return new Promise((r,j)=>{
    //         let isLoaded = true;
    //         let start = +new Date();
    //         let t = setInterval(function(){
    //             $('img').get().forEach(t=>{
    //                 var img = $(t).attr('src');
    //                 var pimg = $(t).data('src');
    //                 if(img.indexOf(pimg) > -1){
    //                     isLoaded  = isLoaded && true;
    //                 }else{
    //                     isLoaded  = isLoaded && false;
    //                 }
    //             })
    //             if(isLoaded || (+new Date()) - start > timeLimit){
    //                 clearInterval(t);
    //                 r();
    //             }
    //         },500);
    //     })
    // });


    //pdf
    console.log(`保存文章到PDF`)
    await page.pdf({
        path : path.join(folder,name,title,title+'.pdf'),
        format  : 'A4',
        printBackground  : true
    });

    console.log(`关闭浏览器`);
    await browser.close();

    process.exit(0);


})();

总体来说大约用了不到一个小时,包括实现啊调试啊,相对来说没有什么难度。不过也碰到了一个问题,资源懒加载的问题。

目前还没有啥比较好的思路来去确定资源加载完毕的回调,暂时搁置。

准备抽时间把这个小东西做成服务,扔在博客的工具里面,到时候看看情况。

转载请注明出处: https://chrunlee.cn/article/weixin-video-fetch.html


感谢支持!

赞赏支持
提交评论
评论信息 (请文明评论)
暂无评论,快来快来写想法...
推荐
最近又回归了下DNF ,玩了一段时间,感觉也挺没意思的,关键是平时更没意思,想着不行搞个自动刷图吧(先说结论,没成)
最近一直在围绕着我的小电脑在转,基本都是这方面的问题。在没有公网IP的情况下,这个问题就是我怎么才能通过域名访问到我家中的服务器。
跑了一个千库网的自动签到,在windows上测试的时候好好的,图片也没问题,可是放到linux服务器就不行了,总是登录不上不说,图片都不一样
也不知道咋回事 ... 哈哈,忽然想研究下磁力网站,其实并不是很想懂里面的原理,只是搞不明白他们的资源是从哪里来的..很是纳闷?
今天想在服务器上跑下自己自动签到的程序,需要安装puppeteer ,结果出错。 permission denied, mkdir '/root/.nvm/versions/node/v9.11.1/lib/node_modules/
目前了解的有两个模块可以实现二维码的模块,一个是node-qrcode ,这个算是比较大众的,不过环境比较复杂,所以...连看都没看;还有一个是小众的 qr-image ,这个比较简单,没有其他环境依赖,安装即可用,因为要实现一个简单的在线二维码生成,就先用这个试试水了
最近在折腾的时候又想写less了,但是换框架了,成了thinkjs,考虑到开发阶段一直编译编译less的情况..最终根据middleware的特点实现了一个超级简单的less中间件。
在公司报销的时候虽然已经有了电子发票,但是贴票还是需要将发票打印出来贴上,如果只有一两张也就算了,如果几十张.. 呵呵,光胶水我都不够用的,找了好多工具、在线版本都不合心意,烦死,自己做个自己喜欢的吧。