nodejs爬虫爬取豆瓣评分

月光魔力鸭

2018-09-16 09:19 阅读 1096 喜欢 1 nodejs爬虫豆瓣评分

之前玩千里码的时候，有这么一个题目，如下：Google，Baidu的两大技术：爬虫和搜索。爬虫负责抓取整个互联网的内容，搜索负责生成索引供用户检索。所以爬虫算是这两个公司的看家本领了。但是Google和Baidu的爬虫技术是不公开的，算是商业机密了。所以360搜索刚起步的时候第一件事就是挖百度的核心搜索爬虫组的程序员，基本是3倍工资起挖(跪求360公司来辟谣)。虽然没办法知道这两家公司的爬虫技术，但是我们可以通过开源项目来学习。比如Scrapy就是一个非常优秀开源的爬虫框架，如果对爬虫有兴趣的话可以深入学习该框架。

简单地讲，爬虫分为两个步奏：

把页面源码下载下来
解析下载下来的页面，得到我们想要的数据
在第一步中，可能会需要登录，需要绕开网站的反爬虫机制等等。在第二步中则需要使用XPath、CSS Selector、正则表达式等工具来进行解析。

这里通过一个非常简单的任务来让大家感受一下爬虫：豆瓣电影Top250收录了至今为止，大家最喜欢的250部电影。该列表呈现了每部电影的评分，年份等基本信息。这题的答案很简单，就是这个榜单的前166部电影的评分总和。举例：目前排第一的《肖申克的救赎》是9.6分，第二的《这个杀手不太冷》是9.4分，第三的《阿甘正传》是9.4分。那么前3部电影的总分为9.6+9.4+9.4=28.4。

以下为具体实现代码：

var url = 'https://movie.douban.com/top250?start=';

//需要统计166部，每页25条
var superagent = require('superagent');
var cheerio = require('cheerio');
var numArr = [];
var getNext = function(path,start){
    var tempPath = path+start;
    superagent.get(tempPath).set({
        'cookie':'bid=xEbtZyJpLBs; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1474114942%2C%22http%3A%2F%2Fwww.qlcoder.com%2Ftask%2F7560%22%5D; _pk_id.100001.4cf6=ebdb1fdadde80a53.1474114942.1.1474115010.1474114942.; _pk_ses.100001.4cf6=*; __utma=30149280.834196820.1474114942.1474114942.1474114942.1; __utmb=30149280.0.10.1474114942; __utmc=30149280; __utmz=30149280.1474114942.1.1.utmcsr=qlcoder.com|utmccn=(referral)|utmcmd=referral|utmcct=/task/7560; __utma=223695111.500893696.1474114942.1474114942.1474114942.1; __utmb=223695111.0.10.1474114942; __utmc=223695111; __utmz=223695111.1474114942.1.1.utmcsr=qlcoder.com|utmccn=(referral)|utmcmd=referral|utmcct=/task/7560'
    }).end(function(err,res){
        var text = res.text;
        var $ = cheerio.load(text);
        var flag = false;
        $('.rating_num').each(function(index,ele){
            var num = $(ele).html();
            num = parseFloat(num);
            if(numArr.length == 166){
                flag = true;
                countNum ();
            }
            if(!flag){
                numArr.push(num);
            }
        });
        if(!flag){
            getNext(path,start+25);
        }
    });
};

var countNum = function(){
    var total = 0 ;
    for(var i=0,max=numArr.length;i<max;i++){
        total += numArr[i];
    }
    console.log('answer : '+ total);
};

getNext(url,0);

实现思路：

首先通过 superagent模块爬取页面
然后将内容通过cheerio进行解析为DOM节点
根据页面DOM，通过选择器获得需要的数据
将一个页面的评分数据获得，并push到[]中
循环爬取其他页面，如果量不大，可以一个一个来，但是如果数据很多、量很大的话，这样效率就很低了，此时可以考虑通过async 来进行并发获取
最后通过计算，获得结果；

这里附上千里码的题目链接：http://www.qlcoder.com/task/7560

转载请注明出处: https://chrunlee.cn/article/nodejs-spider-douban-score.html

感谢支持!

赞赏支持

喜欢

评论信息 (请文明评论)

暂无评论，快来快来写想法...

推荐

通过gm来批量拼接图片，两张合并一张

nodejs 修改文件时间

最近有客户提出了这么一个需求：微信dat文件在解码后的图片无法按照时间进行排序。是的，解码后的文件的时间都是解码的时间，由于软件比较多，当时没做自动更新，所以在这里做一个小工具，可以将对应的解码后的图片的时间修改为微信dat文件对应的时间

electron打包后空白

碰到个小需求，本来实现挺简单的，用的electron,开发模式下各种顺畅...半个小时就搞定了，结果倒在了electron打包上..这个坑我应该跳进来了好多次了..

如何通过程序自动抓取微信公众号文章的内容和视频

最近看到知乎上一话题：微信公众号文章里的视频怎么下载？。看还是有很多人推荐啥工具啊，很是捉急，当然本次的主题也是通过程序来获取内容，但是目前来说仅仅是娱乐吧。

网易云音乐NCM格式转化为mp3

前段时间帮朋友下歌放在车上听..结果好多都是ncm格式，伤心，搜索了下发现基本上这格式解密有好多昂，可惜UI我都不太想要..决定抄一下，自己做一个。这里先记录下核心代码，回头补充个UI 做个小程序。

webp格式的图片转换为jpg格式的图片

今天写文章，突然发现自己常用的素材站换成了webp格式的图片.. 可惜本站还没准备加这个支持，所以准备加个webp转jpg的小功能，继续使用啦。

自制js编译压缩小工具

关于js的编译和压缩，之前做过一个小工具了，主要就是自己项目成员大都没有这部分的技能，导致发布的时候总需要去编译压缩下.. 最终做了个命令行小工具.. 问题不在这里，前一阵子做压缩的时候发现压缩后竟然是undefined.最终才发现是es6的语法问题。

通过nodejs实现网易云音乐批量下载或单曲下载

从豆瓣转到网易云后，发现了不少好听的歌曲，然鹅..当我想把这些歌拿下来扔车上听的时候发现竟然不允许下载..能听不能下？这不科学，作为一名程序猿，必然要迎难而上啊.