关于字体反爬

月光魔力鸭

2021-03-24 23:32 阅读 991 喜欢 4 字体反爬

反爬有很多手段，字体反爬就是其中之一。之前一直都是听过，但是却没怎么在实际爬虫中遇到过，最近在一个爬虫题目网站上看到了，试了试，发现还挺麻烦，当然自己从头研究字体肯定麻烦，简单的是模块多的是，选几个就过了。

字体反爬

爬虫与反爬一直在不停的斗争，手段层次不穷。字体反爬算是常见的一种手段，大抵的思路是通过字体文件将浏览器渲染结合起来，让浏览器看到的内容与肉眼看到的内容不一致，达成一定的反爬目的。

比如，我们定义一个字体<1> 但是对应的svg显示为<5> ，那么肉眼看到的是5 ，通过源码或抓取得到的确是1。之前的时候是通过一个字体文件，现在慢慢演变为动态字体，每次看到的都不同，所以现在我们需要对字体进行解析，得到最终的数据。

反爬

这里有个题目http://glidedsky.com/level/crawler-font-puzzle-1 ,不是打广告哈，关于字体反爬的一个题目。

我按照这个题目进行整理实现思路，可能不具有通用性。

目标地址

http://glidedsky.com/level/web/crawler-font-puzzle-1 ，根据给定的地址，我们可以看到源码与数字是不同的，那么我们可以通过控制台很容易找到这个字体，而且可以找到该字体是通过页面中的base64来指定的字体文件。

示例图

先将base64 转为 ttf 文件

代码或工具都可以： https://www.motobit.com/util/base64-decoder-encoder.asp 工具转换。

代码转换（nodejs）：

const base64str = `xxxx由于太长，此处不写了`;//data:font;charset=utf-8;base64, 之后的内容，不要逗号
const fs = require('fs');
fs.writeFileSync('./demo.ttf',Buffer.from(base64str,'base64'));

通过fontcreator软件打开后可以看到,字体展示与unicode标注的都是不同的。

但是...

目前，还没找到除了ocr识别外的更好的办法，之前看文档有说可以从ttf中拿到映射关系的，不过我没处理出来..能力有限。而且，这个我也没有使用ocr,直接使用了一个下标判断。

将ttf解析为xml ,并转为对象，然后获取下标，得到映射

const font = require('font-carrier');
const xml2json = require('xml2json');

//加载字体
let transFont = font.transfer('./demo.ttf');
let str = transFont.toString();
let json = xml2json.toJson(str);
let obj = JSON.parse(json);
let fonts = obj.svg.defs.font.glyph;
let map = {};
//就目前来看，还没找到对应的映射关系，比较理想的是，根据下标，除去第一个，从0开始。
fonts.forEach((t, i) => {
  if (i>0) {
    let code = t.unicode;//4
    let index = i - 1;//0
    //对应的意思就是:给浏览器一个字符串4 ，显示出来是 0 。
    map[code] = index;
  }
})
console.log(map);

剩下的就是一页一页的抓取，然后获取ttf并解析，最终进行匹配了..

关于ocr 一直不太懂，而且python也不会，最近也一直想了解下这部分的内容，正在努力学习中.. 其实一直想实现的就是给定一张图，从图中找到某个字，并返回对应字体在图中的位置..感觉好多地方都会用到，可惜实力不允许，太菜了。

转载请注明出处: https://chrunlee.cn/article/spider-font-back.html

感谢支持!

赞赏支持

喜欢

评论信息 (请文明评论)

暂无评论，快来快来写想法...

推荐

微信小程序前端解密手机号码

小程序需要用到用户的手机号码，看了下API 以及相关的demo,基本都是服务端进行解密的，问题是需要的参数并没有用到secret，只需要 session_key / iv /encryptedData 即可，那完全可以在客户端进行处理啊。

关于使用 jmeter 进行压力测试

最近有系统需要知道性能瓶颈，尝试使用jmeter对重要接口进行并发测试，确定能否支撑一定的用户数量。

websocket系列之私聊与广播(二)

上一章，我们学习和了解了websocket 是什么以及初始搭建，接下来，我们继续了解，如何进行广播以及对应的私聊呢。

frp + nginx 实现 https 穿透

通过frp做穿透实现https 访问本地http项目。

[疫情][项目]通过公众号实现一个人员入园收集信息的小功能

本篇文章以一个实际的小项目为主题进行从头到尾的讲解实现，该项目总计开发时长约6小时，主要是有很多页面或功能都是现成的，直接复制过来的，剩下的就调整下样式、字段内容等。

集成qq互联过程记录-js sdk

登录方式现在非常多，不过像我这种小站让用户自己注册基本是不可能的了，只能依赖现有的第三方的登录来集成，之前有集成github,不过这个太过针对性，这里准备集成QQ互联登录，慢慢记录下。

chrome系列-扩展程序开发学习-从无到有

本来是想做一个图床，然后在chrome扩展中添加上，但是发现chrome的扩展有点毫无头绪，只能从头练习，从头学了。

七牛云存储-图床-chrome插件实现

前一阵子做了个图床，可以粘贴上传，查看服务器上的文件... 但是自己的服务器总是有问题..空间还小，就怕哪天没钱续费了。同事昨天想要一个七牛的图床，在网上找了下，只找到了 qiniu upload files插件，自己使用了下，挺好用，但是没有复制粘贴