在线阅读文档解密

技术教程 2025/1/11 佚名

2 0 1

茶园资源网 Design By www.iooam.com

在线阅读文档解密

前言

承接上篇在线阅读epub解密，这次讲讲一些常见在线阅读文档解密。

正文

pdf文件头

%PDF-1.base64:JVBERi0xhex:25 50 44 46 2D 31  bytes:{37,80,68,70,45,49}这个很重要，至少要记住前两行，方便快速识别文件

一、pdf格式

第一种，Range

请求头中有个明显的参数Range: bytes=0-0，看网页中不断请求同一个地址

每次请求的Range:范围都不一样，说明就是分段请求的，通常只需要把请求头中bytes=0-？，改成bytes=0-，就可以得到整个pdf，最简单的办法就是用fiddler抓包，重发

这种应该是最简单的了，但可能会有坑，我碰到过一个，如果直接按bytes=0-，会保错，后来发现，直接翻到最后一页，请求头中的范围，比响应头返回的要小十个字节左右，所以还是要根据实际情况仔细甄别。

第二种，base64

很明显就是base64编码了，网页解码后很多时候再生成一个blob，pdf。

这个只需要解下码在写入文件就行，或者有blob直接下载就行。

这种也有坑的，有可能pdf会有密码，也有可能在生成blob时加上了密码。

第三种，AES或其他

aHR0cDovL3d3dy5qdHlzYnouY246ODAwOS9wZGYvdmlld2VyLzA5NDY0MjcyNWJmOWE=

最大特征就是啥也看不懂，只有分析js。

以这个网站为例简单分析一下，先下一个XHR断点（也可以根据堆栈分析），

F5刷新，看堆栈，看看附近的代码

发现一个可疑的的地方，查看函数调用，直接搜索，或者下断点刷新，再看堆栈

没什么好说的了，人家注释都标上了，就是一个AES

第四种，请求头加密

浏览器返回的数据，并没有加密，但无论是直接打开还是用curl-py,都不行，说明请求地址很可能是一次性的

先验证下，右键阻止请求域，翻一页。链接生成了，并没有发送出去，用py跑两次。

可以看到第一次请求成功，第二次失败了，说明就是一次性的

而且这个pdf是分页的，不可能手动下载，看下参数，同一本书，四个不一样，页数，时间戳，签名，还有个应该是随机生成的，直接用uuid.uuid4()就行了，

直接搜索关键词nonce，下个断点刷新，看堆栈，找到加密的位置。

可以看到这个UUID，就是uuid4,py里面直接

import uuiduuid=uuid.uuid4()

然后是这个sign,先控制台运行几遍，同时查看各参数值

发现每次，签名结果都一样，而且都是32位，很大可能就是MD5，随便找个网站验证下，

没问题就是md5，就懒得继续分析，用Python还原跑一下

很好没问题，贴上代码

import hashlibimport timeimport uuidfrom urllib.parse import parse_qs, urlparseimport requestsbookruid=''cookies = {}headers = {}stime = str(round(time.time()))nonce = str(uuid.uuid4())sign = hashlib.md5((str('123456') + nonce + stime).encode()).hexdigest().upper()params = {    'pinst': 'null',    'nonce': nonce,    'stime': stime,    'sign': sign,    'typecode': 'ebook',}data = requests.get(f'https://www.**.com/api/books/{bookruid}/pdf', params=params, cookies=cookies, headers=headers).json()print(data['title'])catalogs=data['catalog']for catalog in catalogs:    print(catalog['title'],'\t',catalog['page'])print(data['filePath'])o = parse_qs(urlparse(data['filePath']).query)filePath=o['filePath'][0]pages=data['totalPage']for page in range(0,pages):    stime = str(round(time.time()))    nonce = str(uuid.uuid4())    sign = hashlib.md5((str('123456') + nonce + stime).encode()).hexdigest().upper()    params = {        'pinst': 'null',        'nonce': nonce,        'stime': stime,        'sign': sign,        'typecode': 'ebook',    }    params = [        ('filePath',filePath         ),        ('readtype', 'pdf'),        ('pageno', page),        ('bookruid', bookruid),        ('readtype', 'pdf'),        ('nonce', nonce),        ('stime', stime),        ('sign', sign),    ]    response = requests.get('https://mirrorxz.**.com/ebookapissocore/api/OnlineEBook', params=params,                            headers=headers)    print("page:",page,response)

第五种，啥也看不懂

pdf是加密的，加密解密在wasm里面

解密位置在这,wasm，里面的_decodeData方法

decodeData(data) {    var ptr = this._module._malloc(data.length);    this._module.HEAPU8.set(data, ptr);    this._module._decodeData(ptr, data.length);    var output_array = new Uint8Array(this._module.HEAPU8.subarray(ptr, ptr + data.length));    this._module._free(ptr);    return output_array;}

通常到这里了，要么分析wasm，还原算法，要么把wasm扣下来，但对于这个网站完全没必要，注意到，pdf是整个文件，那就根本没必要了，直接就hook整个pdf数据，在下载下来，省去复杂的解密过程

但这种仅限于，单个pdf，不然文件太多了，比较麻烦

其他

云展网加密书籍算法解密

随心所欲验证码型

字体加密型

他来他也不行

最后这个相对比较麻烦，代码混淆了，而且不是一个两个代码混淆，还要封ip，封账号，解密还算比较容易，本地生成公私钥，返回后端公钥，后端再返回加密的key，前端再利用私钥解密，然后AES/ECB解密pdf。

基本web端纯pdf解密就这些了，大不了就是加密解密，混淆不太一样。

二、png格式

第一种，idm批量下载

除了page其他参数完全一样，直接用idm下载就行了

唯一要注意的就是通配符

比如有些编号是 000 0001 0111 111，这种就需要设置通配符长度4

还有些对请求头有要求这种就可以考虑，用逍遥一仙的下载器，或者自己写程序都比较简单

还有的是编号是十六进制

第二种，综合类

aHR0cHM6Ly9tcC56aGl6aHVtYS5jb20vYm9vay9zYW1wbGUyLmh0bT9jb2RlPTQ1MWEwZTYyYjEyJnNoYXJlXz0xNTUyMzc3MTk=

和上面pdf,请求头加密同样的直接打开图片链接不行，阻止请求域，py跑两遍先，这就很离谱了啊，两次都不行

搜索关键字auth_key，定位相关代码

{                    t = "key1=" + r.key;                    r = "key2=023" + Tools.getCookie(Tools.genCookieName(r.env));                    var A = (new URL(d)).pathname                      , v = Math.random()                      , K = Date.parse(new Date) / 1E3 - parseInt(differenceDate) + 15;                    A = CryptoJS.MD5(A + "-" + K + "-" + v + "-0-69731cbade6a64b58d60").toString();                    t = urlAddParam(d, "auth_key=" + K + "-" + v + "-0-" + A + "&" + t + "&" + r);                    e(t)                }

离谱的事情就来了

稍微停了一下，几秒不到，链接就访问不了，这失效也太快了。

先分析一下，图片链接的参数

key1是接口返回的，这个接口也有很多参数一会分析

key2，是cookie里面的logkey，貌似是随机生成的，

然后就是这个auth_key，比较麻烦

简单还原了一下

t = "key1=" + sia.json()['data']['key']r = "key2=023" + _logkey_A = urlparse(imageUrl).pathK = str(int(time.time()) + 18)v = str(random.random())A = hashlib.md5((A + "-" + K + "-" + v + "-0-69731cbade6a64b58d60").encode()).hexdigest()t = imageUrl + '?' + ("auth_key=" + K + "-" + v + "-0-" + A + "&" + t + "&" + r)

跑一下，没问题

然后就是key1这个接口参数，具体方法在这里

d = d || {};d._timestamp = Date.parse(new Date) / 1E3;d._nonce = requestUuidV4();var e = window.ytLoggerData || {};e.pageUrl && e.pageUrl.newUrl && (d.refer = e.pageUrl.newUrl);var n = window.YTLogger;n && n.deviceId && n.traceId && (e = n.deviceId(),n = n.traceId(),e && (d._deviceid = e),n && (d._traceId = n));e = "";n = Object.keys(d).sort();for (var t = 0; t < n.length; t++) {    var r = n[t]      , A = d[r];    if ("null" == A || null == A || void 0 == A || "undefined" == A)        A = "",        d[r] = A;    e += A + "" + r}d._sign = CryptoJS.MD5(e).toString().toUpperCase().substring(0, 20);return d

要注意requestUuidV4()，并不能直接用py里面的uuid4，要稍微改一下