Web | OOSQUARE'S WORLD

写本文之前，我共有两百多道题目在校内 OJ 上通过，由于某些原因，想要保存这些代码，于是想到使用 Python 实现自动爬取代码。同时考虑到效率问题，决定使用 aiohttp 编写一个高性能异步爬虫。实现目标分析这个爬虫需要能够爬取所有的已通过题目的列表，并继续爬取这些已通过题目的代码，随后保存到文件中。校内 OJ 基于 SYZOJ 搭建，该 OJ 的项目地址为 https://github.com/syzoj/syzoj，故接下来的代码都是基于其实现的。由于这个 OJ 的外网域名的带宽很小，一个网页最坏情况下需要花费 2～3 秒的时间，所以必须采用异步实现。这里就使用 aiohttp 了。获取 Cookie 由于直接从浏览器里获取的 Cookie 无法正常使用，传给服务器无法识别，猜测是编码问题，所以使用在爬虫运行时即时获取 Cookie 的办法。分析 SYZOJ 的登陆页面源码，找到如下代码片段： function login() { password = md5($("#password").val() + "syzoj2_xxx"); $("#login").addClass("loading"); $.ajax({ url: "/api/login", type: 'POST', data: { "username": $("#username").val(), "password": password }, async: true, success: function(data) { error_code = data.error_code; switch (error_code) { case 1001: show_error("用户不存在"); break; case 1002: show_error("密码错误"); break; case 1003: show_error("您尚未设置密码，请通过下方「找回密码」来设置您的密码。"); break; case 1: success(data.session_id); return; default: show_error("未知错误"); break; } $("#login").text("登录"); $("#login").removeClass("loading"); }, error: function(XMLHttpRequest, textStatus, errorThrown) { alert(XMLHttpRequest.responseText); show_error("未知错误"); $("#login").text("登录"); } }); } 可以发现，SYZOJ 通过 /api/login 这个 Web API 发送请求获取 Cookie，使用 POST 方法，数据为 username 和 password，分别为用户名和密码加上 syzoj2_xxx 这个 salt 的 MD5，所以可以使用以下 Python 代码获取 Cookie ...