MagicFish1990一边吃草一边 说: 这个东西似乎只能加一个域名?
发光的球 说: 希望再镜像下api.bgm.tv,就更完美了。 还有听说.cat要有加泰隆尼亚语的页面,所以是真的假的
MagicFish1990一边吃草一边 说: 这两天都快困死了
ForsakenRei 说: 昨天我们打菜鸡局各种吃鸡……还遇到了野生的绿风
MagicFish1990一边吃草一边 说: 看到了,然后绿丰一直打查理
MagicFish1990一边吃草一边 说: gzip不够你用的吗
Trim21 说: 我爬的时候微妙的处于只有带宽跑满的状态…
MagicFish1990一边吃草一边 说: 好了
Trim21 说: 感谢…
MagicFish1990一边吃草一边 说: ngx_brotli doesn't re-compress already compressed responses, so if it's gzipped before reaching ngin...
Trim21 说: 噗…造化弄人
MagicFish1990一边吃草一边 说: 我关掉了和主服务器的压缩,现在是br了
Trim21 说: 现在是502了
MagicFish1990一边吃草一边 说: 现在好了
Trim21 说: 我又来报bug了( /subject/3 会转跳到 /subject/1836 然后对于api, api.bgm.tv/subject/3应该转跳到api.bgm.tv/subject/1836 ...
MagicFish1990一边吃草一边 说: hmmmm,这个似乎不太好改
Trim21 说: 开一个mirror.api.bgm.rin.cat的域名(
MagicFish1990一边吃草一边 说: 加了
Trim21 说: 主站镜像是不是跟着也一块改了…( /变成了json响应
Trim21 说: api域名没有path的情况下就是404 你试试这个https://mirror.api.bgm.rin.cat/subject/1
两倍速与→ 说: 以为是我,但看了下时间发现不是 顺便小声问一句,差不多两秒一页算快吗
Trim21 说: 两秒一页直接爬源站都不会被封…
ekibun 说: !爬源站会封吗我都没设timeout
Trim21 说: 短时间内大量请求不是会被封一段时间的吗…
Trim21 说: 难道你没中过
ekibun 说: 没遇到过, 我是顺序请求的可能不算同时?快的时候好像也有过一秒十几条的样子
铃猫 一边吃🥗一边 说: 这个并不是用来离线使用的,你需要专门的爬虫来抓资源
rnono 说: 这个 知 我自己想镜像的那个站是个http api。想象是自己开个带旁路保存的反向代理,通过这个代理访问,同时把自己用到的(用过的)资源保存一份 不知和你的bgm镜像类似吗?
铃猫 一边吃🥗一边 说: nginx这缓存是hash过的 你这个需求不如用 https://mitmproxy.org/
铃猫 说: 现在应该是429了(
Genius🌟小乖💯 说: 雀食。我应该调低爬取速度吗,不过我这个月并没有改变配置,为什么上个月就没有这种问题呢?
铃猫 说: 并不是因为你爬,而是主站在被爬带不动(
Genius🌟小乖💯 说: ☹️
铃猫 说: 被爬炸了,主站有限流(
但看到已经设置成"*"了
还有听说.cat要有加泰隆尼亚语的页面,所以是真的假的
这个用的不多吧
cat确实要加泰隆尼亚语的页面
仔细一想也许意义并不大,是我唐突了(
/subject/3 会转跳到 /subject/1836
然后对于api, api.bgm.tv/subject/3应该转跳到api.bgm.tv/subject/1836
但是镜像站里, /api/subject/3 转跳到了 /subject/1836
/变成了json响应
你试试这个https://mirror.api.bgm.rin.cat/subject/1
顺便小声问一句,差不多两秒一页算快吗
我是顺序请求的可能不算同时?快的时候好像也有过一秒十几条的样子
我自己想镜像的那个站是个http api。想象是自己开个带旁路保存的反向代理,通过这个代理访问,同时把自己用到的(用过的)资源保存一份
不知和你的bgm镜像类似吗?
你这个需求不如用 https://mitmproxy.org/
429:cache过期但是访问主站频率太快,你可以稍后重试
503:主站挂了