#1 - 2020-3-22 07:55
Oalvay
一直想整一个你班的评分数据。开始想用windrises的,但是这个一直还是18年的没更新;然后试图向小乖伸手,惨遭默拒。于是就试着用小乖的Bangumi Spider在我的腾讯云小水管上爬一下,结果如下:

脚本运行时间约为230个小时
发送请求143万余次,成功133余万次
爬到了980万余条收藏记录。
数据文件大小为570.5MB

稍微分析了一下,发现有评分的收藏记录里,没爬到的居然占了快五分之一。。。哭了(bgm74)
实在不想折腾scrapy重新爬一遍,于是就发个帖抛砖引玉,看能不能等一个大佬出手了
---------------------------------------------------
1. 数据地址
2. 两个链接地址速度可能会很慢或者打不开,翻墙可解决
#2 - 2020-3-22 08:19
(只是一个看动画片的)
厉害
#3 - 2020-3-22 08:22
前排坐等大佬(bgm57)
#4 - 2020-3-22 08:31
(19914)
现在可以用API还有API镜像慢慢爬吧
#4-1 - 2020-3-22 08:46
Oalvay
api用过,貌似bangumi的api主要是给第三方app设计的,提供的数据不全,还是得爬网页。
#5 - 2020-3-22 09:05
(皎洁的月光下 思绪会飞向何处)
厉害
#6 - 2020-3-22 09:08
(。´-д-)
说不定是bangumi自己的显示不准? 比如把封禁用户的标记也算上了?
#6-1 - 2020-3-22 09:38
Oalvay
!不愧是Cedar,有这个可能。看来得换个方法分析
#6-2 - 2020-3-22 09:49
Cedar
Oalvay 说: !不愧是Cedar,有这个可能。看来得换个方法分析
(bgm38)什么"不愧是Cedar"啦(bgm38)我只是这么随口一说(bgm38)
#6-3 - 2020-3-22 11:08
弥御水Scyiki
Cedar 说: 什么"不愧是Cedar"啦我只是这么随口一说
你怎么把前面的!给漏了(
#6-4 - 2020-3-22 11:58
bangumi大西王
Scyiki 说: 你怎么把前面的!给漏了(
233
#7 - 2020-3-22 09:44
错误原因没有记录吗?
#7-1 - 2020-3-22 11:58
Oalvay
错误的有10万次302、1万次502、200次503。咨询过小乖,没有简单的解决办法
#8 - 2020-3-22 11:12
(迷子でもいい、迷子でも進め。)
不是在腾讯云吗?怎么要翻墙才不卡
#8-1 - 2020-3-22 11:57
Oalvay
用腾讯云服务器爬的,爬好上传到了kaggle上
#9 - 2020-3-22 12:19
scrapy有失败重试吧?或者你自己把失败的记下来手动重试呀
不知道什么时候sai老板能把用户侧的api完善下,省的老哥们爬的这么辛苦了(bgm33)
#9-1 - 2020-3-22 13:41
Oalvay
有设置失败重爬,上限10次。不知道为啥还这样…
#10 - 2020-3-22 16:21
没事,召唤搞缺失值处理的(bgm38)
#10-1 - 2021-2-7 01:30
dhzy
我竟然回过这个帖(bgm38)