#1 - 2019-6-10 15:38
Oalvay
首先,我没有看过(bgm38)
所以请不要在这里剧透,谢谢。

因为这是我第二次写爬虫,所以特别感谢 http://bangumi.tv/group/topic/344830 的镜像没有设置反爬机制,能让我菜鸟水平的爬虫成功运行。成功抓取了1791组数据,本来应该有1841组的,因为蜜汁原因有三页没有抓到。
只抓了“在看”的数据。

以下是成果:

(没有2分和4分是因为统计的数据里没有人给过这两个分数)
每个评分内,评分人数按不同注册时间段区分的所占百分比:


实际人数:


4楼的要求,不同注册时间段内的用户的打分数:


每个评分内的评分人数(按看过动画数区分):


不同看过动画数的评分人数(按评分区分),也就是图4的变种:


注册天数和看过动画数的散点图:


特地看了一下,在看巨人的最早注册的用户于2008-08-01注册,注册天数3966天。
#2 - 2019-6-10 15:54
楼主不发表一下点评?(bgm67)
#2-1 - 2019-6-10 17:01
Oalvay
我一句话都不说,就是…
#2-2 - 2019-6-10 17:08
狂犬榨汁姬艾莉丝
Oalvay 说: 我一句话都不说,就是…
无可奉告是吧。(bgm89)
#2-3 - 2019-6-10 22:38
ζ*'ヮ')ζ 讀者諸孃へ
九重凛 说: 无可奉告是吧。
是坠吼的
#2-4 - 2019-6-11 07:50
absurd
Ƹ̵̡Ӝ̵̨̄Ʒ 说: 是坠吼的
這都能mo(bgm38)
#3 - 2019-6-10 15:56
最好再显示下具体人数,光百分比其实不太直观
#4 - 2019-6-10 15:59
或者显示百分比的话可以换个坐标轴,横坐标是时间区间,纵坐标是打分比例
#4-1 - 2019-6-10 16:59
Oalvay
第一个要求跟楼下差不多,第二个我等等写
#5 - 2019-6-10 16:23
每个柱子的高度按人数来会更好吧
#5-1 - 2019-6-10 16:58
Oalvay
这个比百分比简单的,我等等弄
#5-2 - 2019-6-10 23:13
雪の宿❄️
Oalvay 说: 这个比百分比简单的,我等等弄
楼主好棒棒
#6 - 2019-6-10 16:27
(早安芥菜荠菜谷氨酸钠汤)
辛苦楼主,楼上也太会挑食了吧。

期待更完善的下一版(bgm24)
#6-1 - 2019-6-10 17:00
Oalvay
谢谢捧场(bgm38)
#7 - 2019-6-10 16:35
(いつでも微笑みを)
可以写个组件或者脚本供大家使用?(bgm38)
#7-1 - 2019-6-10 16:41
haveatry
太真实了,
#7-2 - 2019-6-10 16:53
君寻
我在写一个类似的,大概今晚能写好
#7-3 - 2019-6-10 16:58
Oalvay
君寻 说: 我在写一个类似的,大概今晚能写好
辛苦了。搓手期待
#7-4 - 2019-6-10 17:08
狂犬榨汁姬艾莉丝
君寻 说: 我在写一个类似的,大概今晚能写好
期待期待。(bgm24)
#7-5 - 2019-6-12 00:19
君寻 说: 我在写一个类似的,大概今晚能写好
感谢 搓手期待
#7-6 - 2019-6-12 09:03
君寻
说: 感谢 搓手期待
早就发了啊 https://bgm.tv/rakuen/topic/group/351085
#8 - 2019-6-10 17:06
(。´-д-)
看过的还有268人呢 干脆一起爬了吧?
为什么3分的占比是100% 只有一个人评了3分是么
#8-1 - 2019-6-10 18:19
Cedar
抛弃和看过的评分更极端..我大致看了一下
看过有270个 其中
1分 8  个 █
2分 0
3分 0
4分 2  个 ▌
5分 1  个 ▌
6分 0
7分 7  个 █
8分 19 个 ██▌
9分 36 个 ████▌
10分 127个 ████████████████

抛弃有19个 其中
1分9个
5分1个
7分1个
10分1个
其余没评分

10分总共128个, 是已统计的约250个的半数.
1分总共17个, 与已统计的约20个持平.
我觉得应该把这些用户算进来..
#8-2 - 2019-6-10 18:29
Oalvay
Cedar 说: 抛弃和看过的评分更极端..我大致看了一下
看过有270个 其中
1分 8  个 █
2分 0
3分 0
4分 2  个 ▌
5分 1 &nb...
我本来是想等完结后在画图,现在先粗略的算一下,所以就没算“看过”。不过楼上的7-2马上就能解决问题了。
#9 - 2019-6-10 17:18
数据更新时间2019/6/10 16:10:00
只统计了在看
#9-1 - 2019-6-10 17:39
Rくん
很直观🍺
#9-2 - 2019-6-10 17:56
麦田米老鼠
配色好棒,想吃(bgm77)
#9-3 - 2019-6-10 18:20
Killy
麦田米老鼠 说: 配色好棒,想吃
印度配色
#9-4 - 2019-6-10 18:25
Cedar
第一个吃螃蟹. (评论时还只有图1和图2)
楼主和层主的统计数据应该差不多, 只是排序不同
堆积柱形图里新老用户的评分趋势很明显..
一个峰值在8/9, 过渡平缓, 一个峰值在10, 加速上涨..而且注册时间越晚的上涨越快..
所以加入时间越晚的均分越高..
在看用户里打1分的总体数量很少 大约20个, 下面的百分比说明老用户反刷1分的会多几个
但是抛弃和看过的评分更极端..
10分总共128/289个, 占已统计的约250个的半数..
1分总共17/289个, 与已统计的约20个持平..感觉应该统计进来..
感觉说出了一些很明显的结论..(bgm38)
#9-5 - 2019-6-10 18:38
Rくん
Killy 说: 印度配色
那蓝色的是什么材料?(bgm38)
#9-6 - 2019-6-10 18:43
𝒮𝒽𝓊𝓊𝒾𝒸𝒽𝒾
Rくん 说: 那蓝色的是什么材料?
应该是指咖喱味的excel(bgm38)
matplotlib用得少,而且容易出各种小毛病(比如楼主的分数排序和时间排序),所以先用excel手动绘图顶替一下
#9-7 - 2019-6-10 18:45
Rくん
珞樱 说: 应该是指咖喱味的excel
matplotlib用得少,而且容易出各种小毛病(比如楼主的分数排序和时间排序),所以先用excel手动绘图顶替一下
咖喱味的excel 还行(bgm38)
工作量不大的时候交互式的绘图没有明显的劣势
#9-8 - 2019-6-10 19:00
Killy
Rくん 说: 那蓝色的是什么材料?
如果是食物,那大概加了蝶豆花吧(bgm38)
#9-9 - 2019-6-10 19:09
Rくん
Killy 说: 如果是食物,那大概加了蝶豆花吧
激寒蓝色咖喱(bgm118)
#9-10 - 2019-6-10 19:13
Killy
Rくん 说: 激寒蓝色咖喱
蓝色米饭啦
#9-11 - 2019-6-10 19:14
Rくん
Killy 说: 蓝色米饭啦
哦哦哦哦哦
比蓝色咖喱好多了(
#9-12 - 2019-6-10 19:22
Oalvay
珞樱 说: 应该是指咖喱味的excel
matplotlib用得少,而且容易出各种小毛病(比如楼主的分数排序和时间排序),所以先用excel手动绘图顶替一下
还是改了//排序确实烦,我懒得改了(
#10 - 2019-6-10 18:31
(为什么图1的排序是10分排第二)
果然十分大多都是一年内注册的用户打的吗...
#10-1 - 2019-6-10 18:39
Oalvay
图一里分数的格式是string不是num,我忘了改过来
#10-2 - 2019-6-11 02:01
Ubisoft
在楼主又增加了两张图之后结论更明显了(bgm38)
#11 - 2019-6-10 21:36
希望能把6月8日0点之前的评分用户结构和6月8日0点之后的评分用户结构分开看一下。因为我印象里这个时间点之前1分应该只有6个,之后1分党剧增,所以觉得如果分开看一下也许会很有趣。
#11-1 - 2019-6-10 22:23
豆沙包罐头
应该把这个时间点以后评分的全部炸号。
嘎嘎大笑.jpg
#11-2 - 2019-6-10 22:43
allegray
豆沙包罐头 说: 应该把这个时间点以后评分的全部炸号。
嘎嘎大笑.jpg
主要是在这个时间点之前的几个一星的人给出的理由令我可以理解,平均素质也显著高于打十星的。但是这个时间点之后,我觉得一星党的素质显著下降。比如吐槽箱里很多一星的人不顾事实(如拉lex背锅。巨人rank6是在lex发视频之前的事了,很少人因为lex过来打十星),戾气很大(如“不服来咬”,“为脑残粉和lex打个分”),没看过就打1分(如“我虽然没看过巨人但是我觉得他很烂,八成是热血无脑燃猎奇片,1分送上”),让我觉得一星党和十星党素质其实差不多,点进个人页面后发现一年内注册的也不在少数,所以有了这个希望。
#11-3 - 2019-6-10 22:54
豆沙包罐头
allegray 说: 主要是在这个时间点之前的几个一星的人给出的理由令我可以理解,平均素质也显著高于打十星的。但是这个时间点之后,我觉得一星党的素质显著下降。比如吐槽箱里很多一星的人不顾事实(如拉lex背锅。巨人rank6...
这样的炸号不冤。
#12 - 2019-6-10 22:21
(啊~我可真是个变态啊~)
(bgm38)(bgm38)(bgm38)大多数人都不愿意说出数据后面的结论
#13 - 2019-6-10 22:27
(班固米JK学家)
收藏一下(bgm93)
#14 - 2019-6-10 22:29
(今天的我也是加把劲骑士!!!)
这个结论很显而易见了,目前的问题就是我们应该干等着还是找出解决方法了(bgm38)
#14-1 - 2019-6-10 22:34
porepoem
等大佬写一个超合金组件(bgm38)
#14-2 - 2019-6-10 22:54
豆沙包罐头
porepoem 说: 等大佬写一个超合金组件
鸵鸟式解决法?
#14-3 - 2019-6-11 00:01
porepoem
豆沙包罐头 说: 鸵鸟式解决法?
像楼上说的大量炸号我觉得不可取而且也不太可能被sai老板认可,而我本人只要有能够当做补番选番时参考的评分就行了,只能想到这么消极的做法实在是抱歉(bgm38)(事实上我的这个需求已经在一定程度上得到了解决,所以已经怎样都好了
可能的话我也希望(wish)这个地方能像以前一样
#15 - 2019-6-10 22:47
(命をかけて演奏します。)
统计挂过科的渣滓还真没看明白(bgm38)
#15-1 - 2019-6-11 01:20
Oalvay
可能是图的标题没有解释清楚...我举个例?
比如说第二张图里最右侧的柱子,里面蓝色的部分代表打10分且注册时间小于一个月的有多少人。
#16 - 2019-6-10 23:18
楼主辛苦了 不过光抓part2似乎不能解决所有问题啊 若能抓取其他几部同样未完结的新番数据 和part2这个样本对比一番就更好了 part2标记在看的10分中注册未满一年的用户较多 这到底是bgm新番作品放送中的正常比例还是怎样 存不存在某些人平衡需求的的厨子爆分现象?
#16-1 - 2019-6-11 00:52
Oalvay
如果要谨慎的评估的话,要找到能与这部番对比的番,条件有:
1.同档期播出(不同时间段的新用户增加速率可能不一样)
2.热度够高(冷门番和热门番遭遇刷分概率可能会不同,并且大样本的分布更贴近事实)
3.分布相近(最好与排名/口碑/分数差不多的番对比)
上三点只是举例而已,大意是必须控制自变量的数量最小化,才能够通过对比来确认巨人是否存在刷分现象的可能性。
#17 - 2019-6-11 00:03
(少年听雨歌楼上,红烛昏罗帐。)
要是能有个组件看所有作品的评分与注册时间分布多好,可以印证之前在小组讨论评分与注册时间的关系的一些假说,只有巨人一例样本还是太少
#18 - 2019-6-11 00:13
(SHAFT系動畫小組 →https://bgm.tv/group/shaft)
随便取个18年的人气动画看看人数分布是不是和巨人有显著差别?
比如去南极和强风吹拂
#18-1 - 2019-6-11 00:45
Coupdegrace
这俩都完结一段时间了 评分趋于稳定 巨人3 part.2还在放送 要控制变量 最好就是取本季其他同样未完结的新番
#18-2 - 2019-6-11 01:15
Oalvay
假设刷分的人的目的是最小化排名,那理性的讲应该会打10分(打9分的效率太低),因此这个动画的10分的比例应该会比较显著(最好与巨人相近)。所以想要进一步控制变量的话就需要找排名或者分布相近的,还有像18-1讲的,同时未完结的新番。满足这些条件的估计是没有了......我觉得最理想的对比可能是:巨人完结2个月后统计一遍,然后统计三狮第二季的数据(只统计三狮第二季完结2个月整之前注册的用户),这样也许可以满足16-1里的第二第三点,同时和其他高分作品相比间上更接近巨人。
#19 - 2019-6-11 02:28
时间段这样划分总感觉体现不出什么特别直观的规律来额
#19-1 - 2019-6-11 02:30
淄尘丶
哦,又仔细看了一下,还有丶东西
#20 - 2019-6-11 03:26
(V1046-R MAHORO)
倒是感觉比我想象的比例低?
不是说刷分不存在,但根据柱状图并没有达到干扰很大的程度

<1m的用户给高分的比例相比>36m的比,虽然10分多了很多,但是考虑进去9分的、外加绝对人数,影响似乎并没有很大
#20-1 - 2019-6-11 07:55
absurd
我怎麼覺得去掉藍黃綠以後會發生很大變化。要知道10分給的占總評分人數有42%,9分的有25%
#20-2 - 2019-6-11 12:04
烈之斩
absurd 说: 我怎麼覺得去掉藍黃綠以後會發生很大變化。要知道10分給的占總評分人數有42%,9分的有25%
一个月内注册的一共才50多人,比例就很小了。其中打10分的也就一半
#20-3 - 2019-6-11 12:33
absurd
烈之斩 说: 一个月内注册的一共才50多人,比例就很小了。其中打10分的也就一半
但是肯定會下降零點幾個點,你看數據嘛,這個對於評分影響很大了。而且我說去除藍黃綠,我覺得三個月到六個月都得去掉,這個刷分不是近一個月的事了
#20-4 - 2019-6-11 14:01
charname
absurd 说: 但是肯定會下降零點幾個點,你看數據嘛,這個對於評分影響很大了。而且我說去除藍黃綠,我覺得三個月到六個月都得去掉,這個刷分不是近一個月的事了
巨3p2是4月28号播出的,3个月之前其实就离这个时间很远了
#20-5 - 2019-6-11 15:06
absurd
charname 说: 巨3p2是4月28号播出的,3个月之前其实就离这个时间很远了
你不是他播出之後才知道要播出part2的,都是有提前準備的,不過認真分析都需要其他數據,你可以把三個月以內刪掉,數據還是會下滑零點幾。
#20-6 - 2019-6-11 17:37
charname
absurd 说: 你不是他播出之後才知道要播出part2的,都是有提前準備的,不過認真分析都需要其他數據,你可以把三個月以內刪掉,數據還是會下滑零點幾。
“這個刷分不是近一個月的事了”
这季巨人未开播之前也就几十个投票,分数开始暴涨是在第五集之后,这么说刷分党不仅要在开播的一个半月前注册好账号,还要在特定时间一起上来刷分,我是觉得一个半月之后刷分的可能都忘了自己还在这网站注册过账号了
3-6个月分数偏高可能只是新用户总体打分偏高而已
#20-7 - 2019-6-12 08:07
Ubisoft
charname 说: “這個刷分不是近一個月的事了”
这季巨人未开播之前也就几十个投票,分数开始暴涨是在第五集之后,这么说刷分党不仅要在开播的一个半月前注册好账号,还要在特定时间一起上来刷分,我是觉得一个半月之后刷分的可能...
确实,刷分的人有多少倒不一定,有些新用户倾向于给任何稍微像点样子的新番8-10分是真的
#20-8 - 2019-6-18 22:16
星宫草莓
charname 说: “這個刷分不是近一個月的事了”
这季巨人未开播之前也就几十个投票,分数开始暴涨是在第五集之后,这么说刷分党不仅要在开播的一个半月前注册好账号,还要在特定时间一起上来刷分,我是觉得一个半月之后刷分的可能...
又不是只有巨人刷分,从去年的少女歌剧到今年的邦邦人、玛娜莉亚学院,乃至辉夜大小姐,刷分的多了去了
#21 - 2019-6-11 11:10
(意识形态的水很深 你把握不住)
给楼主补充一个视角
#21-1 - 2019-6-11 11:12
Rくん
巨人的在看/评分比例选高于同期未完结新番。
#22 - 2019-6-11 18:08
(星梨花/環/弥生/桃子/杏奈P)
图表虽然直观,但还要主观判定,不若直接做多重比较和相关分析拿出统计结论吧(bgm38)
虽说想做,但不会爬数据就很尴尬(bgm38)
#23 - 2019-6-11 18:24
(日饭)
破案了
#24 - 2019-6-12 00:27
(他人即地狱)
感谢楼主 图表看上去都很好
有一点稍微好奇 不知道楼主方不方便再统计一下
今年1月份以及之前的用户对巨人3p2的打分总体分数(剔除掉1分党以及点格子数量少于50的) 不过不太清楚bgm的分数的加权规则 可能有些难度  但我感觉这个分数应该会有些意义(比如对比一下现如今1分党平衡后的分数 看看所谓的平衡党平衡了之后有多接近233)
#24-1 - 2019-6-12 23:09
Bangumi 的评分计算是纯粹平均, 毫无加权
#25 - 2019-6-12 23:37
(拔 作 手 冲 人)
破案了(bgm24)