#1 - 2019-6-10 15:38
Oalvay
首先,我没有看过
所以请不要在这里剧透,谢谢。
因为这是我第二次写爬虫,所以特别感谢 http://bangumi.tv/group/topic/344830 的镜像没有设置反爬机制,能让我菜鸟水平的爬虫成功运行。成功抓取了1791组数据,本来应该有1841组的,因为蜜汁原因有三页没有抓到。
只抓了“在看”的数据。
以下是成果:
(没有2分和4分是因为统计的数据里没有人给过这两个分数)
每个评分内,评分人数按不同注册时间段区分的所占百分比:
实际人数:
4楼的要求,不同注册时间段内的用户的打分数:
每个评分内的评分人数(按看过动画数区分):
不同看过动画数的评分人数(按评分区分),也就是图4的变种:
注册天数和看过动画数的散点图:
特地看了一下,在看巨人的最早注册的用户于2008-08-01注册,注册天数3966天。
所以请不要在这里剧透,谢谢。
因为这是我第二次写爬虫,所以特别感谢 http://bangumi.tv/group/topic/344830 的镜像没有设置反爬机制,能让我菜鸟水平的爬虫成功运行。成功抓取了1791组数据,本来应该有1841组的,因为蜜汁原因有三页没有抓到。
只抓了“在看”的数据。
以下是成果:
(没有2分和4分是因为统计的数据里没有人给过这两个分数)
每个评分内,评分人数按不同注册时间段区分的所占百分比:
实际人数:
4楼的要求,不同注册时间段内的用户的打分数:
每个评分内的评分人数(按看过动画数区分):
不同看过动画数的评分人数(按评分区分),也就是图4的变种:
注册天数和看过动画数的散点图:
特地看了一下,在看巨人的最早注册的用户于2008-08-01注册,注册天数3966天。
10分总共128个, 是已统计的约250个的半数.
1分总共17个, 与已统计的约20个持平.
我觉得应该把这些用户算进来..
楼主和层主的统计数据应该差不多, 只是排序不同
堆积柱形图里新老用户的评分趋势很明显..
一个峰值在8/9, 过渡平缓, 一个峰值在10, 加速上涨..而且注册时间越晚的上涨越快..
所以加入时间越晚的均分越高..
在看用户里打1分的总体数量很少 大约20个, 下面的百分比说明老用户反刷1分的会多几个
但是抛弃和看过的评分更极端..
10分总共128/289个, 占已统计的约250个的半数..
1分总共17/289个, 与已统计的约20个持平..感觉应该统计进来..
感觉说出了一些很明显的结论..
matplotlib用得少,而且容易出各种小毛病(比如楼主的分数排序和时间排序),所以先用excel手动绘图顶替一下
工作量不大的时候交互式的绘图没有明显的劣势
比蓝色咖喱好多了(
嘎嘎大笑.jpg
可能的话我也希望(wish)这个地方能像以前一样
比如说第二张图里最右侧的柱子,里面蓝色的部分代表打10分且注册时间小于一个月的有多少人。
1.同档期播出(不同时间段的新用户增加速率可能不一样)
2.热度够高(冷门番和热门番遭遇刷分概率可能会不同,并且大样本的分布更贴近事实)
3.分布相近(最好与排名/口碑/分数差不多的番对比)
上三点只是举例而已,大意是必须控制自变量的数量最小化,才能够通过对比来确认巨人是否存在刷分现象的可能性。
这季巨人未开播之前也就几十个投票,分数开始暴涨是在第五集之后,这么说刷分党不仅要在开播的一个半月前注册好账号,还要在特定时间一起上来刷分,我是觉得一个半月之后刷分的可能都忘了自己还在这网站注册过账号了
3-6个月分数偏高可能只是新用户总体打分偏高而已