2013-10-19 12:16 /
用python写了个抓BGM评分+时间-->.xls的脚本,起因是开始追这个季度的番前,7月番因诸多原因普遍停在3话,直到前天终于补到了十月番,累感不爱。看十月各番第一话时就在想,放送初期的评分与放送完毕后稳定评分有多大差距,期间又是如何变化的。所以就写了这么个玩意。
我记得@upsuper曾经用rb写过一个统计评分分布的脚本。前段时间有念头自己写个抓看过条目数据(名称,评分,时间,各种监督,制作公司以及infobox里各种信息),因为我只会拼写Visual Basic和C++,所以当时考虑是速成rb,然后照猫画虎来个,还是用C++写(太麻烦了),或者干脆搞个别的。最后权衡了一下决定用python。目前没写完,也懒得写了。
想写这个时发现py基本全忘干净了,又拿之前写的看了遍,然后觉得应该只用程序抓数据然后用excel分析比较靠谱。所以写了这个抓评分+时间的脚本
脚本这里
注意:
1、我用的python2.7。
2、运行前请注意是否安装Module Beautifulsoup + xlwt
3、因为我不会写程序,单线程处理,程序效率低下(一页一页读网页分析,1K评分就是快60页)研究完毕,已经简单改写成多线程(目前为4),但依然效率低下,只要一个线程没成功抓到网页就跪了呵呵呵。另外没有断点续传。
4、图表时间轴最小值均设定为开始放送时间,不考虑先行放送。初期样本数量少波动较大。
5、没有抓番组开始放送时间,因为要多分析一个网页,我太懒了。所以手工再查一下吧。
6、列表ID不要有多余的空格和换行,不然会跪
特性:
1、读入目录下MAlist.txt中的条目ID批量抓取
2、同时抓取看过,再看,搁置,抛弃(统一数据)(有些人想看还打分是闹哪样),并统计当天评分人数
3、自动跳过未评分用户,评分时间以显示为准,不考虑中途修改过评分这种情况(视评分为理想状况,即每个人评分后不再改动。另外因为大多数人喜欢看完再评分,显然初期结果将会很不准确)
4、输出到db_Marks.xls,每个id一个sheet,已修改成输出id+title.xls,一个id一个文件)
内容包括:
第1行:日文名,平均分,有效评分人数
第2行:分数,时间(精确到分钟);时间(精确到天), 当天评分人数
第3行开始为第二行所述两组数据,其中C3为平均分计算式,(请手工在输入栏敲下回车,因为我太弱,输出公式老是出错,索性输出str了)
见图
5、Excel请手工处理
我选取了11年的一部分番进行了抓取制图,因为11年BGM人数已有一定积累,且距现在时间差不小(2年)。番组选取从以下几个方面考虑:
1,长度(季番,半年番)
2,原作(原创,轻改,漫改,Gal改)
3,类型(日常/剧情;少年/少女)
4,是否有前作(首季,二季)
5,大众向话题作
抓取时间 约为2013年10与18日晚至凌晨
选取列表及图表:
TV番组
评分人数>3000
Fate/Zero 8.3
あの日見た花の名前を僕達はまだ知らない。 8.3
ギルティクラウン 6.7
未来日記 7.6
花咲くいろは 7.6
魔法少女まどか☆マギカ 8.5
评分人数1000-3000
GOSICK -ゴシック- 7.2
僕は友達が少ない 7.2
IS〈インフィニット?ストラトス〉 6.6
THE iDOLM@STER 7.7
君と僕。 8.1
輪るピングドラム 8.2
ちはやふる 8.2
神のみぞ知るセカイII 7.5
WORKING’!! 7.8
君に届け 2ND SEASON 8.0
评分人数<1000
30歳の保健体育 10384 6.6
たまゆら?hitotose? 18605 7.4
ましろ色シンフォニー -The color of lovers- 12557 6.7
后来又追加了
進撃の巨人 8.1(样本密集)
けいおん! 7.8
けいおん!!7.7 (时间较久远,两季联动)
新世界より 8.1
映画
映画意义在于几乎不(应该)存在看到开头打个分,看到中间打个分,看到结尾再打个分这种情况
涼宮ハルヒの消失 8.6(映画,有效数据从2010-12-17有偷跑开始)
ヱヴァンゲリヲン新劇場版:Q 7.7
おおかみこどもの雨と雪 8.2
言の葉の庭 7.7
游戏
ダンガンロンパ 希望の学園と絶望の高校生
Fate/stay night
スーパーマリオブラザーズ
本人只提供数据,不作任何评论。仅供娱乐
我记得@upsuper曾经用rb写过一个统计评分分布的脚本。前段时间有念头自己写个抓看过条目数据(名称,评分,时间,各种监督,制作公司以及infobox里各种信息),因为我只会拼写Visual Basic和C++,所以当时考虑是速成rb,然后照猫画虎来个,还是用C++写(太麻烦了),或者干脆搞个别的。最后权衡了一下决定用python。目前没写完,也懒得写了。
想写这个时发现py基本全忘干净了,又拿之前写的看了遍,然后觉得应该只用程序抓数据然后用excel分析比较靠谱。所以写了这个抓评分+时间的脚本
脚本这里
注意:
1、我用的python2.7。
2、运行前请注意是否安装Module Beautifulsoup + xlwt
3、因为我不会写程序,单线程处理,程序效率低下(一页一页读网页分析,1K评分就是快60页)研究完毕,已经简单改写成多线程(目前为4),但依然效率低下,只要一个线程没成功抓到网页就跪了呵呵呵。另外没有断点续传。
4、图表时间轴最小值均设定为开始放送时间,不考虑先行放送。初期样本数量少波动较大。
5、没有抓番组开始放送时间,因为要多分析一个网页,我太懒了。所以手工再查一下吧。
6、列表ID不要有多余的空格和换行,不然会跪
特性:
1、读入目录下MAlist.txt中的条目ID批量抓取
2、同时抓取看过,再看,搁置,抛弃(统一数据)(有些人想看还打分是闹哪样),并统计当天评分人数
3、自动跳过未评分用户,评分时间以显示为准,不考虑中途修改过评分这种情况(视评分为理想状况,即每个人评分后不再改动。另外因为大多数人喜欢看完再评分,显然初期结果将会很不准确)
4、输出到db_Marks.xls,每个id一个sheet,已修改成输出id+title.xls,一个id一个文件)
内容包括:
第1行:日文名,平均分,有效评分人数
第2行:分数,时间(精确到分钟);时间(精确到天), 当天评分人数
第3行开始为第二行所述两组数据,其中C3为平均分计算式,(请手工在输入栏敲下回车,因为我太弱,输出公式老是出错,索性输出str了)
见图
5、Excel请手工处理
我选取了11年的一部分番进行了抓取制图,因为11年BGM人数已有一定积累,且距现在时间差不小(2年)。番组选取从以下几个方面考虑:
1,长度(季番,半年番)
2,原作(原创,轻改,漫改,Gal改)
3,类型(日常/剧情;少年/少女)
4,是否有前作(首季,二季)
5,大众向话题作
抓取时间 约为2013年10与18日晚至凌晨
选取列表及图表:
TV番组
评分人数>3000
Fate/Zero 8.3
あの日見た花の名前を僕達はまだ知らない。 8.3
ギルティクラウン 6.7
未来日記 7.6
花咲くいろは 7.6
魔法少女まどか☆マギカ 8.5
评分人数1000-3000
GOSICK -ゴシック- 7.2
僕は友達が少ない 7.2
IS〈インフィニット?ストラトス〉 6.6
THE iDOLM@STER 7.7
君と僕。 8.1
輪るピングドラム 8.2
ちはやふる 8.2
神のみぞ知るセカイII 7.5
WORKING’!! 7.8
君に届け 2ND SEASON 8.0
评分人数<1000
30歳の保健体育 10384 6.6
たまゆら?hitotose? 18605 7.4
ましろ色シンフォニー -The color of lovers- 12557 6.7
后来又追加了
進撃の巨人 8.1(样本密集)
けいおん! 7.8
けいおん!!7.7 (时间较久远,两季联动)
新世界より 8.1
映画
映画意义在于几乎不(应该)存在看到开头打个分,看到中间打个分,看到结尾再打个分这种情况
涼宮ハルヒの消失 8.6(映画,有效数据从2010-12-17有偷跑开始)
ヱヴァンゲリヲン新劇場版:Q 7.7
おおかみこどもの雨と雪 8.2
言の葉の庭 7.7
游戏
ダンガンロンパ 希望の学園と絶望の高校生
Fate/stay night
スーパーマリオブラザーズ
本人只提供数据,不作任何评论。仅供娱乐
#1 - 2013-10-19 12:55
mizudiwood🤖 (23年小结→bgm.tv/blog/330004)
#1-1 - 2013-10-19 12:57
.
比如放送结束
#1-2 - 2013-10-19 13:09
mizudiwood🤖
花牌情缘和回转企鹅罐特别明显~
#1-3 - 2013-10-19 13:42
后圣域传说
这种一般就是看完感觉神作结局之类的然后就提高了评分咯~
#1-4 - 2013-10-19 13:51
mizudiwood🤖
我基本上都是等完结再评分呢~大概就是这种原因吧
#2 - 2013-10-19 12:57
海卫四 (不要停!)
#3 - 2013-10-19 13:00
Amadeus (意想不到的事情发生了)
#4 - 2013-10-19 13:04
小寒 (Idle singer of an empty day)
#4-1 - 2013-10-19 19:35
.
高开低走还有我大GC
#5 - 2013-10-19 13:26
草木 (葬我于星空上)
#5-1 - 2013-10-19 13:31
Killy
只因起评低...而且没过8分...
#5-2 - 2013-10-19 14:17
.
杀人歌牌也有微弱上升。我选了几个认为可能上升的,结果都是下降= =
#6 - 2013-10-19 13:31
SuNNy (霍克prpr)
#7 - 2013-10-19 13:32
SuNNy (霍克prpr)
#7-1 - 2013-10-19 14:17
.
什么游戏的?我不太玩游戏。。。
#7-2 - 2013-10-19 14:24
SuNNy
就是在排名里的的游戏都行w
#7-3 - 2013-10-19 19:32
.
スーパーマリオブラザーズ
#8 - 2013-10-19 13:42
种族天赋是嘲讽的熊猫酱 (不知怎么的就下海了....)
#9 - 2013-10-19 14:08
不愿透露姓名的Oisris (無駄無駄無駄喵~)
#10 - 2013-10-19 14:19
林卯 (✨️VIP 8✨️)
#10-1 - 2013-10-19 14:20
.
。。。我换下图,表格纵轴忘调了
#11 - 2013-10-19 14:20
烈之斩 (V1046-R MAHORO)
#11-1 - 2013-10-19 14:47
望想世界的兔子
mark
#11-2 - 2013-10-19 15:01
H265
mark
#11-3 - 2013-10-20 06:15
烈之斩
mark自重……咦
#12 - 2013-10-19 15:57
若卡 (VIP已到期,请尽快续费)
#12-1 - 2013-10-19 16:39
Venusxx
gj
#13 - 2013-10-20 22:56
宇宙巡警馒馒子 Svip⑨会员 (オトコのコはメイド服がお好き)
#14 - 2013-10-20 23:16
David Frank
#15 - 2015-4-2 16:34
骈儿 (动画爱好者,不是阿宅)