我记得@upsuper曾经用rb写过一个统计评分分布的脚本。前段时间有念头自己写个抓看过条目数据(名称,评分,时间,各种监督,制作公司以及infobox里各种信息),因为我只会拼写Visual Basic和C++,所以当时考虑是速成rb,然后照猫画虎来个,还是用C++写(太麻烦了),或者干脆搞个别的。最后权衡了一下决定用python。目前没写完,也懒得写了。
想写这个时发现py基本全忘干净了,又拿之前写的看了遍,然后觉得应该只用程序抓数据然后用excel分析比较靠谱。所以写了这个抓评分+时间的脚本
脚本这里
注意:
1、我用的python2.7。
2、运行前请注意是否安装Module Beautifulsoup + xlwt
3、因为我不会写程序,单线程处理,程序效率低下(一页一页读网页分析,1K评分就是快60页)研究完毕,已经简单改写成多线程(目前为4),但依然效率低下,只要一个线程没成功抓到网页就跪了呵呵呵。另外没有断点续传。
4、图表时间轴最小值均设定为开始放送时间,不考虑先行放送。初期样本数量少波动较大。
5、没有抓番组开始放送时间,因为要多分析一个网页,我太懒了。所以手工再查一下吧。
6、列表ID不要有多余的空格和换行,不然会跪
特性:
1、读入目录下MAlist.txt中的条目ID批量抓取
2、同时抓取看过,再看,搁置,抛弃(统一数据)(有些人想看还打分是闹哪样),并统计当天评分人数
3、自动跳过未评分用户,评分时间以显示为准,不考虑中途修改过评分这种情况(视评分为理想状况,即每个人评分后不再改动。另外因为大多数人喜欢看完再评分,显然初期结果将会很不准确)
4、输出到db_Marks.xls,每个id一个sheet,已修改成输出id+title.xls,一个id一个文件)
内容包括:
第1行:日文名,平均分,有效评分人数
第2行:分数,时间(精确到分钟);时间(精确到天), 当天评分人数
第3行开始为第二行所述两组数据,其中C3为平均分计算式,(请手工在输入栏敲下回车,因为我太弱,输出公式老是出错,索性输出str了)
见图

5、Excel请手工处理
我选取了11年的一部分番进行了抓取制图,因为11年BGM人数已有一定积累,且距现在时间差不小(2年)。番组选取从以下几个方面考虑:
1,长度(季番,半年番)
2,原作(原创,轻改,漫改,Gal改)
3,类型(日常/剧情;少年/少女)
4,是否有前作(首季,二季)
5,大众向话题作
抓取时间 约为2013年10与18日晚至凌晨
选取列表及图表:
TV番组
评分人数>3000
Fate/Zero 8.3

あの日見た花の名前を僕達はまだ知らない。 8.3

ギルティクラウン 6.7

未来日記 7.6

花咲くいろは 7.6

魔法少女まどか☆マギカ 8.5

评分人数1000-3000
GOSICK -ゴシック- 7.2

僕は友達が少ない 7.2

IS〈インフィニット?ストラトス〉 6.6

THE iDOLM@STER 7.7

君と僕。 8.1

輪るピングドラム 8.2

ちはやふる 8.2

神のみぞ知るセカイII 7.5

WORKING’!! 7.8

君に届け 2ND SEASON 8.0

评分人数<1000
30歳の保健体育 10384 6.6

たまゆら?hitotose? 18605 7.4

ましろ色シンフォニー -The color of lovers- 12557 6.7

后来又追加了
進撃の巨人 8.1(样本密集)

けいおん! 7.8
けいおん!!7.7 (时间较久远,两季联动)

新世界より 8.1

映画
映画意义在于几乎不(应该)存在看到开头打个分,看到中间打个分,看到结尾再打个分这种情况
涼宮ハルヒの消失 8.6(映画,有效数据从2010-12-17有偷跑开始)

ヱヴァンゲリヲン新劇場版:Q 7.7

おおかみこどもの雨と雪 8.2

言の葉の庭 7.7

游戏
ダンガンロンパ 希望の学園と絶望の高校生

Fate/stay night

スーパーマリオブラザーズ

本人只提供数据,不作任何评论。仅供娱乐