#1 - 2017-2-27 14:23
君寻 (已淡出bgm38)
趁着几位大大还在活跃,来伸手求几个功能的userjs (学了一点php和js但是写不出什么东西的我真是惭愧)
1.评分的平均分。
(1)个人平均分
(2)他人平均分
2.偏差值。
(1)他人评分与自己评分的偏差值。计算他人与自己同步条目评分的偏差度。
(2)评分与bgm评分的偏差值。

3.声优角色出演页面添加“只看收藏角色”

4.条目的角色(characters)页面,在已收藏的角色后面标上红心

5.在动画以及其他几个分类页面里加上“随便看看”的功能,随机从相应条目里选择10部,以及“换一批”功能。
#2 - 2017-2-27 14:31
(人型自走单线程大脑培养皿#5)
我这周有一个新的脚本要上线,其中包含功能1

功能2的话,我数学不太好。。所谓的偏差值意思是我的分数减去全站均分?
#2-1 - 2017-2-27 15:00
蜜瓜改二@五月病🍭
(直接爬下来稍微算下应该就好了,但是要爬的比较多,感觉不适合在前台做成 userjs
#2-2 - 2017-2-27 15:03
君寻
我傻了,标准差是用来计算一组随机数据的,两组随机数据的比较应该用协方差

不对,协方差也不行,协方差描述的是两组数据在分布上的相关性,并没有一一对应的关系
我觉得可以用下面的公式
#2-3 - 2017-2-27 15:15
fifth
everpcpc 说: (直接爬下来稍微算下应该就好了,但是要爬的比较多,感觉不适合在前台做成 userjs
是的,如果要爬好友的数据的话要爬的量有点多。。
功能1中仅看自己的分数这样的量还是可以接受的。。。
#2-4 - 2017-2-27 15:19
Donuts
everpcpc 说: (直接爬下来稍微算下应该就好了,但是要爬的比较多,感觉不适合在前台做成 userjs
+1
#2-5 - 2017-2-27 15:32
君寻
fifth 说: 是的,如果要爬好友的数据的话要爬的量有点多。。
功能1中仅看自己的分数这样的量还是可以接受的。。。
好像有些误解?我觉得2-(1)的量只有1的两倍左右啊
就是你点进某人的主页,点计算偏差值,然后获取他的收藏列表里的分数,和自己的对比,然后得出结果。
2-(2)因为要获取每个条目的bgm评分,所以我觉得难一些
#2-6 - 2017-2-27 15:47
fifth
君寻 说: 好像有些误解?我觉得2-(1)的量只有1的两倍左右啊
就是你点进某人的主页,点计算偏差值,然后获取他的收藏列表里的分数,和自己的对比,然后得出结果。
2-(2)因为要获取每个条目的bgm评分,所以我觉...
1-1(自己的均分)和1-2(好友的均分)这之间差别就已经很大了。。。
#2-7 - 2017-2-27 15:56
君寻
fifth 说: 1-1(自己的均分)和1-2(好友的均分)这之间差别就已经很大了。。。
意思是个人均分计算可以在一次获取之后本地化而简化下一次的工作量?
还是他人的评分获取方式与自己的有很大的差别?
#2-8 - 2017-2-27 16:16
fifth
君寻 说: 意思是个人均分计算可以在一次获取之后本地化而简化下一次的工作量?
还是他人的评分获取方式与自己的有很大的差别?
方式是一样的,就是一个人和一百个人的差别(还是很大的
当然单独到每一个人,如果列表很长的话这个爬起来也是比较慢的
所以我本来就不考虑每次都加载,这个因为数量太大了所以肯定要本地缓存的

我大致有一些思路了,不过具体的话还是等我过两天写着看了(大概周三或者周四之后才开始写,这两天工作之余应该还是主要修修上一个脚本里的问题
#2-9 - 2017-3-1 00:12
Franklin Yu
君寻 说: 意思是个人均分计算可以在一次获取之后本地化而简化下一次的工作量?
还是他人的评分获取方式与自己的有很大的差别?
你是要一次性得到自己所有好友的均分(數據量大)?還是在某個好友的頁面顯示這個好友的均分(數據量小)?後者和 1-(1) 的數據量一樣,前者不一樣
#3 - 2017-2-27 15:53
(Information doesn't harm)
如果只是单纯地做些数据分析暂时不考虑做成userjs的话,我这里有刚爬下来的16G的html,包含所有subject/xxx、user/xxx、user/xxx/friends、user/xxx/rev_friends、anime/list/xxx?page=yy
这两天会把数据整理一下,其实本来以为subject的整理完了,结果发现csv只能保存65536行直接悲剧了,这种情况居然不会报错(bgm38)
#3-1 - 2017-2-27 15:56
fifth
(bgm38)知识点get
#3-2 - 2017-2-27 15:57
Hentyclopedia
fifth 说: 知识点get
人生就是在不断的trial&error中debug啊(bgm38)
#3-3 - 2017-2-27 16:06
Donuts
CSV最大行数是哪个软件里的吗? 查了一下好像文件标准里并没有限制最大行数啊
#3-4 - 2017-2-27 16:25
Hentyclopedia
Donuts. 说: CSV最大行数是哪个软件里的吗? 查了一下好像文件标准里并没有限制最大行数啊
一语点破,果然是numbers的问题,我python里load了一下没问题了,还好我没有删
#3-5 - 2017-2-27 17:54
upsuper
Hentyclopedia 说: 一语点破,果然是numbers的问题,我python里load了一下没问题了,还好我没有删
Excel好像也是这样的限制如果没记错的话……
#3-6 - 2017-2-27 18:49
InfinityLoop
Hentyclopedia 说: 一语点破,果然是numbers的问题,我python里load了一下没问题了,还好我没有删
不用Excel打开用别的文本编辑器打开就好,65535是Excel的问题
#3-7 - 2017-2-27 19:03
Donuts
InfinityLoop 说: 不用Excel打开用别的文本编辑器打开就好,65535是Excel的问题
我想Henty桑说的是这个 numbers http://www.apple.com/numbers/
#3-8 - 2017-2-27 19:54
InfinityLoop
Donuts. 说: 我想Henty桑说的是这个 numbers http://www.apple.com/numbers/
流石高贵Mac玩家(bgm38)乡下人长见识了
#3-9 - 2017-3-1 00:02
Franklin Yu
Hentyclopedia 说: 一语点破,果然是numbers的问题,我python里load了一下没问题了,还好我没有删
CSV 要是限制最大行數,一眾做數據科學的碼農要發飆的…… 而且數據庫的「導出到 CSV」的功能也可以去死了(數據庫十萬行是基本能力……)
#3-10 - 2017-7-9 02:25
橘枳橼
InfinityLoop 说: 不用Excel打开用别的文本编辑器打开就好,65535是Excel的问题
Microsoft Office Excel从某个版本(可能是2007)开始,是131072(2**17)
有谁知道LibreOffice Calc的限制吗
#4 - 2017-2-28 13:37
(已淡出bgm38)
@fifth @Donuts.  
声优的角色演出页面 比如:http://bgm.tv/person/4765/works/voice
能做个“只看收藏的角色”的功能吗
お愿い
#4-1 - 2017-2-28 14:35
fifth
这个可以的。
不过最近一两天我可能写不了
#4-2 - 2017-2-28 14:36
君寻
fifth 说: 这个可以的。
不过最近一两天我可能写不了
没事,不急的
只是写在这里备忘(*^__^*)
#4-3 - 2017-7-8 14:25
頂上ノ月🌙
fifth 说: 这个可以的。
不过最近一两天我可能写不了
冒昧问一下
不知道这个功能的脚本你有没有做出来
我刚刚试了一下
发现收藏角色的页面有分页 像君寻的就有13页这么多
想拿到全部收藏角色的资料要爬这么多东西
爬太快服务器可能撑不住 但人不愿意等太久
所以想来请教一下你的想法(bgm67)
#4-4 - 2017-7-8 14:29
君寻
NevaR(yonjar) 说: 冒昧问一下
不知道这个功能的脚本你有没有做出来
我刚刚试了一下
发现收藏角色的页面有分页 像君寻的就有13页这么多
想拿到全部收藏角色的资料要爬这么多东西
爬太快服务器可能撑不住 但人不愿意等太久
所...
我觉得可以在第一次的时候获取全部收藏的角色名,然后存储起来,以后只调用这个本地存储库,如果要更新的话就点击重新获取以刷新存储库
#4-5 - 2017-7-8 14:44
頂上ノ月🌙
君寻 说: 我觉得可以在第一次的时候获取全部收藏的角色名,然后存储起来,以后只调用这个本地存储库,如果要更新的话就点击重新获取以刷新存储库
貌似也就只能这样了(bgm38)
#4-6 - 2017-7-9 02:55
fifth
NevaR 说: 貌似也就只能这样了
手动刷新+静默执行+存localstorage。(目前斯托卡获取时光机信息就是类似这样的模式
用户只要保证在循环执行的时候不要跳转走即可,可以做个提醒的回调
#4-7 - 2017-7-9 10:23
頂上ノ月🌙
fifth 说: 手动刷新+静默执行+存localstorage。(目前斯托卡获取时光机信息就是类似这样的模式
用户只要保证在循环执行的时候不要跳转走即可,可以做个提醒的回调
谢谢 我去读源码了(๑•̀ㅂ•́)و✧
#4-8 - 2017-7-9 11:18
fifth
NevaR 说: 谢谢 我去读源码了(๑•̀ㅂ•́)و✧
我的源码并不完全和我上面说的流程一致(而且大概会很难读
#4-9 - 2017-7-9 11:23
頂上ノ月🌙
fifth 说: 我的源码并不完全和我上面说的流程一致(而且大概会很难读
源码的逻辑并不是很复杂 还是能看懂了(只是个人对jQuery有点小抵触w)
我在思考该怎样解决 回调地狱+请求过快 的问题
#4-10 - 2017-7-9 11:48
fifth
NevaR 说: 源码的逻辑并不是很复杂 还是能看懂了(只是个人对jQuery有点小抵触w)
我在思考该怎样解决 回调地狱+请求过快 的问题
还好吧,我的做法是每次只请求一页
#4-11 - 2017-7-9 12:03
頂上ノ月🌙
fifth 说: 还好吧,我的做法是每次只请求一页
我总是用不好js的异步编程(bgm38)
还是说这种情况应该用同步来做_(:зゝ∠)_
#4-12 - 2017-7-9 12:34
fifth
NevaR 说: 我总是用不好js的异步编程
还是说这种情况应该用同步来做_(:зゝ∠)_
js不就是一门异步的艺术吗
#4-13 - 2017-7-9 12:40
頂上ノ月🌙
fifth 说: js不就是一门异步的艺术吗
我现在的情况是
执行脚本->一次性异步请求需要的页面(这时服务器就炸了)->等页面请求完成(...)->进一步操作
或许要加个setTimeout?(bgm38)
#4-14 - 2017-7-9 12:43
fifth
NevaR 说: 我现在的情况是
执行脚本->一次性异步请求需要的页面(这时服务器就炸了)->等页面请求完成(...)->进一步操作
或许要加个setTimeout?
你是一次性请求所有页面吗
#4-15 - 2017-7-9 12:54
頂上ノ月🌙
fifth 说: 你是一次性请求所有页面吗
嗯 所有(bgm38)
我还是太辣鸡了
#4-16 - 2017-7-9 12:56
fifth
NevaR 说: 嗯 所有
我还是太辣鸡了
我建议可以在前一页数据处理结束后再去请求下一页
#4-17 - 2017-7-9 13:12
頂上ノ月🌙
fifth 说: 我建议可以在前一页数据处理结束后再去请求下一页
嗯 我知道该怎么做了
我总是想先把这些页面拿到再去处理
#4-18 - 2017-7-9 14:09
fifth
NevaR 说: 嗯 我知道该怎么做了
我总是想先把这些页面拿到再去处理
取一页存一页,全部取完再处理
#5 - 2017-7-8 14:39
(哈啊…果然又困了……)
学前端,上班固米!
#5-1 - 2017-7-9 02:51
fifth
学前端太辛苦?试试班固米女装
#5-2 - 2017-7-9 03:09
fantasy
fifth 说: 学前端太辛苦?试试班固米女装
不是去做产品经理吗?