#1 - 2015-1-31 04:52
Genius🌟小乖💯 (Enjoy your (real) life!)
Bangumi 的各位,大家好。
在过去一个月多里,我一直都在秘密地设计 Bangumi 同步率匹配功能的实现。今天我很高兴地告诉大家,Chi v0.2 上线了!
戳我
目前各位可以查看自己和 Bangumi 任意一个用户的同步率,和全站与自己同步率最高的 10 位用户。
当然是自己抓的数据计算的,实时的同步率匹配就不要指望了。所有的数据是在 2015年1月15日某时刻前的数据。
同步率是如何计算的?
和 Bangumi 官方算法不同,这个算法利用了你的评分信息和收藏信息。没有评分的作品在一定程度上也会影响同步率。
算法很高级吗?
目前的算法是一个比较保守的、结果能符合大家直观感受的算法,也因此没有用机器学习中的更高级的算法。更前卫的算法就需要更长时间的研究。
Github
求各位大神轻喷。
我得赶快去复习考试了,这个快把我忙疯了。
在过去一个月多里,我一直都在秘密地设计 Bangumi 同步率匹配功能的实现。今天我很高兴地告诉大家,Chi v0.2 上线了!
戳我
目前各位可以查看自己和 Bangumi 任意一个用户的同步率,和全站与自己同步率最高的 10 位用户。
当然是自己抓的数据计算的,实时的同步率匹配就不要指望了。所有的数据是在 2015年1月15日某时刻前的数据。
同步率是如何计算的?
和 Bangumi 官方算法不同,这个算法利用了你的评分信息和收藏信息。没有评分的作品在一定程度上也会影响同步率。
算法很高级吗?
目前的算法是一个比较保守的、结果能符合大家直观感受的算法,也因此没有用机器学习中的更高级的算法。更前卫的算法就需要更长时间的研究。
Github
求各位大神轻喷。
我得赶快去复习考试了,这个快把我忙疯了。
至于你说的精确到某几部作品的同步,更高级的算法可能就更难实现了。
理想中的算法,应该是用户因为观看了相同概念的作品并给出高分,但是他们不一定都要看某一特定的作品。
要进化到这种阶段,实际上就是一个作品推荐系统了。其实我一开始也是这个思路,但是 Bangumi 的用户太少,达不到理想效果。经统计,有收藏过条目的 BGMer 才5万,收藏过超过5个条目的BGM er才2.5万。就这样的基数实现概念同步难上加难。
有没有可能进一步确定存活的活跃人数? 根据时间胶囊最近几个月有更新什么的(不懂编程 如果是不合理的请求请无视
然后让我继续笑会儿…哈哈哈…
你做过 matrix factorization?怎么解决大矩阵存储问题的?
确实,这不是大数据的应用场景,用复杂算法反而不好。
效果不好可能也是因为用户之间普遍差异比较大,而且用户的评分行为前后不一致吧,加上temporal effect可能效果会好点。
顺便说一句做到推荐那样的用户可能会在整体效果上有所降低,毕竟 BGM 用户还是太少。
我之前想过把Bgm的自带那个同步率抓一遍,找到最接近的。。。然后自己做茶话会风云榜的时候,就觉得有点麻烦了,如果要遍历抓同步率数据有点太多了,说不定就被赛老板封了。。。
Hi @四叠半糯米团子! 与你同步率最高的前十位 BGMer 如下:
@Tosu吐司菌
63.03%
@RomanceDawn
63.03%
@漠寒
61.21%
@wyzcc
60.79%
@金曜日
60.78%
@泡泡瓦克司
60.52%
@藤花小姬
60.39%
@吐槽不能
60.16%
@JustGundam
60.06%
@apricis
60.02%
没有人跟我的同步率超过60%俱乐部
不过同步率最高还是没及格(
排名稍后的用户有同步率更高的分支
全员11年弃坑
最后两个还是同一人
不幸的是,看来 Bangumi 有个家伙和你的昵称 c933103 一模一样。所以……
又看了下前面楼层发现你似乎是因为看片量大,是一大票人的第一
我蠢哭了
恩。。不过同步率也可以有新算法嘛,恩(