2023-9-30 18:01 /
我时常在思考如何能尽可能有效地对游戏进行评分。评分本身就是一个不科学的东西,一个游戏有那么多评判优劣的维度,最后我们只把它坍缩成一维,甚至坍缩到一个十点李克特量表上,这本身就是强人所难。但在给数十个游戏按我设想的尽可能有效的系统进行评分后,我发现结果比我想象中的更不合理。

作为一名玩家(而不是从业者),大家传统上常用的评分维度就那么几个:玩法、剧情、画面、音乐。我觉得这几个不够,又加入了体验,然后对五维做加权平均。转至登记到bangumi时,我还得把连续的评分再离散化到1-10之间。

然而在使用时我发现了两个致命的问题。最大的问题在于,评分的区分度很小。当然我大可以觉得连续的分数已经比离散的评分提供了多太多的信息,但我依然嫌他不够。首先,玩法作为游戏的大头,区分度并没有我想象中那么大。因为无数优秀的游戏就摆在游戏史上,总不能抄都抄歪来。常见的继承前人玩法却达不到前人高度的游戏,其问题并不在于玩法本身,而是在于许多细节的打磨(尤其是氛围感的营造)。许多续作采用了与前作相同的玩法,却超越了/达不到前作的水准,关键就在此处。举一个我认为比较恰当的例子,女神异闻录5和女神异闻录4拥有几乎完全相同的玩法和类似的剧情(atlus祖传老一套),为什么前者一炮走红,我觉得很大程度上是因为p5的美术/地图设计塑造的紧张氛围与玩法相得益彰,而p4简陋的建模和愚蠢的通马桶支线消磨了玩家的心气。说白了就是就算是顶级的食材,垃圾厨师也能给你烧成屎,和食材本身无关。为此我才设置了体验这一相对主观的维度来总括当设计师把所有内容糅合在一起之后最后呈现给玩家的体验。但体验本身也很难给出足够的区分度,因为这个维度本身就是关公战秦琼,相当于随便挑两款类型都不一样的游戏,问你哪款玩起来爽,其实大部分游戏都差不多,评分也很容易集中在小区间之内。虽然我并不吝惜给某方面出色的游戏打很高的分数(远远超过正态分布应有的概率密度了),但最终也只能体现在少数游戏上,大部分游戏的评分相差无几。

另一个致命的问题在于,即使采用了五个维度,我们还是缺失了非常多的信息。例如上文谈到的地图设计和支线任务内容,它不属于五个中的任何一个(至少我不认为属于),最后对评分的贡献只能体现在体验的很小一部分里。另外,例如星际拓荒这样的宇宙神作,在我的评分表里其实并没有拿到特别高的分数,因为星际拓荒的牛逼之处不在这五个维度中的任何一个,我甚至很难描述出它好在哪儿,但他就是很牛逼。

这两个问题是很难同时解决的。例如我们可以考虑增加更多的维度来涵盖更多的信息(例如我很喜欢的尚在天国老师就用了7个维度的评分),但如果这些维度互相独立(虽然并不是这样),加权平均后就更容易趋于均值,导致更低的区分度。

因此,我所设想的科学游戏评分方法应该采取如下步骤:

1.写出尽可能多且具体的评判游戏好坏的问题,越多越详细越好,评价方式可以是任意的,从二元到连续分值。

2.对所有游戏回答以上问题。

3.利用主成分分析抽取若干个成分进行降维。

4.给降维后的主成分打上合理的解释tag作为最终维度。

5.加权平均或者直接使用多维评分。

当然,这更像是一个量表的构建思路,但需要警醒的是我们实际上经常考虑了过分少的信息就给定评价。使用更多问题有助于我们考虑一些被掩盖的事实和忽略的维度。

显然这种方式过于复杂并且很难被接受。一种可行的替代方式是采用不同网站/游戏媒体的评分替代这些问题(类似Metacritic)。当然结果也会远远更不可信。

按:尝试对目前使用的五维进行主成分分析,果不其然玩法体验画面一维,剧情音乐一维

附目前游戏评分图:


Tags: 游戏
#1 - 2023-9-30 21:16
图片看不了
#1-1 - 2023-10-1 10:34
神無月らく
我电脑端可以右键在新标签页打开图像……不知道手机怎么搞
#2 - 2023-10-1 18:11
(人生苦短,如梦似幻。)
“科学游戏评分方法”几个字属实把我看蚌埠住了,甚至还打算对数据用PCA?

我实在是不理解你为何对游戏评分,尤其还是BANGUMI上面的大众向游戏评分数据如此执着。我想不到你去做这件事的动机是什么,干嘛要如此大费周章地处理一堆辣鸡数据?

Ranking/Rating for games 本来就是图一乐的玩意儿,本不存在什么标准,妄图从中建立一套“科学的评价体系”无异于痴人说梦。
#2-1 - 2023-10-1 22:02
神無月らく
图一乐啊