看冻鳗学统计：mid-range（中程数）估计量 (讨论:私、能力は平均値でって言ったよね！)

#1 - 2019-11-5 23:08

ζ*'ヮ')ζ 讀者諸孃へ (愛讀者諸孃は御賛成下さいまし)

参考：https://en.wikipedia.org/wiki/Mid-range

我们日常常用的样本均值、中位数等概念，在统计学中有一个统称叫做“位置估计量”，也就是说均值和中位数实际上在做的都是设法衡量一个随机分布在数轴上大致的左右位置。实际上位置估计还有一些不太常见的其他类型，其中一种就是所谓的mid-range，中文里大致翻译为“中程数”，定义为一个样本最大值加最小值除以二。通常来说mid-range是一种性质很糟糕的估计，用统计术语来说叫做“不健壮”，因为很显然这种估计量受到样本极端值的影响太大。但是在某些情况下，例如对均匀分布来说，mid-range估计量反而是一种性质非常好的估计量（最小方差无偏估计）。

#2 - 2019-11-7 11:39

Cedar (｡´-д-)

为何性质非常好?

#2-1 - 2019-11-7 12:05

ζ*'ヮ')ζ 讀者諸孃へ

因为均匀分布只跟分布的上下限有关，刚好mid-range也只跟样本分布的上下限有关。

#3 - 2019-11-12 00:17

橘枳橼 (我只知道自己一无所知。)

搬一下自己的评论：

神：
说平均数的，你知道这个世界有多少生物吗？你知道 select sum(*), count(*) from entity 一遍要多久吗？跑一遍就需要 stop the world （双关）多久你知道吗？数值有多大你知道吗？都超过 TREE(3) 了。
TMD 就是 select sum(*) from entity_class 都爆了 4096 位整数，我 select (max(*)+min(*))/2 偷个懒容易呢吗我？

#3-1 - 2019-11-12 05:25

ζ*'ヮ')ζ 讀者諸孃へ

是，算得快也是个优点，虽然前提是数据本身是已经排好序的。记得计算机普及之前大规模线性回归也经常只用两点的。

#3-2 - 2019-11-12 20:29

橘枳橼

Ƹ̵̡Ӝ̵̨̄Ʒ 说: 是，算得快也是个优点，虽然前提是数据本身是已经排好序的。记得计算机普及之前大规模线性回归也经常只用两点的。

所以说其实空间重要性更明显，min max 都是 1，而 sum 是 log(n) 的
话说平均数计算可以不存总和吗？

#3-3 - 2019-11-12 20:39

ζ*'ヮ')ζ 讀者諸孃へ

InQβ 说: 所以说其实空间重要性更明显，min max 都是 1，而 sum 是 log(n) 的
话说平均数计算可以不存总和吗？

不可能不存吧……

#3-4 - 2019-11-13 00:38

橘枳橼

Ƹ̵̡Ӝ̵̨̄Ʒ 说: 不可能不存吧……

好像可以
稍微推算可以推广到任意多个新元素的情况，最后也可以完全并行运算
用物理意义转化后可以变成矢量计算

#4 - 2019-11-12 00:22

橘枳橼 (我只知道自己一无所知。)

另外，实际上统计只是看这些数值真的很容易 “入魔”
参考：安斯库姆四重奏，被设计用以反制统计学家们的 “数值精确，图标模糊” 的印象。

所以实际统计还是得作图，而且非常清楚：

xkcd: Violin Plots

#5 - 2019-11-13 16:25

lhb5883-吹冈王♛⑩ (BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈三位一体 ...)

我还是喜欢中位数，所有的值都在原始数据里，只是选择性表述了一下。

#6 - 2019-11-13 17:50

Oalvay

这也就均匀分布里有用，在其他地方没人敢用吧。。

#6-1 - 2019-11-13 18:04

ζ*'ヮ')ζ 讀者諸孃へ

这片里的神不就用了

#6-2 - 2019-11-13 18:08

Oalvay

Ƹ̵̡Ӝ̵̨̄Ʒ 说: 这片里的神不就用了

草

，那我去观摩一下

#7 - 2019-11-13 20:03

MoeLeaf (青春是谎言，是罪恶。)

前几天看论文的时候也查了这个wiki，然后立马想到这部沙雕动画 (bgm39)

私、能力は平均値でって言ったよね！