Sample
低样本城市会怎样误导判断
样本太小时,图表最危险的地方不是“看不见东西”,而是“看起来像看见了很多东西”。
低样本是所有实时数据产品都绕不开的问题。尤其到了城市层面,几条新增记录就可能把状态结构推得很偏。麻烦在于,用户从界面上并不总能立刻感受到这种不稳。一个热区、一条榜单、一组比例,视觉上都像是在说话。可它们有时候只是声音比较大,不代表证据比较厚。
小样本很容易长出假稳定感
只要图表样式足够整齐,人就会下意识地相信它。问题在于,整齐的图不等于厚实的证据。某个城市哪怕只有不多的样本,也照样能画出漂亮的占比和排序。
所以低样本最麻烦的地方,不是“完全没法看”,而是“好像能看”。它会让人太早开始解释,而不是先问一句:这里的数据到底厚不厚。
小样本更适合做线索,不适合做结论
如果一个低样本城市突然出现很高的加班比例,我会把它记成线索。也许值得继续看,也许明天就消失。这个时候最不该做的,就是马上把它上升为城市文化判断。
很多误判不是来自数据本身,而是来自人急着把线索升级成结论。低样本只要被放回“待观察”的位置上,风险其实会小很多。
好的说明文字能帮读者踩刹车
我越来越觉得,低样本提示不该只是后台逻辑,也该是前台语言的一部分。站点如果愿意坦白哪些城市还在积累样本,哪些页目前更适合看趋势而不是看结论,读者反而会更信任它。
读者并不怕复杂。读者更怕的是,一个页面看起来很笃定,后来才发现它根本站不住。
