[數學]如何看出數據造假?數據科學家要知道的 3 個數學定律

[數學]如何看出數據造假?數據科學家要知道的 3 個數學定律

yll 於 星期一 三月 08, 2021 9:17 am


數據科學家必須透過各樣工具處理海量數據,這些工具、演算法則是以基礎數學作為根基。因此,若數據科學家能掌握手中的工具,了解它們的理論前提假設、能解決的問題,以及應用限制,將能提升數據分析的品質與效能。

金融集團安聯(Allianz)的資料科學家 Cornellius Yudha Wijaya 在《medium》上 分享 3 個數據科學家要知道的數學定律,讓我們認識數據分析的本質。

班佛定律(Benford’s Law)
班佛定律(Benford’s law),又稱為異數定律(the law of anomalous numbers)或首位數定律(the first-digit law),探討數據集當中,首位數的數學規律。

首位數指的是數字的第 1 個數,例如 12 的首位數是 1, 932 的首位數是 9。根據直覺,在一個自然產生,範圍不限的數據集中,若我們隨機取一個數字,該數字的首位數為 1、為 2、…為 9 的機率應該都要一樣,都是 11.1%。然而在現實世界中,首位數為 1 的機率大於 2 的機率,2 的機率又大於 3 的機率,依此類推。

左鍵: 點擊縮放; 右鍵: 觀看原圖

全文見:
https://buzzorange.com/techorange/2021/03/05/3-math-laws-for-data-scientist/
分享我的教學和生活,複雜的事情簡單做!
帥哥良&小帥 Youtube

yll
帥哥良~
帥哥良~
 
文章: 4382
註冊時間: 2002-08-28
來自: 我將來要去的地方~




機率及排列組合數學