活動
百分位數
百分位數(percentile)是統計學中常用的一個概念。百分一詞,顧名思義乃是分成一百等分,將一塊地分成一百等分,將一塊布料分成一百等分,怎樣的分割方法可以達成一百等分?這裡用到一詞“等分”,每一等分在數量上的佔比是相同的,例如,將一塊地分成一百等分後,每一小塊的面積相同,都是原來全部的百分之一,將一塊布料分成一百等分,每一小塊布料的面積相同,也都是原來的百分之一。而這分割還隱藏一個概念,每個被分割後的小單元是連接再一起的,而非湊在一起的一塊 (像原塊牛肉而非組合牛肉)
根據以上的說明,百分位數乃是將一組數據分成一百等分,分割方法就是指出一百等分中需要的99個分割點。為了確保被分割後的每一個等分是連接再一起的,分割前先將數據依大小順序排成一串,想像這整串數據是一匹布料,該如何用剪刀將它分成一百份呢?
百分位數是它將一組數據按大小順序劃分為99個相同數量的分割點,如何得到這些分割點請看影片和教材。百分位數可以幫助我們了解數據在分佈中的位置,進而對數據進行更細緻的分析。與工管系專業領域相關,百分位數有以下三個主要用途:
1. **數據分佈分析**:
百分位數可以幫助我們了解數據的分佈情況。通過觀察不同百分位數所對應的數值,我們可以了解數據集中在哪些區域。例如,第25百分位數(第一四分位數)表示數據中有25%的數值低於這個數值,第75百分位數(第三四分位數)表示數據中有75%的數值低於這個數值。這樣,我們可以快速了解數據的中位數、變異程度以及是否存在極端值。
2. **異常值檢測**:
百分位數可以用來檢測數據中的異常值。通常,我們可以使用第1百分位數和第99百分位數來確定數據的範圍,超出這個範圍的數據可能被視為異常值。這在數據清洗和預處理過程中尤為重要,可以幫助我們剔除不合理的數據點,從而提高數據分析的準確性。
3. **比較不同數據集**:
百分位數可以用來比較不同數據集之間的差異。例如,我們可以通過比較兩個數據集的第50百分位數(中位數),來了解兩組數據的中心位置是否不同。這在多組實驗結果比較、地區經濟水平比較等應用中非常實用。