課程介紹
本課程目標為培養學生建立數據科學的基本態度,習以數據作為決策判斷的依據。課程教授數據整理、資料視覺化、數據科學的基礎理論和統計推論的應用。
課程活動
  • 1.
    敘述統計-統計圖表
    說明資料的類型、衡量的尺度和整理資料的方法。
     
    關於資料整理,我們會使用次數分配表、長條圖、柏拉圖和直方圖這些圖表工具,他們是統計分析中常用的工具,能幫助我們有效地理解和呈現數據的分配(分配是表現一組數據中,各種情況所佔的比例)。

    > 次數分配表是資料整理的開端,以表格方式呈現數據的分配。根據數據的屬性(類別型數值型)而有不同的做法。類別型資料是統計各種類別出現的次數,將各種類別出現的次數彙整而製成表格。若是數值型資料,做法稍微複雜些,首先,我們將根據數據的範圍 (最大值和最小值)將資料分組並計算每組數據出現次數的表格。製作次數分配表時,需先確定數據範圍和適當的分組區間,然後將數據按分組區間歸類並計算每組的頻數。這種表格能幫助我們快速了解數據的分佈情況和集中趨勢,特別適合用於大規模數據的初步分析。
    有了次數分配表,接下來就是根據這次數分配表將資料分配視覺化。
    >長條圖是一種將次數分配表的數據視覺化的圖表。長條圖的橫軸次數分配表的類別名稱,縱軸是次數(相對次數)座標,在橫軸類別名稱上,向上(第一象限)畫一條垂直於橫軸的長條,長條長度等同於該類別的次數。也就是,每個長條的高度或長度表示該類別的數值大小。長條圖適合用於比較不同類別數值的大小差異,例如不同年份的銷售額或不同地區的人口數。
    >柏拉圖是一種特殊的類別型長條圖,用於找出影響某問題的主要因素。製作柏拉圖時,先將類別名稱按出現的次數大小遞減排序,根據排序後的次數分配計算累積次數和累積相對次數。再者,遵循長條圖的製作方式完成類別型長條圖,並將累積相對次數畫在同一張圖上,在圖的右邊縱軸繪製應累積相對次數的座標軸。換言之,柏拉圖包含兩個圖形,一個長條圖和一個累積累積相對次數分配曲線。柏拉圖常用於品質管理和改進過程中,能幫助找出關鍵因素,集中資源解決主要問題。
    >直方圖是數值型次數分配表視覺化工具。橫軸按次數分配表為數值區間,縱軸標示次數,繪製對應的長條。每個長條的高度表示該區間內數據的頻數。直方圖適合分析連續數據的分佈情況,能幫助了解數據的集中趨勢、分散程度和分佈形態。
     
  • 2.
    敘述統計-集中趨勢統計量
    以統計量描述資料分配的樣態,介紹各種集中趨勢量數的定義、計算和意義。
     
    >平均數(Mean): 平均數是所有數據值的總和除以數據的個數。它代表了一組數據的中心位置,是數據的算術平均。
    >中位數(Median):中位數是將數據按從小到大的順序排列後,位於中間位置的數值。如果數據個數是奇數,中位數就是中間那個值;如果數據個數是偶數,中位數是中間兩個值的平均數。
    >眾數(Mode):眾數是數據中出現頻率最高的數值。如果一組數據中有多個數值出現的頻率相同且最高,這些數值都可以稱為眾數。
     
    特點:
       - 平均數適合描述整體數據的中心趨勢,但容易受極端值影響。
       - 中位數適合描述數據的中心位置,特別是在數據偏態分佈時,不受極端值影響。
       - 眾數適合描述數據中最常見的值,特別是在分類數據中,但在連續數據中不一定有意義。
     
  • 3.
    敘述統計-分散統計量數
    以統計量描述資料分配的樣態,介紹變異數和標準差的定義、計算和意義。
     
    分散趨勢統計量用來衡量數據的分佈情況,包括數據如何分散及變異的程度。這些統計量幫助我們了解數據的波動和離散程度,以不同於集中趨勢統計量的方式理解數據的分配。以下是幾種常見的分散趨勢統計量:
     全距(Range)
    全距是統計學中最簡單的分散量數之一,定義為數據集中最大值與最小值之間的差異。它提供了一個簡單直觀的數據分佈範圍,能夠快速了解數據的最大變化幅度。然而,全距容易受到極端值的影響,可能會導致對數據分佈的誤導。因此,全距通常用於初步的數據分析,提供一個快速的數據範圍概覽。
    四分位距(Interquartile Range, IQR)
    四分位距是數據分佈中間50%的範圍,定義為第三四分位數(Q3)與第一四分位數(Q1)之間的差異。四分位距不受極端值的影響,因此能夠更準確地反映數據的真實分佈情況。它常用於描述數據的集中趨勢和變異程度,特別是在數據具有偏態分佈時。例如,在教育評估中,四分位距可以用來比較學生成績的分佈狀況。
    變異數(Variance)
    變異數是衡量數據變異程度的重要指標,定義為數據集中每個值與平均數之差的平方的平均。變異數提供了數據分佈的詳細資訊,但因為計算的是平方值,所以單位與原數據不同。較大的變異數表示數據點遠離平均數,分佈較為分散;較小的變異數則表示數據點靠近平均數,分佈較為集中。變異數在許多統計分析和研究中具有重要作用,尤其是在變異分析和假設檢定中。
     標準差(Standard Deviation)
    標準差是變異數的平方根,它保留了變異數的所有特性,但單位與原數據相同,使得解釋數據變異性更加直觀。標準差越大,表示數據越分散;標準差越小,表示數據越集中。標準差廣泛應用於統計分析、品質控制和金融風險管理等領域。例如,在品質控制中,標準差可以用來衡量產品的一致性。
    變異係數(Coefficient of Variation, CV)
    變異係數是標準差與平均數的比值,通常表示為百分比。它提供了一個無量綱的分散量度,適合用來比較不同尺度或不同量級數據的變異程度。變異係數在經濟、醫學和工程等領域具有重要應用。例如,在醫學研究中,變異係數可以用來比較不同試驗的結果變異性,從而評估實驗數據的穩定性。
    平均絕對離差(Mean Absolute Deviation, MAD)
    平均絕對離差是數據集中每個值與平均數之差的絕對值的平均。它是一種簡單易懂的分散量度,對極端值的敏感度較低。平均絕對離差適合用來描述數據的變異情況,特別是當需要對數據進行簡單的變異分析時。例如,在零售業中,平均絕對離差可以用來衡量不同店鋪的銷售業績變動情況。
  • 4.
    百分位數
    百分位數(percentile)是統計學中常用的一個概念。百分一詞,顧名思義乃是分成一百等分,將一塊地分成一百等分,將一塊布料分成一百等分,怎樣的分割方法可以達成一百等分?這裡用到一詞“等分”,每一等分在數量上的佔比是相同的,例如,將一塊地分成一百等分後,每一小塊的面積相同,都是原來全部的百分之一,將一塊布料分成一百等分,每一小塊布料的面積相同,也都是原來的百分之一。而這分割還隱藏一個概念,每個被分割後的小單元是連接再一起的,而非湊在一起的一塊 (像原塊牛肉而非組合牛肉)
     
    根據以上的說明,百分位數乃是將一組數據分成一百等分,分割方法就是指出一百等分中需要的99個分割點。為了確保被分割後的每一個等分是連接再一起的,分割前先將數據依大小順序排成一串,想像這整串數據是一匹布料,該如何用剪刀將它分成一百份呢?
     
    百分位數是它將一組數據按大小順序劃分為99個相同數量的分割點,如何得到這些分割點請看影片和教材。百分位數可以幫助我們了解數據在分佈中的位置,進而對數據進行更細緻的分析。與工管系專業領域相關,百分位數有以下三個主要用途:
    1. **數據分佈分析**:
        百分位數可以幫助我們了解數據的分佈情況。通過觀察不同百分位數所對應的數值,我們可以了解數據集中在哪些區域。例如,第25百分位數(第一四分位數)表示數據中有25%的數值低於這個數值,第75百分位數(第三四分位數)表示數據中有75%的數值低於這個數值。這樣,我們可以快速了解數據的中位數、變異程度以及是否存在極端值。
    2. **異常值檢測**:
        百分位數可以用來檢測數據中的異常值。通常,我們可以使用第1百分位數和第99百分位數來確定數據的範圍,超出這個範圍的數據可能被視為異常值。這在數據清洗和預處理過程中尤為重要,可以幫助我們剔除不合理的數據點,從而提高數據分析的準確性。
    3. **比較不同數據集**:
        百分位數可以用來比較不同數據集之間的差異。例如,我們可以通過比較兩個數據集的第50百分位數(中位數),來了解兩組數據的中心位置是否不同。這在多組實驗結果比較、地區經濟水平比較等應用中非常實用。
     
  • 5.
    集合與機率論
    本節課程將依次講解集合的基本運算、排列組合的計算公式、機率的概念及其運算方式,隨機變數和機率分配的概念,以及隨機變數的期望值及其計算。
    首先,我們會講解集合的基本運算,包括交集、聯集和餘集。交集是指兩個集合的共同元素,用符號A ∩ B表示;聯集是指兩個集合的所有元素,用符號A ∪ B表示;餘集則是指集合中不屬於某特定子集的元素,用符號A - B表示。這些基本運算有助於我們理解不同集合之間的關係和相互作用。
    接下來,我們會介紹排列組合及其計算公式。排列是指從一個集合中選取若干元素並考慮其順序的方式,計算公式為n! / (n-r)!。組合則是不考慮順序的選取方式,計算公式為n! / [r!(n-r)!]。這些概念和公式在計算多種情況下的可能性時非常實用。
    接著,我們會介紹機率的概念。機率是指某事件發生的可能性大小。我們將討論集合(事件)發生機率的運算方式,並介紹三種常用的機率觀點:古典機率、相對機率與主觀機率。古典機率是指在所有可能結果中,每個結果出現的可能性相等的情況下,某事件發生的機率;相對機率是基於實驗或歷史數據,表示某事件發生的次數與總次數之比;主觀機率則是基於個人或專家的信念或預測。
    然後,我們會解釋統計學的核心概念——隨機變數。隨機變數是指在隨機試驗中可能取的數值,分為離散型和連續型。我們將引入機率分配的概念,即每個可能取值對應的機率。隨機變數的期望值是其所有可能取值加權平均的數值,對於離散型隨機變數,期望值的計算公式為E(X) = Σ [x * P(x)];對於連續型隨機變數,期望值的計算公式為E(X) = ∫ x * f(x) dx,其中P(x)是概率,f(x)是概率密度函數。
    透過這些概念和公式的介紹,學生將能夠理解基本集合運算和排列組合的原理,掌握計算機率的方法,並了解隨機變數及其期望值的定義和計算,為進一步的統計學習打下堅實基礎。
  • 6.
    離散型機率分配
    考慮到各位同學將來會學習品質管理相關課程,並將學習管制圖與允收抽樣的品質管制技術,本節課程將重點介紹與此相關的離散型機率分配,其中包括二項分配、超幾何分配和卜瓦松分配這三種分配。
     
    二項分配(Binomial Distribution)
    二項分配描述在固定次數的獨立試驗中,某事件發生的次數分佈。每次試驗只有兩種可能結果(成功或失敗),且每次試驗成功的機率相同。二項分配適用於如產品合格率、測試通過率等情況。其公式為:
    $$ P(X = x) = C^{n}_{x} p^x (1-p)^{n-x} $$
    其中,$n$ 是試驗總次數,$x$ 是成功次數,$p$是每次成功的機率。二項分配可以幫助我們計算在多次試驗中成功出現特定次數的機率,這在品質控制中,如檢測產品合格率時非常實用。
     
    超幾何分配(Hypergeometric Distribution)
    超幾何分配描述在不放回抽樣的情況下,從有限集合中抽取樣本中成功出現的次數分佈。這種分配適用於抽樣數量接近總體數量的情況,常見於品質檢驗中的批量抽樣。其公式為:
    $$P(X = x) = \frac{C^{R}_{x} C^{N-R}_{n-x}}{C^{N}_{n}}$$
    其中,$N$ 是總體數量,$R$ 是總體中成功的數量,$n$ 是抽樣數量,$x$ 是樣本中成功的數量。超幾何分配有助於評估在抽樣過程中檢測到一定數量不良品的機率,進而決定是否接受這批產品。
     
    卜瓦松分配(Poisson Distribution)
    卜瓦松分配用來描述在固定時間或空間範圍內,某事件發生的次數分佈,特別適用於稀有事件的模型。它假設每個事件發生的機率很小,但試驗次數很大。其公式為:
    $P(X = x) = \frac{\lambda^x e^{-\lambda}}{x!} $$
    其中,$\lambda$ 是單位時間或空間內事件的平均發生次數,$x$是事件發生的次數。卜瓦松分配在品質管理中可用來描述某產品在單位時間內出現缺陷的次數,例如每小時生產線上的次品數量。
    透過本節課程的學習,同學們將能夠理解並掌握二項分配、超幾何分配和卜瓦松分配的基本概念和計算方法,這些知識在未來學習品質管理技術時將非常有幫助。
     
    註: $...$或$$....$$為Latex數學式語法。
  • 7.
    常態分配
    本節課將介紹常態分配的性質、標準常態分配的查表、標準分數及其應用問題。
     
    常態分配的性質
    常態分配(normal distribution),又稱高斯分佈,是統計學中最常見的分佈之一。其機率密度函數(probability density function, pdf) 呈鐘形曲線 (bell-shaped),具有以下幾個主要性質:
    1. 對稱性:常態分配的曲線關於平均數對稱,左右兩側的形狀完全相同。
    2.單峰性:常態分配的曲線只有一個最高點,即平均數所在的位置。
    3.68-95-99.73法則:在常態分配中,大約68%的數據落在平均數加減一個標準差之內,95%的數據落在平均數加減兩個標準差之內,99.73%的數據落在平均數加減三個標準差之內。
    4. 漸近性:常態分配的曲線向兩側無限延伸但永不觸及橫軸。
     
    標準常態分配的查表
    標準常態分配是指平均數為0、標準差為1的常態分配。統計學中常使用標準常態分配表(Z表, 請看課本)來查找特定Z值對應的累積機率。查表過程如下:
    1. 確定Z值:Z值表示某個數據點距離平均數的標準差數。
    2. 查表:根據Z值找到對應的累積機率,即從負無限大到該Z值的面積。例如,Z值為1.96時,累積機率約為0.975,表示在標準常態分配中,約97.5%的數據位於平均數加減1.96個標準差之內。
     
    標準分數(Z分數)
    標準分數,又稱Z分數,是用來表示某個數據點距離平均數的標準差數。計算公式為:
    $$Z = \frac{X - \mu}{\sigma}$$
    其中,X是數據點,μ是平均數,σ是標準差。標準分數可以將不同數據轉換到標準常態分配上,便於比較。
     
    應用問題
    常態分配和標準分數在現實中有廣泛的應用:
    1. 成績評估:將學生成績轉換為標準分數,以便於不同班級或學校之間的比較。
    2. 品質控制:在製造業中,使用常態分配來分析產品的品質分佈,確定合格品和次品的比例。
    3. 新生兒身高和體重分佈:醫院通常使用常態分配來分析新生兒的身高和體重分佈,確定哪些嬰兒的身高和體重在正常範圍內。這有助於及時發現和處理健康問題,確保新生兒的健康成長。
     
    透過本節課程的學習,同學們將能夠理解常態分配的基本性質,掌握標準常態分配的查表方法,並能夠計算和應用標準分數來解決實際問題。這些知識不僅是統計學的重要基礎,還在許多實際領域中有著廣泛的應用。
  • 8.
    經驗法則與謝比雪夫不等式
    經驗法則和謝比雪夫不等式都利用平均數與標準差的資訊來幫助我們了解數據的分配情形。這兩者之間的主要差異在於,經驗法則適用於數據分配近似常態的情況,而謝比雪夫不等式則不限定數據分配的形態。
     
    經驗法則提供的是一個機率的估計,具體表現為在常態分配中,約68%的數據落在平均數加減一個標準差範圍內,約95%的數據落在平均數加減兩個標準差範圍內,約99.73%的數據落在平均數加減三個標準差範圍內。
     
    謝比雪夫不等式則提供了一個機率的下界,即在任何數據分配中,至少有$1 - \frac{1}{k^2}$的數據落在距離平均數k個標準差之內。這使得謝比雪夫不等式在各種數據分配中都適用,但提供的機率界限較為保守。
  • 9.
    假設檢定
  • 10.
    課後輔導-常態分配查表練習
    這份課後輔導涵蓋了多種統計學和機率的基本概念及其應用,以下是內容的簡單說明:
     
    1. 超幾何分配:這部分考察如何識別和計算從一批產品中抽取樣本並檢驗不良品數量的機率,並包含期望值和機率計算。
    2. 二項分配:這部分考察製程不良品的檢驗問題,學生需計算不良品數量的期望值和特定不良品數量出現的機率。
    3. 卜瓦松分配:這部分涉及機器故障次數的分配,要求學生根據給定的平均故障次數計算特定次數的故障機率。
    4. 標準常態分配:這部分涵蓋標準常態分配表的查表問題,要求學生計算標準常態分配中某些值的累積機率及其範圍內的機率。
     
  • 11.
    考題練習