課程介紹

各位同學大家好,這門課是工業管理系研究所一年級的課程.

一、緒論

大數據分析是近年來非常熱門的一個主題,我相信同學還沒有選這門課之前,在各種報章媒體,網路社群上面都有聽到相關的資訊.大數據分析最主要是伴隨著現在產業的發展, 產業對自動化的需求不管是在商業或是工業上面都是一樣的.自動化發展在資料收集上面產生非常大效應,不管在工業或是商業經營上,大量且快速的資料不斷自動地產生的,且型態種類非常的多樣.使得我們必須面對如何處理這些資料的問題. 好奇心的很重要的驅動力.

我們有那麼多的資訊,這些資訊到底能夠提供我們什麼樣的有意義的, 提供經營決策上的判斷,這個就是大數據分析要探究的內容.

 

二、資料的特性(4個V)

一般來說, Big data  包含四個V, 分別為Variety, Volume, Velocity, Veracity.

Variety 是多樣的意思,指的是資料屬性和結構非常多樣,幾乎沒有限制可言.有結構性的資料,非結構性的資料,和混合型的半結構性資料.大數據分析的資料通常是自動化採的,有包含聲音,影像的串流資料,有物聯網的感應數據, 社群資料等等,這些資料都非常的龐大,這就是Volume 的意思,而且資料產生的速度非常的快, 隨時在更新,不斷地在更新增加,這是Velocity的意思, 並不像傳統的統計調查數據,實驗數據等,數量相對小且很少變動, 非重新調查或重新進行實驗才會有新的數據. 相對的,自動採集技術會讓資料不斷地增加.最後一點,Veracity 指的是我們對大數據裡頭的資料應該保持疑慮,因為他可能混雜了很多不太能夠相信的資訊,這些會干擾到我們對數據的分析跟理解,在處理大數據分析的工程裡,很大的部分是在做資料的清理,資料的濾除.

面對大數據分析的四個特徵,分析的意義在於能夠創造或從資料中發現價值 Value.

 

三、跨領域的需要

大數據分析的技術需求包含了三個部分

第一個部分是指對數學和統計的需求, 大數據分析的標的是資料,所以,對於數學的算術和運算的需求和建立統計學對對資料處理的基本觀念是非常必須的.

第二個部分指的是處理非常龐大的數據和資料需要借助電腦.我們需要依據數學計算邏輯和統計觀念,去建立演算法,利用電腦程式語言技術來幫我們實現我們對資料分析的想法.在課堂上,我們會安排同學演練數據分析的操作過程,只是為了協助同學理解這些過程與建立觀念.不過,在實際處理龐大數據上面,我們不可能用使用人工的方式去做,顯然這也是無法達成的我們的目的.

大數據分析的第三個技術要求是專業知識. 龐大的數據本身不會透露它隱含的價值, 一份的資料放在那邊,我們往往不知道該如何下手去處理這些資料,對資料背景的有專業適當地了解, 對於資料分析的工作來說是至關重要.

這個三部分構成了大數據分析.

 

四、價值發現才是王道

 

前面我們說到大數據的資料特性包含了大量,多樣,資料更新速度快和富含雜訊的特點,處理上需要 數學和統計的能力, 撰寫程式語言的能力以及對資料的專業知識理解的能力, 其最終目的在於能夠發覺資料中的價值.而呈現的手法以視覺化的展現,最為妥切,直覺是表現出這些資訊的價值.

 

五、課程設計

這門課主要要學習的,就是要將混亂的資料,龐大的資料有系統的轉換成一種視覺化統計圖表,而這種視覺化的表現方式可以幫助我們來理解這資料裡面的資訊. 為了這個目的我們這個課程會複習大學統計學上過的一些基本統計量, 教授R軟體操作進行資料視覺化, 在並在這個過程中教授使用R軟體進行整理和濾除, 而我們將會遇到資料異常判斷,資料篩選的問題,還有遇到例行性和重複性的工作.因此,在這個課程上,我們教一些程式語言條件判斷和迴圈的寫法,增進同學的IT技能,以便同學能夠體會電腦程式語言在大數據分析扮演的角色完.

 

六、課程方向清楚

為了讓課程更為聚焦, 這個課程設計的兩個主題, 第一個主題是分類. 分類是日常生活中我常碰到的數據分析問題,包含 產品等級分類, 故障問題分類, 產品失效分類, 客群屬性分類等.

這門課將選用16種常見的國際球類比賽的用球, 讓同學學習如何評估各種球類之間的差異,以進行各種球的分群, 以便了解常用的分群程式是如何完成這項工作的.

第二個主題是排序, 也是大數據分析中相當重要的應用技術與概念, 若能將我們研究的對象都能排出一個順序,我們所感興趣的,想要了解的現象就自然可以表現得出來. 我們常聽到台灣百大公司,台灣最有錢的10個富人,我們的入學考試, 顧客對我們的貢獻, 這些問題都是有一個共同點就是排序. 課程將以全球宜居城市排名,讓同學來練習如何利用數據來排序.

 

 

 

 

 

 

 

 

教科書:
自編講義
教學進度:
      教學策略 評量方式
課程核心單元 教學內容 周次 課堂講授 小組教學 實驗習作 校外教學 其他 學習參與 作業 報告討論 測驗評量 其他
課程介紹 1. 介紹課程內容 2. 學期評分方式 3. 分類實作 1 v   v     v v      
R軟體 R軟體安裝、R 的四則運算與常用數學指令 2 v   v     v v      
使用R計算基本統計量1 3 v   v     v v      
使用R計算基本統計量2 4 v   v     v v      
盒形圖 5 v   v     v v      
階層式集群分析 距離的定義 6 v   v     v v      
連結的方法 7 v   v     v v      
程式講解 8 v   v     v v      
  期中報告 9     v     v   v    
資料視覺化 統計圖 10 v   v     v v      
多圖輸出 11 v   v     v v      
條件判斷與迴圈 12 v   v     v v      
異常值的判斷 數值型資料異常的判定 13 v   v     v v      
資料篩選 14 v   v     v v      
排序-主成分分析 資料視角問題與坐標軸旋轉 15 v   v     v v      
報告解讀 16 v   v     v v      
範例說明 17 v   v     v v      
  期末報告 18     v     v   v    
 
課程活動
  • A.
    統計量
    講解基本統計量
    1  集中趨勢: 描述大部分資料座落的位置, 呈現資料分配之中心位置或群體的共同趨勢。通常以此特徵表現此群體的特質, 並用以比較不同群體間的差異性。
    2. 分散趨勢: 描述一組資料內部的分散程度, 表現同一群體不同個體間的差異程度。
    3. 形狀參數: 一組資料的分配形狀的像一座山, 山有高聳, 平坦和走向之分。形狀參數用來描述資料的 ``山勢", 經驗上可以用兩種形狀參數來表現出它們間的的差異。
    a.  偏態: 所謂山峰乃中間高, 兩邊漸低, 分配曲線往兩邊下滑的幅度差異造成形狀上的差異。 若向右下滑較為緩慢, 我們稱為右偏。若向左下滑較為緩慢, 則稱為左偏。左右近似相同, 稱為對稱分配。
    b. 峰態: 山峰除了偏向外, 亦有陡峭之別。陡峭的分配稱為高狹峰, 平坦的山峰稱為平闊峰。
     
  • B.
    位置參數(百分位數與四分位數)
    百分位數 P_i 代表一組樣本的第 i 個百分位數, 在這組樣本中``至少有 (100-i)% 的數據大於或等於此數, 也至少有 i% 的數據小於或等於此數"
  • C.
    四分位距
    兩個數間的距離代表兩個數的差異程度, 而分散趨勢量數乃在衡量一組資料內部個體彼此間的差異程度。描述這組資料內容的差異程度, 一種作法是合計每一個數與集中趨勢量數 (中位數或平均值) 的距離。另一作法則是以位置參數間的距離代表全體資料的差異程度。採用第一種作法的統計量數有變異數, 標準差和平均絕對離差等。採用第二種作法的統計量數有全距\index{全距, range}, 四分位距, 四分位差等。
  • D.
    盒形圖
    盒形圖是最普遍的一種探索式資料分析工具, 利用 5 個統計量: 最小值,最大值和 Q1, Q2, Q3, 繪製一個有兩條長鬚的箱型圖。
    盒鬚圖提供了以下幾點資訊:
    a. 資料的集中趨勢;
    b. 資料的分散趨勢;
    c. 資料的形狀;
    d.  是否有極端值。
     
    ### 解說程式
    colx<-c("aquamarine3","red","coral2")
    boxplot(y$營收.Income.~y$氣象.Weather.,   horizontal =TRUE,col=colx,lwd=3,        border="blueviolet",main="B10731000",cex.main=2,col.main="red")
     
    #horizontal 水平
    #col 盒子的顏色
    #border 盒框顏色
    #main 標題
    #cex.main 標題大小
    #col.main 標題顏色
  • E.
    距離的定義
    兩物件的差異是否明顯是一種相對的概念, 而非絕對! 相對乃是指相對於全體物件而言。
  • F.
    測量的尺度
    1. 名目尺度: 此變量尺度旨在區分不同。這是人類知識發展最初,    最簡單的模式, 辨識類屬。例如, 性別有男和女之分。此種尺度是一種群體上的分類,    差異性的辨識。如宗教信仰分成基督, 天主, 佛教, 回教, 道教等等類屬; 膚色有棕,    黑, 白和紅等區別。將群體分成數個 `` 互斥" 子群體的衡量方式, 即稱為名目尺度。
    2.  順序尺度: 這是比名目尺度更精細的尺度, 除了分辨不同外,    更呈現 ``程度" 上的差異。常用的順序尺度有教育程度, 國小、國中, $\cdots$等程度上的差異。    又如問卷調查的滿意度也是一種順序尺度。順序尺度具有名目尺度的用途, 而名目尺度無法轉換成順序尺度。
    3. 區間尺度: 這裡引入``變化量" 的觀念, 除了保有順序尺度的資訊,    更把差異的程度數量化。數量相差的大小相同, 其意義或規模就相同。 區間尺度相對的差異性可以進行比較, 它的特點是變量的零點是人為訂定的參考點, 而非實際上具有 ''零, 無" 的意義。
    4. 比例尺度: 統計資料中最精細的尺度, 變量本身就有絕對資訊,    表示擁有的規模, 無須採用相對差異性進行比較。例如,    身高 200 公分的長人為身高 100 公分的矮人的兩倍, 兩個矮人堆疊一起和一個長人同高。   比例尺度與區間尺度都是量化資料, 它們間的差別為區間尺度為相對差異性,    只相對差異性有意義, 變量的零點是人為訂定的一個相對參考座標,    可以依需要或習慣而改變。例如, 溫度衡量的方式台灣與美國就不用的零點,    但不影響討論每日氣溫變化的情形。比例尺度描述絕對性的差異, 零點就是代表無,    空無一物。長度為零, 體重為零都是無的概念。但是溫度為零並非沒有溫度,    它只是一個人造的參考原點。另外, 以西元年紀錄生日, 是利用耶穌生日作參考點。
  • G.
    距離函數
    令X=(x_1,x_2,...,x_n) 和Y=(y_1,y_2,...,y_n) 為兩個維度相同 (n) 的數值向量,R定義X和Y兩點的空間距離有以下幾種方法: 
    Euclidean(歐式): 對應點取平方差總和後開根號之值。sqrt((x_1 - y_1)^2+(x_2 - y_2)^2+...+(x_n - y_n)^2).
    maximum(最大差): 對應點差的取最大值。max(x_1-y_1,x_2-y_2,...,x_n-y_n)
    manhattan(曼哈頓): 對應點差之絕對值的總和。|x_1 - y_1|+|x_2 - y_2|+...+|x_n - y_n|
    canberra(坎培拉): 取對應點差之絕對值與對應點絕對值和的比值,再總計所有比值
    |x_1 - y_1| / (|x_1| + |y_1|)+|x_2 - y_2| / (|x_2| + |y_2|)+...+|x_n - y_n| / (|x_n| + |y_n|)

    此距離定義適用於非負計次數據。

    binary(二元):(aka asymmetric binary): 適用二元數據,分子D=#( |x_i-y_i|!=0)為不相同的項目次數, 分母A= #(|x_i+y_i|>0) 存有的項目數。X和Y的距離為 D/A。例如: 某賣場有4個產品, Xc和Y為分別顧客X和Y是否有買這4產品的註記,假設X=(1,0,0,1),Y=(1,0,1,1)表示X買了第一和第四個產品,X買了第一、第三和第四個產品。D=1 第三個產品位置不相同,A=3 有三組種產品被買了。X和Y的距離為1/3。
    minkowski:The p norm, the pth root of the sum of the pth powers of the differences of the components.
  • H.
    距離矩陣
  • I.
    連結方法 Linkage methods
    1. single linkage
    2. complete linkage
    3. average linkage
    4. Ward's D linkage
  • J.
    階層式集群分析
    說明使用R程式階層式分析的流程,包含程式語法、實例講解與切割方法。
  • K.
    異常點判定
    本節講解在大數據分析中如何判定異常點並予以圖形化顯示
  • L.
    主成分分析
    • 主成分分析的核心: 如何展示資料個體的差異。
    • 多維資料處理技術: 利用數學坐標軸轉換, 選取“適當”角度 (最能區分資料差異的角度),能使個體區分得最清楚的一種方法。
    • 如何區分個體? 就是使彼此差異更為明顯。
    • 應用: 降低資料維度, 多維排序。
  • M.
    期末報告-全球宜居城市排名
     
    一、資料說明
    經濟學人智庫 (EIU) 提供的2012年全球宜居城市的資料庫,進行以主成分分析進行宜居城市排名。
    2012年初,EIU與數據共享公司 BuzzData 合作舉辦了一場競賽,他們提供了將全球生活成本和宜居性調查的數據與其他來源相結合的機會,讓參賽者提供他們自己的排名。
    變數:調查資料以五項指標作為城市排名的依據。
    • 穩定性 (25%)
    • 健康照顧 (20%)
    • 文化和環境 (25%)
    • 教育 (10%)
    二、期末報告
    本課程仿EIU的競賽,讓學生根據2012年EIU提供的2012年全球宜居城市的資料庫進行期末報告。
    期末報告分成三項
    • 第一: 學生主觀給定各項變數的權重加權,得出全球宜居城市排名。
    • 第二: 以主成分分析的第一主成分排名,說明這個方法的合適性。
    • 第三: 自己主觀排名與第一主成分排名的差異,以前10名宜居城市與後10名城市的差異,說明這些造成的原因。
  • N.
    排序活動
  • O.
    分球活動