「巨量資料分析技術與應用」課程模組

教材模組教學目標

  • 讓學生熟悉巨量資料分析技術與相關應用。

子模組一:Big data analytics tools

教學目標
  • 介紹巨量資料分析工具,使學生可以了解到目前代表性之巨量資料分析技術。
  • 透過作業,讓同學可以初步理解到相關技術如何運作。
  • 透過作業,讓同學感受到巨量資料在分析上所存在之困難與挑戰。
課程大綱
  • Overview of Big data analytics tools
  • Big data analytics tools I: scikit-learn
  • Big data analytics tools II: R
  • Big data analytics tools III: Weka

實驗一:Data analytics on single machine
實驗內容說明:
You can choose any data analytic tools or library (R , weka, scikit-learn recommended) to answer following questions:

  • Q1: What are the most pickups and drop offs region?
    hint: use one of cluster algorithms and count number of data points of each cluster
  • Q2: What is the best time to take taxi?
    hint: count number of pickups in different hour
  • Q3: Whether weather affects customers to take taxi or not?
  • Q4: Does long distance trip imply more tip?
可分享教材模組內容說明
授課教材投影片200頁, 實驗手冊共2組

  • Big data analytics tools
    • 實驗一:Data analytics on single machine
所需實作平台配備與經費需求預估 (以模組教學實作所需基本軟、硬體平台估算)
實作平台配備說明:(每組供_10位同學使用)

  • Single Server (參考規格):
    • Intel Xeon 處理器 E5-2630 v4 (8C HT, 20MB 快取記憶體, 2.4GHz Turbo)
    • 128GB (8x16GB) 2400MHz DDR4 RDIMM ECC
    • 3TB 3.5吋系列 ATA (7,200 Rpm) 硬碟 RAID 1
    • UBUNTU LINUX 14.04.3

設備經費需求:約NT$172,000/一組

子模組二:Large-scale Big data platform

教學目標
  • 介紹目前分析巨量資料時,常見的運算平台與技術。
  • 透過作業,讓學生可以實際操作相關運算平台,獲取實際經驗。
課程大綱
  • Overview of Big data platform
  • Big data platform I: Hadoop
  • Big data platform II: Spark

實驗一:Big Data analytics on Big Data platform

實驗內容說明

Practice Spark programming on Hadoop platform. Choose Java, Scala, or Python to implement your program.
Implement a “word count” program. You can find the example on Spark webpage: http://spark.apache.org/examples.html
Modify the “word count” program to count numbers for each “Payment_type” in the Taxi dataset and show a chart for counting result.
Compare the execution time and memory usage on local worker and yarn cluster and give some discussion in your observation. You can find some information about those three modes on http://spark.apache.org/docs/latest/submitting-applications.html

可分享教材模組內容說明
授課教材投影片200頁, 實驗手冊共2組

  • 實驗一:Big Data analytics on Big Data platform
所需實作平台配備與經費需求預估 (以模組教學實作所需基本軟、硬體平台估算)(與模組一相同)
實作平台配備說明:(每組供_10位同學使用)

  • Single Server (參考規格):
    • Intel Xeon 處理器 E5-2630 v4 (8C HT, 20MB 快取記憶體, 2.4GHz Turbo)
    • 128GB (8x16GB) 2400MHz DDR4 RDIMM ECC
    • 3TB 3.5吋系列 ATA (7,200 Rpm) 硬碟 RAID 1
    • UBUNTU LINUX 14.04.3

設備經費需求:約NT$172,000/一組

聯盟/示範教學實驗室可提供之訓練與技術支援 (含實驗示範影片)

  • 直接接洽聯絡窗口

聯絡窗口

負責教師:曾新穆

專責助理:童莉萍

聯絡方式:mail(2) /(03) 571-2121 ext55732

1471358818_pdf【示範教材】Big data analytics tools巨量資料分析示範教材版