Apache Flink Hands-On: Stream Processing Deep Dive

戴資力 (Gordon Tai)

Apache Flink Committer Member, Software Engineer

Tzu-Li (Gordon) Tai is a Committer member at the Apache
Flink project. He works at VMFive as a software engineer,
building scalable backends and data platforms to handle
streaming data for mobile advertisement. He is mostly
interested in the development and design of distributed
computing software systems.

Apache Flink 是一個近期興起的分散式數據運算系統(去年年初剛成為 Apache Top-Level 專案),專案主要由 Java 轉寫,支援 Java、Scala、Python 等 API 來撰寫數據處理與分析應用。
Flink 除了能同時支援 batch processing(批次運算)與 stream processing(串流運算)且擁有豐富的 machine learning、graph processing、SQL 等套件以外,最大的獨特性在於有別於以往的分散式運算系統,它所有的運算無論是批次還是串流皆以 streaming dataflow 進行,能夠達成更有效率的分散式數據運算。

這次的 workshop 將會專注在 Flink 的 DataStream API ,從基礎的練習題開始教學、進而深入 stream processing 的進階應用撰寫技巧以及 streaming pipeline 的架構教學。

講課內容將會由淺入深,適合對大數據資料分析、串流運算有興趣、並且用有基礎的程式撰寫經驗的人參加!

以下為預定課程:
全程使用開放資料 New York taxi events stream dataset 進行以下課程 -

1) Flink DataStream API 基本練習 - on-the-fly data cleaning, transformation, and windowing
2) Flink + Kafka data pipeline for streaming 架構教學
3) 進階 Flink DataStream API 概念教學與練習 - Event-time processing & watermarks, exactly-once stateful streaming, checkpointing & savepoints, queryable state

課程事前準備事項:
參加者請至 https://github.com/flink-taiwan/jcconf2016-workshop 按照指示於活動當日前事先下載教學資源。

1. 本場次為中文