使用 Google Colaboratory 跑 PySpark

Chia Yin Chen
3 min readSep 24, 2018

--

想學 Spark 但一直沒辦法把環境安裝起來..

如果你有這困擾,這篇文章將會介紹使用 Google Colaboratory 雲端環境,讓大家可以很快速的直接透過瀏覽器來操作 Python 與 Spark。

安裝和運行 PySpark 的 3 個簡單步驟

Step 1:首先開啟 Colaboratory 建立一個新的 Python 3 notebook,若還沒建立 Colaboratory 應用程式連結的朋友可以參考這篇文章

Step 2:安裝跑 PySpark 的環境

!apt-get -y install openjdk-8-jre-headless
!pip install pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext
spark = SparkSession.builder.master("local").getOrCreate()
sc = SparkContext.getOrCreate()

Step 3:使用 Word Count 的範例程式,驗證 PySpark 環境是否可以正常運作

rdd = sc.parallelize(["Hello Spark"])
counts = rdd.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b) \
.collect()
print(counts)

對 Spark 初學者而言,把心思放在學習 Spark 的使用和操作才是重要的,使用 Google Colaboratory 能幫助你減輕建立 Spark 運行環境的煩惱,是一個非常簡單來熟悉 Spark 的選擇。

--

--