Apache Spark Kurulumu (Windows)

Ebru Sinem Hasırcıoğlu
3 min readOct 27, 2018

--

Apache Spark, büyük verileri dağıtık işlemler ile analiz edebilmek için Scala ile geliştirilmiş açık kaynaklı bir kütüphanedir.

1. Java için gerekli kurulumları yapıyoruz.

Java’nın resmi web sitesinden JDK 8'i indiriyoruz.

Windows’un ortam değişkenlerine gelip (Denetim Masası ->Sistem ve Güvenlik -> Sistem -> Gelişmiş Sistem Ayarları -> Ortam Değişkenleri) yeni değişken oluşturuyoruz. Değişken adını: “JAVA_HOME” değerini: “C:\Program Files\Java\jdk1.8.0_162” olarak tanımlıyoruz. (JDK’yı nereye indirdiyseniz yolunu girmelisiniz.)

Yine ortam değişkenlerinde Path’i seçip düzenle diyoruz ve Path’e %JAVA_HOME%\bin ekliyoruz.

2. Spark için gerekli kurulumları yapıyoruz.

Spark’ın resmi web sitesinden pre-built versiyonunu indiriyoruz.

İndirdiğimiz spark-2.3.2-bin-hadoop2.7.tgz sıkıştırılmış dosyasını dışarı çıkarıp spark-2.3.2-bin-hadoop2.7 klasöründeki tüm içerikleri kopyalayıp oluşturacağımız C:\spark dizinine yapıştırıyoruz.

Daha sonra conf klasörü içerisindeki log4j.properties.template dosyasının .template uzantısını siliyoruz ve herhangi bir text editör ile açıp log4j.rootCategory=INFO olan satırı log4j.rootCategory=ERROR olarak değiştirip kaydediyoruz.

Windows’un ortam değişkenlerine gelip (Denetim Masası ->Sistem ve Güvenlik -> Sistem -> Gelişmiş Sistem Ayarları -> Ortam Değişkenleri) yeni değişken oluşturuyoruz. Değişken adını: “SPARK_HOME” değerini: “C:\spark” olarak tanımlıyoruz.

Yine ortam değişkenlerinde Path’i seçip düzenle diyoruz ve Path’e %SPARK_HOME%\bin ekliyoruz.

3. Hadoop için gerekli kurumları yapıyoruz.

https://github.com/sinemhasircioglu/pyspark-examples/blob/master/winutils.exe adresinden winutils.exe’yi indirebilirsiniz. İndirdiğimiz dosyayı oluşturacağımız C:\hadoop\bin dizinine kopyalıyoruz.

Windows’un ortam değişkenlerine gelip (Denetim Masası ->Sistem ve Güvenlik -> Sistem -> Gelişmiş Sistem Ayarları -> Ortam Değişkenleri) yeni değişken oluşturuyoruz. Değişken adını: “HADOOP_HOME” değerini: “C:\hadoop” olarak tanımlıyoruz.

Yine ortam değişkenlerinde Path’i seçip düzenle diyoruz ve Path’e %HADOOP_HOME%\bin ekliyoruz.

"ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
” hatası çözümü:

C diskine gidip C:\tmp\hive dizinini oluşturuyoruz.

Komut satırını yönetici olarak çalıştır seçeneği ile açıyoruz. winutils.exe’nin bulunduğu dizinde aşağıdaki komutu yazıyoruz:

winutils.exe chmod -R 777 C:\tmp\hive

İzinleri kontrol etmek için de aşağıdaki komutu kullanabilirsiniz.

winutils.exe ls -F C:\tmp\hive

Son olarak:

Komut satırına spark-shell komutunu yazıp çalıştırıyoruz.

Yukarıdaki gibi bir ekranla karşılaştıysanız kurulum işlemini başarıyla tamamladınız demektir. Okuduğunuz için teşekkür ederim. Bir sonraki yazıda görüşmek dileğiyle. 👋

--

--