Instalacja Apache Spark na Windowsie

Bartek Drzazgowski
Jul 24, 2017 · 1 min read

Wbrew pozorom, instalacja platformy Spark na lokalnym komputerze, wyposażonym w środowisko Windows, może przysporzyć nieco problemów. Zajęło mi ładnych parę chwil, zanim poskładałem wszystko do kupy i z oczu mych zniknęły wszystkie stack trace’y w PowerShell’u.

Nie będę tu przedstawiał możliwości i przykładów zastosowań dla Spark’a, bo to temat na kolejne posty. W kilku punktach przestawię proces, który doprowadził do tego, że mogłem spokojnie zasnąć.

Prawdopodobnie w przyszłości wszystkie błędy zostaną wyeliminowane, a ten post wyląduje w otchłani internetu. W moim przypadku problem dotyczył Sparka w wersji 2.2.0 oraz Hadoop’a w wersji 2.7.3.

  1. Pobieramy paczkę z https://spark.apache.org/downloads.html
  2. Rozpakowujemy ściągnięty plik
  3. Dodajemy folder bin do PATH (http://bfy.tw/D0X5)
  4. W konsoli wpisujemy spark-shell, jeśli pojawiają się błędy przechodzimy do kolejnego punktu
  5. Pobieramy windowsutils.exe ze strony https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
  6. Kopiujemy go do folderu bin
  7. Dodajemy cały folder Spark jako zmienna środowiskowa HADOOP_HOME
  8. Nadajemy wszelkie możliwe prawa do folderu C:\tmp\hive. Z poziomu konsoli wpisujemy: winutils.exe chmod 777 C:\tmp\hive
  9. Ponawiamy próbę z spark-shell i cieszymy się udana instalacją :)

To na tyle, w kolejnych postach spróbuję przejść do mięska i pokazać trochę kodziku ze Spark’iem w roli głównej.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade