Instalacja Apache Spark na Windowsie
Wbrew pozorom, instalacja platformy Spark na lokalnym komputerze, wyposażonym w środowisko Windows, może przysporzyć nieco problemów. Zajęło mi ładnych parę chwil, zanim poskładałem wszystko do kupy i z oczu mych zniknęły wszystkie stack trace’y w PowerShell’u.
Nie będę tu przedstawiał możliwości i przykładów zastosowań dla Spark’a, bo to temat na kolejne posty. W kilku punktach przestawię proces, który doprowadził do tego, że mogłem spokojnie zasnąć.
Prawdopodobnie w przyszłości wszystkie błędy zostaną wyeliminowane, a ten post wyląduje w otchłani internetu. W moim przypadku problem dotyczył Sparka w wersji 2.2.0 oraz Hadoop’a w wersji 2.7.3.
- Pobieramy paczkę z https://spark.apache.org/downloads.html
- Rozpakowujemy ściągnięty plik
- Dodajemy folder bin do PATH (http://bfy.tw/D0X5)
- W konsoli wpisujemy spark-shell, jeśli pojawiają się błędy przechodzimy do kolejnego punktu
- Pobieramy windowsutils.exe ze strony https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
- Kopiujemy go do folderu bin
- Dodajemy cały folder Spark jako zmienna środowiskowa HADOOP_HOME
- Nadajemy wszelkie możliwe prawa do folderu C:\tmp\hive. Z poziomu konsoli wpisujemy: winutils.exe chmod 777 C:\tmp\hive
- Ponawiamy próbę z spark-shell i cieszymy się udana instalacją :)
To na tyle, w kolejnych postach spróbuję przejść do mięska i pokazać trochę kodziku ze Spark’iem w roli głównej.
