Jak na Rko

Antonin Kučera
4 min readFeb 8, 2017

--

K napsání toho blogpostu mě částečně nakopla nedávná diskuze na Twitteru Lukáše Pítry respektive Pavla Ungra. Konkrétně tedy tento text

Na první pohle to může vypadat jako fajn nápad, ale má to několik důležitých “ALE”. Především je potřeba si uvědomit, že R není něco, co se naučíte za 1 den školení. Pavel ve svém tweetu doporučuje spíše podklady než školení(řekl bych že s tím nemá dobrou zkušenost :-)).

Rko je jazyk a prostředí, které se používá pro statistiku, data mining, manipulaci s daty či vizualizaci dat. Samozřejmě Rko toho umí ještě mnohem více( “What is R”).

Obecně aby vůbec takové školení mělo význam, tak uživatelé musí znát základní syntaxi jazyka. V podstatě je to stejné jako kdybych chtěl školení na Python, JavaScript nebo jiný jazyk pro e-commerce, ale neznal jsem základní principy toho jazyka. Dokážete si to přestavit? Já docela jo :-). Domu si odnesu pár souborů skriptů a možná nějakou prezentaci. Za pár dní na to budu koukat s určitou nejistotou a za pár týdnů už nebudu moc tušit. Možná mi některé skripty budou k něčemu otrocky sloužit, ale pravděpodobně mi to dlouhodobě nebude k ničemu.

Co je e-commerce?

A jak zmínil Pavel Jašek, tak jak bychom vlastně definovali R pro E-commerce? To je další zásadní otázka. Pro mnoho lidí to bude pouze vytažení nějakých dat z GA a jejich základní zpracování. Někdo bude chtít k GA datům napojit vlastní data z MySQL databáze nebo data třetích stran přes RESTful API. Pro dalšího je důležitá vizualizace a bude klást důraz na knihovny jako ggplot či plotly. Nebo například knihovna Shiny, kterou můžete udělat celý dashboarding. Můžete si tak třeba automaticky cronem tahat data do vlastní DB, různě je spojovat a pak z nich dělat custom dashboardy a reporty. Není toho málo co?

Jak tedy na Rko

Dobře, abych nebyl jenom pesimista, tak existuje i optimistická varianta jak si osvojit R a použít ho v E-commerce. Ta cesta se jmenuje “vzdělávání a praxe”. V dnešní době je Rko hodně populární a zdrojů je opravdu velké množství. Můžete se podívat na různé grafy jak se Data Science jazyky vyvíjí

Za mě bych obecně doporučil začít s úplnými základy jazyka. Tedy vprvní řadě pochopit základní věci jako syntaxe, knihovny, jak a kde si Rko můžu instalovat, jaké IDE využít o obecně jak R vůbec funguje. Kdo má nějaký technologický background, tak to pochopí v krátké době, není to nic extra složitého (tedy alespoň ten základ).

Až pochopíte základy, tak si sami uvědomíte v čem vám Rko pomůže a k čemu vám naopak nebude. Podle toho se pak vydejte dále. Budete hodně manipulovat s daty, pak se naučtě DPLYR či PLYR, bude chtít vizualizovat, pak se naučte Ggplot/Ggplot2, plotly. Chcete data pouze stahovat z GA a pak si je sami v Excelu zpracujete? Pak se naučte pracovat s jednou z mnoha GA knihoven jako RGA, RGoogleAnalytics či googleAnalyticsR apod. Jakou cestu si pak vyberete je právě jen na vás. Pokud budete mít dobré základy, tak si cestu můžete formovat a nemusíte se omezit jen na pár poznatků ze školení.

Kam pro R sáhnout

Kde vlastně začít a kam sáhnout pro dobré a hodnotné informace? Můžete zkusit blogpost Pavla Jaška, který uvádí pár dobrých zdrojů pro R. Dokumentaci k Rku a packagům(knihovny) hledejte tady(koukám že mají nový design) https://www.rdocumentation.org/

Určitě doporučuji si zkusit nějaký online kurz, který vám z velké části nahradí školení a ještě si hodně odnesete. V tomhle směru doporučím Coursera a Udacity. Na Courseře jsem před 2 lety prošel kurzem Data Science od Johns Hopkins University. Je to takový velký průvodce tím co vás může v Rku ohledně Data Science potkat. Když vás nebude nějaká část bavit, tak ji prostě přeskočíte. Super cvičení na R najdete taky na Data Campu.

Tady je třeba parádní seznam knih, které jsou dostupné online a FREE https://bookdown.org/, v CZ jsou dobrý tyhle skripta https://www.math.muni.cz/~kolacek/vyuka/vypsyst/navod_R.pdf.

Určitě jedna z nejlepších knih od Rogera Penga z Johns Hopkins University.

Zajímavý web ohledně Data Miningu v R

Doporučuji číst blog https://www.r-bloggers.com/, kde je hromada super příspěvků a zajímavých řešení. Obecně Rko má dost silnou komunitu, takže se nebojte říci si o radu třeba na StackOverFlow. Na Twitter můžete sledovat třeba tyhle lidi:

https://twitter.com/minethatdata

Ale o Rku určitě Tweetuje stovky dalších…

Další zajímavý odkaz je R for Cats a koho Rko bude hodně bavit, tak si zkusí interkativní RSwirl.

Až se v Rku rozkoukáte, tak se vám budou určitě hodit CheatSheets pro některé nejpoužívanější knihovny.

RFM analýza

Jako bonus, kdyby někoho zajímala třeba rovnou RFM analýza, tak přikládám pár odkazů jak to dělat v Rku.

Pokud někoho napadnou další zajímavé zdroje, tak mi je určitě pošlete nebo napiště do komentářů. A rozhodně se Rka nebojte :-).

--

--