Cookies — technické souvislosti

Lukáš Čech
Etnetera Activate
Published in
7 min readJul 14, 2020

GDPR je v platnosti již dva roky a návazná legislativa se posouvá kupředu spíše po malých krůčcích. Téma ochrany soukromí spotřebitelů v mezičase zaplnili výrobci internetových prohlížečů, mezi kterými nyní vrcholí boj, kdo lépe chrání své uživatele před praktikami, které jsou stále častěji považovány za problematické či obtěžující. O svá práva se začínají hlásit i samotní uživatelé, ale často tak činí jen s velmi základními znalostmi technických principů, na kterých dnešní digitální marketing stojí. Zejména ohledně fungování cookies a jejich souvislost s JavaScriptovými knihovnami, které odesílají data o chování uživatelů v prohlížeči nástrojům třetích stran, existuje stále řada nepochopených konceptů. V následujícím textu se je pokusím vysvětlit i na několika praktických příkladech.

HTTP cookie — definice na Wikipedii

Z definice na Wikipedii: “…v protokolu HTTP označuje malé množství dat, která WWW server pošle prohlížeči, který je uloží na počítači uživatele. Při každé další návštěvě téhož serveru pak prohlížeč tato data posílá zpět serveru.”

Tedy HTTP cookies je pouze technologie umožňující uložení malého množství dat, aniž bychom hovořili o tom, o jaká data se jedná. Sama o sobě tato technologie z hlediska GDPR problematická není.

Do cookie lze uložit libovolný obsah. Je limitován pouze velikostí (obvykle maximálně 20 cookies na doménu, o maximální velikosti 4 KB na jednu cookie).

Zároveň mají cookies časově omezenou platnost určenou serverem, ale může na ní mít vliv i samotný prohlížeč (např. prostřednictvím Intelligent Tracking Prevention v prohlížeči Safari) nebo uživatel (např. smazáním cookie ručně).

Mimo cookies existují i další technologie umožňující v zásadě totéž (local či session storage, fingerprinting, využití cache prohlížeče, atp.).

HTTP cookie třetí strany

V předešlé definici se hovoří o “návštěvě WWW serveru”. Z technického hlediska se za návštěvu serveru považuje odeslaný HTTP požadavek na daný server z daného prohlížeče uživatele. Toho lze dosáhnout i tak, že je v rámci stránky na serveru provozovatele (“First-party”) umístěna reference na zdroj (např. obrázek či JavaScript soubor) z cizí domény (“Third-party”). Server třetí strany může při odpovědi do prohlížeče na počítači uživatele uložit svoji cookie a při následném požadavku stejného prohlížeče na tuto cizí doménu dostane obsah cookie zpět. Taková cookie se v kontextu načtené stránky původního provozovatele nazývá cookie třetí strany (“Third-party cookie”). Tyto cookies jsou využívány zejména reklamními systémy (Google, Facebook, Adform, Sklik a mnoho dalších) a za problematické se považuje především to, že lze díky nim kombinovat podstatně širší množství dat z mnoha různých webů provozovatelů, kteří se rozhodli daný reklamní systém využít.

Ukázka HTTP komunikace z webu activate.cz se založením cookie třetí strany

Obvyklá využití HTTP cookies

Častým využitím je dlouhodobé uchování některých uživatelských nastavení pro daný prohlížeč (např. volba jazykové mutace webové stránky nebo volba barevného tématu stránky) — ukládá se přímo zvolená hodnota do cookie s vhodně zvoleným názvem.

Dále jsou využívány k uchování některých dat (např. o tom, že je konkrétní uživatel přihlášený) mezi načteními jednotlivých webových stránek (vytváření tzv. sessions) — ukládá se náhodně generovaný řetězec přiřazující danému prohlížeči anonymní identifikátor.

Podobně jako v předešlém případě se pak používá tato technologie k identifikaci opakovaných interakcí daného uživatele pro potřeby webové analytiky (statistiky chování “uživatelů”) nebo remarketingu. Při prvním požadavku je náhodně vygenerováno anonymní ID, které je uloženo do cookie pro danou doménu. V případě webové analytiky jde obvykle o First-party cookie, jelikož nejčastěji slouží k analýze chování návštěvníka v rámci jedné domény. V případě remarketingu jde ale vždy o Third-party cookie, protože k remarketingu dochází následně na doménách třetích stran — na serverech zobrazujících reklamu. Uživateli se zobrazena na serveru třetí strany reklama na daný produkt právě proto, že předtím navštívil web daného provozovatele. Pokud předtím nenavštívil žádný z webů, které se snaží reklamu personalizovat, je mu obvykle i tak zobrazena reklama, jen je zvolena podle jiných pravidel (není personalizovaná).

Využití cookies v souvislosti s GDPR se stává problematickým až v momentě, kdy dojde ke společnému výskytu náhodně vygenerovaného anonymního ID a jednoznačně identifikovatelných osobních údajů (jméno a příjmení, rodné číslo, adresa, telefonní číslo, e-mail, identifikátor zákazníka atp.). Debata se vede také o tom, zda lze k identifikaci konkrétní osoby dospět i kombinací zdánlivě anonymních dat, pokud jich je dostatek (např. žena v Jihomoravském kraji ve věku mezi 40 a 45 let vlastnící červené Porsche Carrera s velikostí bot 36 a modrou barvou očí — každý údaj samostatně je dostatečně nespecifický, ale jejich kombinací je získán velmi přesný profil, do kterého může opravdu zapadnout pouze jedna konkrétní osoba).

Možnost blokování či mazání cookies

Pro uživatele je výhodné, že cookies jsou ukládány na jejich zařízení. Mají proto nad nimi sami plnou kontrolu. Jediné, co jim brání v její aplikaci je jejich vlastní neznalost a na to GDPR myslí tím, že zavedlo informační povinnost. Problematický je aktuální poměrně různorodý přístup výrobců jednotlivých prohlížečů k možnostem ohledně kontroly cookies. Cookies třetích stran jsou některými výrobci zcela blokovány, jiní omezují délku jejich platnosti nebo umožňují jejich zákaz či mazání uživatelskými nastaveními.

Jsou-li cookies mazány nebo zcela blokovány, není možné jejich efektivní využití k dlouhodobému budování podrobného profilu daného zařízení, cílení reklamy či jiným dříve uvedeným účelům. Pokud uživateli tyto způsoby využití cookies vadí, může sám použít prohlížeč nebo nastavení takové, které nevyhovujícímu využití zabrání.

Blokování cookies ale nezabrání odesílání dat na domény třetích stran. Informace o prohlížeči či navštívených stránkách webu provozovatele třetím stranám stále odcházejí. Při přechodu na doménu jinou, kde dochází k zobrazení reklamy, není ale možné tato data využít k cílení. Prohlížeč na cizí doméně nemá již k dispozici identifikátor z cookie, díky kterému reklamní systém daný profil zařízení rozpozná. Ve výsledku je pak takovému uživateli zobrazena reklama, která není personalizovaná.

Další souvislosti

Opt-in, opt-out a právo být zapomenut

Jsme-li v situaci, že jsou v nástrojích třetích stran opravdu zpracovávány osobní údaje (typicky například v nástrojích přímé komunikace, které rozesílají e-mailové kampaně apod.), pak už obvykle neřešíme samotné cookies.

GDPR a související legislativa v takových případech zavedly pro uživatele možnosti volby, zda chce, aby byly jeho osobní údaje využívány za určitým účelem či nikoliv. V některých specificky vymezených případech je sběr osobních údajů k určitému účelu ospravedlnitelný využitím institutu oprávněného zájmu. V takovém případě má provozovatel možnost sběr dat implicitně aktivovat a musí umožnit uživateli sběru osobních údajů zabránit (opt-out) případně umožnit navíc požádat o smazání již nashromážděných údajů (právo být zapomenut). Pokud ale z nějakého důvodu nelze institut oprávněného zájmu využít, přichází na řadu povinnost získat ke sběru osobních údajů ještě před zahájením takového sběru vědomý souhlas uživatele (opt-in). Nicméně o tom, kdy jde o sběr osobních údajů a kdy je využitelný institut oprávněného zájmu se stále vedou debaty.

Nástroje webové analytiky sbírají obvykle pouze anonymní statistická data o návštěvnosti, a proto mohou být z těchto povinností zcela vyňaty, ačkoliv i u tohoto typu dat existují názory opačné. Velmi často jsou navíc shromažďovány i údaje jednoznačně osobního charakteru (např. identifikátory konkrétních zákazníků) a v takových případech je nutné postupovat odlišně.

U nástrojů cílené reklamy (remarketingu) je zase častěji uplatňován princip opt-in, ačkoliv i zde se lze odvolávat na oprávněný zájem personalizovanou reklamou zvyšovat zisk obchodní společnosti.

Zvýšení bezpečnosti cookies skrze příznaky httpOnly a secure

Jedním z problémů cookies je také to, že po načtení stránky jsou hodnoty v nich uložené dostupné všem JavaScript souborům spuštěným na dané stránce. V takovém případě technicky nic nebrání využití cookie s anonymním identifikátorem návštěvníka, která byla vytvořena za účelem využití v jednom nástroji (např. Google Analytics), i nástrojem jiným (např. Exponea). Za takové využití zodpovídá provozovatel, který by měl mít nad všemi JavaScript soubory nasazenými na svém webu plnou zodpovědnost. Problémem je tu opět pouze neznalost a nadměrné využívání JavaScript souborů třetích stran. Tomuto problému lze předejít striktním využíváním httpOnly cookies, které jsou čitelné pouze serverem (doménou), která je vytvořila.

Druhým bezpečnostním problémem cookies je pak možnost jejich posílání nezabezpečeným HTTP protokolem. V takovém případě jsou hodnoty z těchto cookies čitelné i na infrastruktuře, přes kterou HTTP požadavek putuje z prohlížeče uživatele na server poskytovatele a zpět. Nicméně dnes je již v drtivé většině případů (a banky jsou v tomto ohledu kladným vzorem) veškerý obsah servírován přes bezpečný HTTPS protokol (kde je komunikace mezi prohlížečem uživatele a serverem poskytovatele šifrována a je tedy pro infrastrukturní prostředníky nečitelná). I v takovém případě je vhodné možnost číst obsah cookies jen v případě, že je samotná stránka servírována skrze HTTPS ještě pojistit tím, že i samotná cookie je založena jako “secure-only”. Pokud pak dojde k načtení nějakého obsahu z dané domény po nezabezpečeném HTTP protokolu, není možnost obsah dané cookie přečíst (není zaslána s požadavkem na server).

IP adresa

Debata se vedla též o tom, zda je IP adresa osobním údajem. Pravda je, že za určitých okolností jím být může, a proto je obvykle na místě zobecnění (nemůžeme-li zabránit tomu, abychom v nějakém konkrétním případě mohli IP adresu využít jako osobní údaj, musíme ji za osobní údaj považovat vždy).

Problém je, že IP adresa uživatele je prohlížeči zasílána na server vždy a nelze tomu nijak zabránit (s výjimkou případů, kdy sám uživatel aktivně svoji pravou IP adresu skrývá např. skrze proxy server nebo Tor browser).

Tím pádem by se v každém požadavku prohlížeče na daný server vyskytoval náhodně generovaný anonymní identifikátor z cookie (např. pro webovou analytiku) a zároveň osobní údaj (IP adresa).

Otázkou pak zůstává už jen to, zda je takový výskyt automaticky považován za zpracování osobních údajů — zda je nějakým způsobem využíván.

Poskytovatelé analytických a remarketing řešení se tomuto problému snaží bránit tím, že IP adresy ze svých dat odmazávají nebo jejich hodnotu nějak znehodnocují (anonymizace IP) a to při prvním možném momentě, kdy dochází ke zpracování dat z takových HTTP požadavků.

Závěrem

Pokud vám můj text pomohl objasnit nějaká dosud nepoznaná zákoutí digitálního marketingu, budu rád, pokud jej budete sdílet dál. Pokud jsem se dopustil nějaké nepřesnosti či nejasnosti, rád se to dozvím v komentářích a případné vyjasnění bych se pokusil do textu zapracovat, aby mohl sloužit jako příručka v situaci, kdy třeba nějaký váš zvídavý zákazník pošle dotaz na toto téma.

--

--