Dane szeroko otwarte — informacja gospodarcza: pełne zanurzenie

Konkretnie o codziennych problemach w pracy z otwartymi danymi — trochę ciekawostek z wystąpienia na Civic HUB w Gdańsku 20.02.2018

Transparent Data
Blog Transparent Data
5 min readFeb 27, 2018

--

Źródło: Civic Hub www.civichub.pl

W minionym tygodniu CEO Transparent Data, Arek Hajduk, miał niemałą przyjemność wystąpić w Gdańsku jako prelegent jednego ze spotkań grupy Civic HUB, zrzeszającej lokalne grupy zainteresowane pozytywnymi zmianami społecznymi przy użyciu innowacji (open data, smart cities, hacktywizm itp.).

Jako, że z rzadka firmy technologiczne, takie jak nasza, transparentnie opowiadają o codziennych wyzwaniach w pracy z danymi z jawnych, publicznych rejestrów, wrzucamy dziś kilka kilka ciekawostek z meetingu oraz pełną prezentację.

Pełne zanurzenie: Dyrektywa PSI (Directive 2013/37/EU), czyli o trudnościach w ponownym wykorzystaniu informacji publicznej

Każdą osobę i firmę z terenu Unii Europejskiej, która agreguje, przetwarza i udostępnia dalej otwarte dane, obowiązuje Dyrektywa PSI (szczegółowa treść dyrektywy TUTAJ).

Innymi słowy, rzecz krąży wokół 2 podstawowych pojęć:

  1. ponowne wykorzystywanie (ang. re-use — ponowne użycie) — wykorzystywanie przez “użytkowników” (czyli przez osoby fizyczne, osoby prawne i jednostki organizacyjne nieposiadające osobowości prawnej) informacji sektora publicznego, zarówno w celach komercyjnych jak i niekomercyjnych innych niż jej pierwotny publiczny cel, przez wzgląd na który informacja ta została wytworzona. Użytkownikami tymi mogą być zatem uczniowie przetwarzający dane, żeby odrobić zadanie domowe, firma, która pobiera dane publiczne i integruje je ze swoim algorytmem ryzyka, jak i profesjonalni dostawcy danych, czyli firmy takie jak nasza,
  2. REPSI (z ang. re-use of public sector information)— informacja sektora publicznego, a w szczególności jawne dane publiczne, otwarte bezpłatnie na potrzeby ponownego wykorzystywania.

Żeby ponowne wykorzystanie danych było możliwe i żeby w ogóle móc mówić o otwartych danych w globalnym standardzie, open data powinny spełniać szereg wymogów. M.in. powinny być scyfryzowane i poprawnie przygotowane do dalszego przetwarzania (czyt. nie pdf czy jpg!), obsługiwać manipulację danych (filtrowanie czy sortowanie), wymagać niskich nakładów czasowych, by móc rozpocząć korzystanie z nich, powinny cechować się odpowiednią jakością oraz przede wszystkim dostęp do nich powinien być ciągły i bezpieczny.

High Level Round Table w Brukseli, styczeń 2018

Co ciekawe, jak wynikło w trakcie High Level Round Table w Brukseli w styczniu tego roku, gdzie zostaliśmy zaproszeni do stołu Komisji Europejskiej jako jeden z ekspertów w międzynarodowej dyskusji na temat Dyrektywy PSI, instytucje i firmy ze wszystkich europejskich krajów wskazują bardzo podobne bariery w przetwarzaniu otwartych danych, przy czym to bariery nietechnologiczne okazują się trudniejsze do pokonania.

Do głównych barier technologicznych w przetwarzaniu open data zaliczono:

  • słabą jakość danych w oryginalnych rejestrach i bazach rządowych,
  • problemy z ciągłością dostępu do danych (przerwy techniczne stron rządowych, blokady i captche itp.),
  • brak jednolitego standardu udostępniania danych (w niektórych bazach dane wpisywane są tak, w innych tak, a niektórych w ogóle kluczowych danych brakuje, co utrudnia integrację danych i ich dalsze przetwarzanie),
  • formę udostępniania danych (API, xls, csv itd).

Z nimi wszystkimi profesjonalni dostawcy danych, posiadający zaplecze developerskie, jakoś sobie lepiej lub gorzej radzą.

Sprawa nie jest już jednak tak prosta, gdy w grę wchodzą bariery nietechnologiczne, takie jak:

  • zaporowe koszty wytworzenia i dostępu (np. wytwórcy danych typu miasto czy urząd nie sądzili nigdy, że dane te będą potrzebne, zatem nie posiadają odpowiednich budżetów na przeniesienie danych papierowych w formę scyfryzowaną lub w niektórych krajach dostawcy danych żądają ogromnych kwot za dostęp do danych),
  • mała dostępność danych (czyli sektor publiczny po prostu ich nie udostępnia lub w ogóle ich nie generuje, czyli sektor publiczny nie ma tych danych),
  • brak standardów w licencjonowaniu danych (według wielu opinii creative commons byłby najlepsze, jednak w tej chwili sektor publiczny dowolnie kreuje sobie licencje),
  • umowy na wyłączność (np. w jednym z krajów europejskich istnieje limit tylko 13 firm, które mają dostęp do publicznych danych, zatem jeżeli jesteś 14-tym na rynku nie masz już szans).

Szczegółowy raport z przeglądu Dyrektywy Re-use opublikujemy wkrótce na naszym blogu, gdy tylko firma Deloitte, odpowiedzialna za przygotowanie oficjalnego dokumentu, podeśle nam gotowy materiał.

Konsekwencje istniejących barier w przetwarzaniu otwartych danych, czyli konkretne przykłady z życia

Jak myślicie, ile firm w Polsce ma różne dane w rejestrze REGON, a ile w NIP?

Podpowiadamy — kolejno 5356 oraz 5020. Konsekwencją tego jest trudność z jednoznacznym określeniem, która firma jest która i konieczność weryfikacji podmiotów gospodarczych w kilku rejestrach jednocześnie, co wydłuża czas uzyskania odpowiedzi.

Jeżeli ciekawi Was ta historia, odsyłamy do naszego wcześniejszego artykułu w całości poświęconego tej przygodzie Transparent Data z polskimi rejestrami LINK DO ARTYKUŁU.

Istnienie zdublowanych numerów NIP podmiotów gospodarczych to nie mit!

W świetle ostatnich częstych rozmów o likwidacji bazy REGON, z której korzystamy często jako z dodatkowego źródła weryfikacji podmiotów, warto tu przypomnieć choćby takie przykłady zdublowanych numerów NIP jak NIP 5250000251, który posiadają Polskie Koleje Państwowe i jednocześnie działalność gospodarcza Leśniak Wacław czy NIP 6761013717 przypisany do miasta Kraków i jednego ze sklepów przemysłowo-spożywczych.

Więcej takich przykładów znajdziecie w osobnym artykule TUTAJ.

Dane szeroko otwarte w Polsce — gdzie obecnie jesteśmy w globalnych rankingach open data?

Według Global Open Data Index, Polska zajmuje obecnie miejsce 28, przy czym warto zwrócić uwagę na mnogość nadal istniejących “czerwonych” stref, czyli braków w odpowiednich obszarach otwartych danych:

Źródło: Global Open Data Index

Gdy przyjrzymy się bliżej sekcji Company Register, czyli państwowym rejestrom publicznym, okazuje się, że zajmujemy miejsce 32 razem z Kosowem, Iranem, Słowenią i Czechami, a w naszym najbliższym otoczeniu znajduje się afrykańskie Lesotho, Afganistan czy Albania:

Pozycja Polski w obszarze Company Register. Źródło: Global Open Data Index

Za największe słabości danych sektora publicznego w Polsce uznaje się brak otwartych licencji, brak danych scyfryzowanych, niemożność pobrania całości danych za jednym razem oraz to, że nie wszystkie dane są publicznie dostępne.

Innymi słowy, idziemy we właściwym kierunku, niemniej jeszcze długa droga przed nami.

Źródła i przydatne linki:

PSI Directive http://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32013L0037&from=EN

Open Data Handbook http://opendatahandbook.org/value-stories/en/saving-4-million-pounds-in-15-minutes/

Global Open Data Index https://index.okfn.org/

--

--