5 poziomów otwartości danych — od PDF do LOD

Większość z nas doskonale wie, czym są otwarte dane, nieliczni jednak wiedzą, że istnieją różne ich poziomy otwartości. Dane połączone, tzw. Linked open data (LOD), stoją na samym szczycie tej drabiny. Poznaj schemat 5 poziomów otwartości danych Tima Berners-Lee.

Transparent Data
Blog Transparent Data

--

5 poziomów otwartości danych — od PDF do LOD

5-gwiazdkowy schemat otwartych danych: krótkie wprowadzenie

Pięciogwiazdkowy schemat otwartości danych został opracowany i zaprezentowany w 2010 roku przez Sir Tima Berners-Lee, brytyjskiego fizyka i programistę, który znany jest jako współtwórca WWW. Naukowiec zaproponował pięciogwiazdkowy schemat wdrażania połączonych otwartych danych, który rozpoczyna się od jednej gwiazdki.

Pięciogwiazdkowy schemat otwartych danych Tima Berners-Lee

Jak widać na grafice, każdy kolejny, bardziej otwarty format danych, otrzymuje wyższą notę. Kolejne gwiazdki oznaczają:

★ zasoby udostępnione w sieci na warunkach licencji otwartej (w dowolnym formacie);

★★ zasoby udostępnione w formie danych ustrukturyzowanych (np. arkusz w Excelu zamiast skanu)

★★★ dane w dokumencie zapisane w formacie otwartym, takim jak CSV;

★★★★ zasoby oznaczone URI, które są dzięki temu możliwe do wyszukania;

★★★★★ dane połączone z innymi danymi, które zapewniają im kontekst.

Dane zyskują gwiazdki po usunięciu kolejnych formatów, które tworzą trudności w ich maszynowym odczytaniu. Rezultatem wdrażania tego schematu udostępniania danych są dane połączone (z ang. Linked open data — LOD), które można swobodnie wykorzystywać i rozpowszechniać. Zatrzymajmy się na nich przez chwilę.

Termin dane połączone nie jest synonimem otwartych danych — określa zbiór zasad projektowania udostępnianych danych do odczytu komputerowego na potrzeby wszystkich osób, które z otwartych danych decydują się skorzystać. Dane połączone to efekt ewolucji Internetu wcześniej opartego na dokumentach, który obecnie jest zbiorem powiązanych danych.

Poniżej wyjaśniamy, co dokładnie oznaczają kolejne poziomy otwartości dla konkretnych użytkowników.

Otwarte dane z jedną i dwiema gwiazdkami

Dane dostępne w sieci na zasadach otwartej licencji, udostępnione w dowolnym formacie, to jednogwiazdkowe otwarte dane. Użytkownicy mogą takie dane przeglądać, wyszukiwać, przechowywać, zmieniać i ponownie udostępniać każdemu. Nie potrzebują do tego ubiegać się o żadną zgodę. Z kolei wydawcy takich jednogwiazdkowych danych mogą w prosty sposób takie dane publikować.

Aby dane mogły otrzymać drugą gwiazdkę muszą być dostępne jako dane ustrukturyzowane, czyli dane, które można odczytać maszynowo. Dobrym przykładem jest tutaj zamieszczanie danych w arkuszu kalkulacyjnym zamiast w pliku PDF. Jeśli użytkownik otrzyma dane w takim formacie, to może zawarte w nim dane bezpośrednio przetwarzać za pomocą danego oprogramowania (aby otworzyć plik na komputerze, konieczna jest aplikacja, która ten plik odczyta). Taki plik użytkownik może też bez problemu eksportować do innego formatu.

Dane z trzema i czterema gwiazdkami

Otwarte dane z trzema gwiazdkami to takie dane, do których otwarcia czy analizy nie potrzeba dodatkowej aplikacji w postaci zastrzeżonego oprogramowania. Doskonałym przykładem są tutaj otwarte dane udostępnione w formacie CSV, który pozwala na przechowywanie danych tabelarycznych w postaci zwykłego tekstu.

Kolejna czwartą gwiazdkę mogą otrzymać dane, w których wykorzystywane są otwarte standardy W3C (np. RDF i SPARQL). RDF (Resource Description Framework) to standardowy format używany w semantycznych bazach danych grafów. Może być rozumiany jako rodzaj technologii semantycznej, która pozwala na przechowywanie i zarządzanie danymi połączonymi. Dodatkowo pozwala ona nadawać sens tym danym. Triplestore, bo tak inaczej nazywamy bazę RDF, odwzorowuje relacje między danymi w grafowych bazach danych. Z kolei SPARQL to język zapytań dla bazy danych RDF, który jest standaryzowany przez W3C.

Aby powyżej wspomniany relacje mogły zostać odwzorowane, dane muszą zawierać Uniform Resource Identifier (URI), czyli unikalny identyfikator, które będzie reprezentował dane w grafowej bazie danych. Dzięki URI użytkownik może połączyć się z bazą w każdym momencie i wykorzystać dowolną część danych.

Połączone dane LOD z pięcioma gwiazdkami

Według Tima Bernersa-Lee warunkiem nadania danym otwartym ostatniej, piątej gwiazdki, która czyni dane danymi powiązanymi, konieczne jest udostępnianie danych zgodnych ze standardami W3C. Dzięki tym standardom wydawcy danych łączą swoje dane z danymi innych osób i tym samym zapewniają im upragniony kontekst.

Podczas korzystania z danych pięciogwiazdkowych użytkownicy mogą odkrywać coraz więcej połączonych ze sobą informacji, ponieważ semantyczna baza danych grafów jest w stanie wykryć nowe relacje, o które zadbał wydawca danych, nadając im między innymi odpowiednie sekwencje URI.

Podsumujmy: pięciogwiazdkowe dane LOD to otwarte dane dostępne w sieci połączone z innymi danymi.

Największy problem w otwartych danych? Zamknięcie ich w dokumencie

Dane otwarte, które zostały udostępnione na licencji otwartej, czyli zgodnie ze standardami międzynarodowymi, opracowanymi przez Komisję Europejską, to dane:

  • dostępne bez żadnych ograniczeń, które mogą zostać wykorzystane do dowolnych celów;
  • w oryginalnej i niezmienionej formie, które nie są dostępne w postaci analiz, podsumowań czy skrótów (umożliwiają łączenie danych z różnych źródeł);
  • kompletne (udostępnione w całości);
  • aktualne — udostępnione możliwie jak najszybciej tak, aby zachowały aktualność i mogły zostać wykorzystane;
  • odczytywane maszynowo — dane dostępne w formatach takich jak: CSV, XML i arkusz kalkulacyjny (pliki tekstowe PDF czy HTML nie nadają się do odczytu maszynowego);
  • dostępne w sposób niedyskryminujący — bez konieczności logowania się czy jakiejkolwiek innej weryfikacji tożsamości;
  • bez prawnych ograniczeń — dane nie mogą być przedmiotem praw autorskich, patentów, znaków towarowych czy tajemnicy handlowej, otwarte dane to takie dane, które mogą zostać wykorzystane ponownie bez konieczności ubiegania się o zgodę na wykorzystanie danych;
  • niezastrzeżone — dane otwarte nie mogą być kontrolowane przez żaden podmiot.

Problem z otwartymi danymi nie wynika z ich dostępności, ale z tego, w jaki sposób zostały zaprojektowane, ponieważ nie posiadają odpowiedniej struktury. Największym problemem otwartych danych jest to, że są zamknięte w jakimś dokumencie.

--

--