Projeto sobre Ciência de Dados Não-Estruturados

Magusk
3 min readAug 18, 2019

--

Projeto em grupo composto por: Alex Barbosa Félix da Silva, Eduardo de Souza Paixão, Natanael Fernandes Toscano Araujo.

1. Dados Estruturados x Dados não somente Estruturados:

Para entendermos a diferença entre os dois precisamos começar falando mais especificamente sobre cada um:

2. Dados Estruturados:

Geralmente, dados estruturados vem de uma estrutura sólida e pensada de uma forma que foi planejada previamente para armazenar esses dados de forma que eles estejam estruturados.

Pensando em dados estruturados como um problema real, logo vem o exemplo de um formulário qualquer de cadastro, com campos nome,email, idade e senha. O campo de nome seria um campo textual como uma string ou varchar, assim como também o email, a idade seria um campo numérico, que aceitaria apenas números inteiros e a senha um campo também textual, ou se pensado na segurança, um campo textual com o texto criptografado. Os dados assim mantidos, estariam garantindo uma estrutura bem definida, caracterizando um conjunto de dados estruturados.

Agora, pensando no exemplo anterior, um banco de dados que armazena os dados desses formulário de cadastro é um exemplo de conjunto de dados estruturados, tal como uma consulta num Front-End que retorna os dados desse banco também.

3. Dados Semi-Estruturados e Não-Estruturados:

São o oposto dos dados estruturados, englobando os dados semi-estruturados e dados não-estruturados.

Falando sobre dados semi-estruturados, podemos levar em consideração alguns pontos: um dado semi-estruturado está no meio campo, tem uma estrutura porém é uma estrutura não definida, flexível. Um JSON retornado como resposta de uma API qualquer é um exemplo de um dado semi-estruturado, pois o JSON tem sua estrutura interna mas tal estrutura pode mudar dependendo de um parâmetro por exemplo.

E agora, entrando no campo de dados não-estruturados, o nome já é sugestivo, não tem um padrão definido, uma estrutura sólida a ser seguida por esses dados. E na computação, a maioria dos dados se encaixam nesse padrão de dados não-estruturados, sejam uma foto, um email, um texto ou até mesmo uma música.

Ainda sim, com o tratamento necessário, é possível organizar cada tipo de dado não estruturados ou semiestruturados.

A principal diferença entre eles é a maneira de tratar esses dados e de como obter, pois, no quesito de estrutura eles são totalmente diferentes.

4. Tratamento de Dados não somente Estruturados:

Existem inúmeras formas de lidar com dados não somente estruturados, seja utilizando ferramentas ja disponíveis no mercado como utilizando recursos diretos de programação. Então, melhor do que explicar o tratamento é mostrar um exemplo:

https://www.theverge.com/2017/2/22/14698446/radiohead-most-depressing-song-data-spotify-gloom-index

Recentemente, um analista de dados decidiu analisar as letras das músicas da banda britânica Radiohead, através de um algoritmo que contava a quantidade de vezes que certas palavras-chave apareciam, e comparava entre todas as músicas da banda para definir qual seria a música mais triste deles.

As letras das músicas são um tipo de dado não-estruturado, e o algoritmo utilizado pelo analista é um tratamento para estruturar esses dados, baseando-se nas palavras-chave para construir algo que sirva ao propósito requerido.

5. Pré-projeto:

Fonte: http://www.scielo.br/scielo.php?script=sci_abstract&pid=S2447-536X2018000400451&lng=en&nrm=iso&tlng=pt

O pré-projeto consistirá na análise de palavras-chave em artigos científicos para determinar a relevância das mesmas em relação ao conteúdo dos artigos, com o objetivo de verificar se as palavras-chave escolhidas pelo autor são realmente palavras de alto valor contextual no artigo.

--

--