Desvendando o Git e o GitHub para Estudantes de Data Science

Bernardo Lago
Let’s Data
Published in
5 min readDec 21, 2023
DALL•E 3

Introdução

Se você é um estudante de Data Science que trabalha com Python, provavelmente já ouviu falar sobre Git e GitHub. Essas ferramentas são essenciais para o controle de versão e colaboração em projetos de programação. Neste artigo, vamos explorar passo a passo como começar a usar o Git e o GitHub, desde a instalação até o trabalho colaborativo.

Verificando sua Instalação do Git

Antes de começarmos, é importante verificar se o Git está instalado no seu computador. Para isso, abra o terminal (no caso do MacOS ou do Windows) e digite o seguinte comando:

git --version

Se você não tiver o Git instalado, siga as instruções oficiais de instalação para o seu sistema operacional no site do Git.

Criando uma Conta no GitHub

Se você ainda não possui uma conta no GitHub, acesse github.com e clique em “Sign up” para criar uma. Siga as instruções para configurar sua conta. Lembre-se de escolher um nome de usuário relevante para sua área de estudo.

Criando um Novo Repositório

Agora que você tem o Git instalado e uma conta no GitHub, vamos aprender como criar um novo repositório.

No GitHub

  1. Faça login na sua conta do GitHub.
  2. Clique no ícone “+” no canto superior direito e escolha “New repository”.
  3. Preencha o nome do repositório, uma descrição opcional e escolha se ele será público ou privado.
  4. Clique em “Create repository”.

Na sua Máquina

  1. Abra o terminal e navegue até a pasta onde deseja criar o repositório.
  2. Use o comando git init para iniciar um novo repositório local.

Conectando o Repositório Local ao GitHub

Depois de criar o repositório local e no GitHub, é hora de conectá-los.

No GitHub

  1. No repositório recém-criado, clique no botão “Code” e copie o URL do repositório.

No Terminal

  1. Use o comando git remote add origin [URL] para adicionar o repositório remoto. Substitua [URL] pelo URL que você copiou anteriormente.

Adicionando Arquivos, Commit, Pull e Push

Agora que seu repositório está configurado, você pode adicionar seus primeiros arquivos.

  1. Crie ou mova os arquivos que deseja para a pasta do repositório local.
  2. Use git add . para adicionar todos os arquivos ao controle de versão.
  3. Em seguida, execute git commit -m "Primeiro commit" para criar um commit.
  4. Para manter seu repositório atualizado com as mudanças feitas por outros colaboradores no GitHub, use git pull origin master para fazer o pull das alterações.
  5. Por fim, faça o push dos arquivos para o GitHub com git push origin master.

Commit

Um commit é uma espécie de “instantâneo” do estado atual dos arquivos em seu repositório. É uma forma de registrar as mudanças que você fez. Cada commit possui uma mensagem descritiva que explica as alterações realizadas. É uma boa prática manter essas mensagens concisas, mas informativas. Por exemplo, ao usar o comando git commit -m "Adicionei funcionalidade de gráficos", você está registrando um commit com a mensagem "Adicionei funcionalidade de gráficos" que reflete as mudanças que você fez em seus arquivos.

Pull

O comando git pull é usado para atualizar seu repositório local com as alterações feitas no repositório remoto do GitHub. Imagine que você está trabalhando em um projeto em equipe, e um colega de equipe fez algumas mudanças no código e as enviou para o GitHub. Para manter seu repositório local atualizado e sincronizado com as mudanças deles, você utiliza o git pull. Isso garante que você esteja sempre trabalhando com a versão mais recente do código.

Push

O comando git push é usado para enviar seus commits locais para o repositório remoto no GitHub. Quando você faz alterações em seus arquivos e cria commits locais, essas alterações estão apenas no seu computador. Para compartilhá-las com outros colaboradores ou fazer backup seguro no GitHub, você utiliza o git push. Isso envia seus commits para o repositório remoto, tornando suas mudanças disponíveis para outras pessoas que trabalham no mesmo projeto.

Em resumo, o fluxo de trabalho geralmente envolve fazer alterações nos arquivos, adicionar essas alterações aos commits, registrar as mudanças com mensagens descritivas (commit), manter seu repositório local atualizado com git pull para sincronizar com o repositório remoto e, em seguida, enviar suas alterações para o GitHub com git push. Dessa forma, você mantém uma colaboração eficiente e acompanha as alterações em seu projeto de Data Science.

Trabalhando com Arquivos Desatualizados

Se você editou arquivos localmente antes de fazer um pull e percebeu que eles não estão atualizados em relação ao repositório do GitHub, existem maneiras de contornar essa situação.

  1. Use git stash para salvar suas alterações locais.
  2. Faça um git pull para atualizar seu repositório local.
  3. Use git stash apply para reaplicar suas alterações salvas.

Entendendo o Funcionamento das Branches

Branches são uma parte fundamental do Git e do GitHub. Eles permitem que você trabalhe em diferentes versões de um projeto ao mesmo tempo.

  • Para criar uma nova branch, use git checkout -b [nome-da-branch].
  • Para alternar entre branches, use git checkout [nome-da-branch].
  • Para mesclar alterações de uma branch para outra, use git merge [nome-da-branch].

Trabalhando com Colaboradores

Colaborar em projetos no GitHub envolve o uso de pull requests (PRs) para propor e revisar alterações. Aqui está um resumo rápido:

  1. Um colaborador faz fork do repositório principal.
  2. Eles criam uma nova branch para suas alterações.
  3. Após concluir as alterações, eles enviam um PR para o repositório principal.
  4. Os revisores podem comentar, aprovar ou solicitar alterações no PR.
  5. Quando o PR é aprovado, as alterações são mescladas no repositório principal.

É importante destacar que, em projetos de código aberto, geralmente são os mantenedores do projeto que têm o poder de aprovar PRs. Em projetos privados ou em equipes, o processo de aprovação pode variar, mas geralmente envolve revisores designados.

Mantenha seu Código Atualizado

Lembre-se de começar o seu trabalho no código com um pull para garantir que você está usando a versão mais recente do projeto e termine com um pull para garantir que todos estejam com o código atualizado. Isso ajuda a evitar conflitos e manter a colaboração eficaz.

Agora que você tem uma compreensão básica do Git e do GitHub, você está pronto para começar a colaborar em projetos de Data Science de forma mais eficaz. Lembre-se de praticar e explorar mais recursos à medida que avança em sua jornada de programação. Boa sorte!

Nos ajude a te ajudar!

Se você gostou deste artigo e quer apoiar o Let’s Data, dê uns claps! E você pode fazer isso mais de uma vez, que tal uns 15?

Deixe um comentário dizendo o que acha deste assunto!

--

--

Bernardo Lago
Let’s Data

Data Scientist at NielsenIQ. Cofounder at Let’s Data