Computador para ciência de dados

Helio Augusto de Lima Barbosa
comunidadeds
Published in
13 min readNov 24, 2023

Muitos estudantes de dados se perguntam qual computador é necessário para começar a estudar ciência de dados. Para qualquer carreira ligada à tecnologia, a resposta que poderia muito bem ser “depende” é um depende até certo ponto cruel…

Computador para ciência de dados x computador doméstico para lazer

O primeiro passo para comprar um computador para ciência de dados é reconhecer que você provavelmente não é o usuário imaginado pela empresa quando projetou hardware para uso doméstico. (O ótimo é um servidor caro que a empresa que te contrata paga).

Resumidamente, custos foram cortados (menos memória RAM, chips inferiores, etc.) e isso não faz nenhuma diferença para o usuário doméstico, mas para ciência de dados faz bastante diferença. Nessas horas, precisamos identificar os produtos que deixaram você ter alguma coisa — como Tensor Cores em placas “gamer” da NVidia.

Outro ponto importante: especialmente se você lida com dados reais, é recomendado ter um computador dedicado para trabalho e estudo que não seja o computador usado para lazer — segurança de dados é muito importante e é bom treinar boas práticas desde o princípio.

Fonte: Image by rawpixel.com

Computador para ciência de dados — o mínimo extremo e o mínimo necessário

Se você conseguir abrir o Google Collab no seu celular, coloca um tecladinho e um adaptador para ligá-lo a um monitor qualquer e você consegue avançar nos estudos. Obviamente não é uma solução ideal — o mínimo seria “qualquer computador com Linux Mint instalado” (porque é um sistema operacional popular e leve — falaremos mais sobre isso depois).

Essa seção aparece aqui, logo no início, para deixar claro que esse texto fala sobre opções de compra para ver o que melhor se encaixa à sua realidade, considerando que “se você precisa perguntar…” (o que exclui casos de uso extremamente específicos e conhecimentos mais avançados de hardware como overclock, undervolt, etc. — como não vou entrar nisso, assuma que, num PC, a placa mãe recomendada é: “sim” e a fonte é o mínimo pra ligar sem dar problema.)

Sim, dá para pegar o notebook velho, instalar um Linux Mint, começar a estudar e usar o Google Collab — de preferência só com dados randomizados e anonimizados para fins de estudo — e com o tempo investir numa solução mais duradoura. Nem sei qual é o seu notebook/PC, mas ele é o mínimo necessário — apenas comece.

Componentes no computador para ciência de dados

A tela do notebook — E a bateria também!

Eu explico: se for para ter um dispositivo só, eu escolheria um notebook. Pode ser o clima — que ameaça inclusive a publicação desse texto no prazo — ou o lugar em que você mora, mas seu computador não simplesmente desliga quando acaba a energia é uma “feature”. Além disso, um no break de qualidade custa caro e precisa de outro texto para explicar.

A tela do notebook combinada a um monitor externo é muito útil para você assistir aulas e reproduzir código, consultar algum material como um e-book, artigo, stack overflow, inteligência artificial explicando seus erros para você e por aí vai.

Para muitas coisas — especialmente em machine learning — ter um PC com uma placa de vídeo dedicada ajuda bastante (ou se você resolveu ignorar boas práticas de ciência de dados e vai usar um computador para tudo). O custo benefício do PC-torre (desktop) é melhor no papel, mas “não desligar quando acaba a energia” é algo impossível de quantificar.

Pontos negativos de um notebook com placa de vídeo dedicada são o peso (não é algo muito portátil) e o maior consumo de bateria.

Processador

As marcas costumam usar 3–5–7 e 9 para separar seus processadores por qualidade e potência. Os “5” entregam o melhor custo benefício, mas tem o problema do “qual 5”, porque hoje em dia essa divisão não quer dizer muita coisa.

Os processadores têm núcleos, alguns têm núcleos específicos e muita coisa que é completamente irrelevante para o usuário comum começa a ser útil para o cientista de dados (lanes, caches, etc.).

No lado da AMD, seria perfeitamente possível recomendar um Ryzen 5 3600, mas eu não recomendo. Isso porque é possível investir um pouco mais e comprar um 5600 ou um Ryzen 7. O importante é entender que o 3600 já funciona, qualquer coisa melhor é lucro.

Já na intel, a coisa complica. Não é como se os chips da Intel tivessem evoluído monstruosamente entre a 6ª geração e a 12ª geração. Eu me sinto bem confortável para escolher a 11ª por ter tecnologias mais modernas e mais suporte (hardware muito velho = menos segurança e segurança é importante num computador para ciência de dados).

Um belo dia, lá pela 13ª geração, a Intel resolveu lançar um Core i5 com um monte de núcleos. Num notebook, o preço é meio salgado hoje em dia, mas já saiu a 14ª geração, daqui a pouco sai a 15ª… Mas é o estranho caso em que o i5 pode atender perfeitamente, esquece o i7. Para 11ª e 12ª eu olharia o preço do i5 e do i7 para escolher…

Memória RAM

Se você pesquisar sobre recomendações de computadores, você verá muita gente dizendo que 16GB é suficiente para o usuário comum, mais do que isso é desperdício. E meio que é assim mesmo, mas o computador para ciência de dados não é um computador para uso comum.

Em outras palavras, existe um mínimo — 8GB de RAM — que seria o equivalente a uns 2GB para o sistema operacional, uns 2GB para aplicação e 4GB para uma base de dados. Num notebook, eu buscaria por exemplo UM pente de 8GB soldado e um slot vazio para colocar mais 8GB no futuro (diferente de uma memória de 4GB soldada e uma de 4GB no slot que poderia vir vazio).

Quanto mais memória RAM você tem, mais a aplicação usa. Em aplicações domésticas (como um jogo), 12GB para a aplicação (+4GB para o sistema operacional) dá e sobra. Não faz muito tempo que jogos começaram a usar mais do que isso, se disponível.

Para estudar num computador para ciência de dados, eu consigo facilmente colocar o processador em 100%, a RAM em 100% (com 16GB de RAM) e consigo até fazer algumas coisas que travam nesse calor. Para mim, 16GB (ou 8GB e um slot livre) é o recomendado mínimo na hora de tentar rodar coisas com aulas abertas no navegador, notion, etc.

Sim 8GB é o mínimo para escrever seu notebook, treinar o modelo e seguir a vida, mas se vai ter um monte de coisas abertas enquanto você faz isso, aí 16GB é o mínimo. Existem notebooks com 12 GB de RAM, o que é melhor que 8GB, mas num PC com AMD, por exemplo, se tiver tecnologias como Dual Channel, geralmente você quer duas memórias iguais nos slots 2 e 4 para ter mais performance.

Placa de vídeo (GPU) e tensor cores

Isso se aplica mais para um desktop — também funciona em laptop, mas tenha em mente que você precisa pensar também em refrigeração para não perder performance.

O mínimo é não ter e usar gráficos integrados do processador. Vai demorar mais, mas é a vida, não vai deixar de funcionar por causa disso e vai diminuir bastante o custo. Se existe oportunidade para investir mais, a NVidia ganha por conta de ter mais tecnologias, tensor cores para treinamentos de Machine Learning e, dependendo da placa, dá até pra sonhar com Deep Learning (mas o sonho vai acabar rápido — pagar uma nuvem é apenas melhor).

RTX qualquer coisa geralmente é melhor que nada e, num laptop, eu nem pensaria em algo muito grandioso porque ela está ali para facilitar a vida. Se aumentar muito o consumo de bateria, o peso e o preço, aí ela estará ajudando menos. Uma 2060, 3050, 3060 de notebook já está até bom. 3060/3060 ti num PC está bom também.

A partir daí você descobre que o mercado de GPUs odeia você, usuário médio que quer alguma solução diferente mas não pode pagar por uma solução empresarial ou modelo topo de linha. Porque ou a placa não tem pouca tecnologia e quer rodar joguinho no máximo usando rasterização (AMD), ou a NVidia quer um valor absurdo por mais VRAM.

Exemplo: você acha 3070 e 8GB de VRAM por preços pagáveis, com uma queda significativa em 2022. A 3080 de 12GB é disputada entre arquitetos, cientistas de dados, entusiastas, etc. demorou muito para cair de preço.

Hoje é difícil achar uma 3080 com 12GB de VRAM por menos de R$5.000,00 — mas é possível e provavelmente é o melhor custo benefício com custo terrível. A 4070 ti tem mais tecnologia, mas é mais cara, enquanto a 4060 ti é uma placa ruim, que poderia ter 12GB num preço acessível, mas acaba sendo pior que a 3060 ti porque a largura de banda é melhor. 3090 nem existe direito, mas 24GB de VRAM é largura de banda alta é um sonho.

Fonte: https://images.nvidia.com/aem-dam/Solutions/geforce/ampere/rtx-3080/geforce-rtx-3080-product-gallery-full-screen-3840-3.jpg

Resumidamente:

A RTX topo de linha atual 24GB VRAM > 4070 ti ~ 3080 12GB VRAM > 3060/3060 ti > qualquer RTX baratinha num notebook > gráficos integrados

Cuidado com o que não está na lista, ou tem problema de custo benefício, podendo até ser um produto considerado ruim (4060 ti).

Armazenamento

Um SSD para sistema operacional e um SSD para outras coisas é uma configuração interessante num computador para ciência de dados, assim, na hora de comprar um notebook é bom conferir se tem um slot extra para armazenamento.

Sistema Operacional num computador para ciência de dados

No PC “mínimo” (qualquer coisa que tiver em mãos, mesmo que tenha uns 10 anos de uso), a solução é colocar um SSD e usar Linux Mint, que além de ser extremamente leve tem um suporte considerável.

Dual boot de Windows e Ubuntu para o resto que não usa Mac. O Windows meio que só serve para Power BI (que deveria ser coisa de analista, não de cientista, mas pode aparecer numa vaga como um mal sinal, que apesar de tudo te interessa).

Se você precisa perguntar, eu recomendo Ubuntu num computador para ciência de dados porque, quando algo dá errado, existe uma comunidade gigante discutindo e apresentando soluções para o seu problema — acaba sendo mais fácil resolver as coisas no Ubuntu do que no Windows, por exemplo. Por conta desse “suporte”, o Ubuntu vence apesar de não ser minha distribuição favorita, nem necessariamente a melhor.

Brasileiro médio e o Macbook como computador para ciência de dados

Apenas não, asterisco. (O asterisco seria morar fora do Brasil, alguém viajando em outro país trazendo o notebook para você, etc. — qualquer coisa que não seja o novo no site oficial da Apple no Brasil).

Fonte: https://www.rawpixel.com/image/5928246/man-using-laptop-free-public-domain-cc0-photo

Passado esse ponto, se você abrir o Safari para assistir um vídeo no YouTube, “produto da Apple é produto bom”. Se você quiser usar Machine Learning, aí abriu-se uma toca do coelho para outra dimensão. Eles lançam o produto bom, daí fazem pequenos ajustes no ano seguinte que podem acabar piorando alguns produtos de entrada em vez de melhorar.

Se você pensa em direcionar sua carreira para coisas que dependem de iOS (ex. Ionic para fazer apps) E além disso, estuda ciência de dados, Machine Learning E aparecer um Macbook com processador “M”, 16GB de RAM e 512GB de SSD na sua frente num preço baixo, esse é seu custo benefício. O custo mínimo seria um Mac Mini usado (que nem é um notebook).

Eu não gosto de recomendar MacBook no Brasil, mas a cruel realidade é que ele tem uma performance muito boa em Machine Learning. Recomendo esse artigo, onde comparam um Macbook Pro M1 com um PC montado com uma 3060ti, fonte dessa imagem com resultados assustadores com transfer learning:

Fonte: https://betterdatascience.com/macbook-m1-vs-rtx3060ti/

Um Macbook Air M1 8GB de RAM e 256GB de SSD consegue fazer as coisas? Sim, no tempo dele, mas consegue. Isso porque quando acaba a RAM, ele consegue usar o SSD como RAM — e consumir o SSD no processo, diminuindo a vida útil do aparelho, porque não é só abrir e trocar peças.

No papel, o chip M1 é lindo, tudo numa peça só, comunicação ágil que sim, ajuda bastante no Machine Learning. O chip M2 é menos lindo, porque nas versões mais baratas existem limitações sérias (o Macbook Air M2 8GB 256GB Ram é a “4060ti” do capítulo anterior — a comunicação entre componentes é pior).

Provavelmente, o melhor custo benefício em um Macbook novo vai estar no Macbook Pro M1 16GB RAM e 512 GB de SSD — e não, não é barato. Abaixo disso, o Mac Mini, Macbook Air COM CHIP M1 (não M2) mais barato que você achar, se você tiver uma justificativa muito boa para isso.

Esse vídeo (em inglês) explica com mais detalhes como o M1 funciona e porque ele é tão bom assim, recomendo para quem se interessar.

Recomendações

Notebook recomendado para ciência de dados — entre 5.000 e 10.000 reais.

Lenovo Legion 5i slim — existem vários modelos, alguns estão esgotando, porém é sempre encontrado com desconto. Não é barato, mas pode ser encontrado por menos de 10000 reais, entregando um core i5 12ª geração e placa de vídeo nVidia RTX 3060 de 6GB.

Caso esteja esgotado, existe um modelo com processador 13ª geração, so que a placa de vídeo é um a RTX 4050 de 4GB de VRAM — e a gente queria 12GB de VRAM… (Lembrando que eu não recomendaria uma placa dessas num notebook porque o projeto precisaria ser muito robusto para não esquentar demais, o que atrapalha a performance — melhor montar um Desktop ou alugar nuvem).

Link para análise em vídeo de terceiros no youtube.

Menções honrosas

Acer Predator Helios — para quem quer mais placa de vídeo e não se importa com a estética ainda mais “gamer”, esse modelo custa menos de 10000 reais e conta com uma RTX 3070 de 8GB. Em contrapartida, o processador tem menos núcleos. Sendo sincero, ele esbarra no território onde notebook perde sentido e desktop começa a fazer ainda mais sentido… Eu prefiro tratá-lo quase como uma menção honrosa.

Macbook Air M1 de 8GB e 256GB de armazenamento — essa configuração só vale para o M1 — se for M2 ou M3, recomendo fugir da versão básica. Fora isso, é possível garimpar o Mercado Livre por sua conta e risco e encontrar o Macbook Pro M1 16GB RAM e 512GB de armazenamento em torno de 10000 reais.

Eu indiquei esse modelo por ser leve, portátil e uma das melhores opções custo-benefício da Apple para quem precisa de um para atividades específicas. A melhor opção custo benefício, por exemplo, só para “rodar ionic” é um mac mini com m1 mais barato que você achar.

É complicado achar um link seguro para indicar porque depende de muita pesquisa, já que o preço no site oficial é absurdo. Se você tem um amigo “fã da Apple”, perguntar onde ele compra é melhor do que ficar dias caçando na internet.

Existe uma seção dedicada a macs no texto, com links para análises..

Notebook até 5.000 reais

Thinkpad E14 — Não tem placa de vídeo dedicada, tem só 8GB de RAM, mas é parrudo e pode expandir a memória até 40GB de RAM. Não é exatamente um notebook “slim”, mas é um notebook que dá pra jogar na mochila, além de ter outras soluções de segurança muito relevantes para dados.

É o modelo recomendado para quem tem uma solução para machine learning (um Desktop com placa de vídeo, uma nuvem, etc.) ou para quem só quer fazer análise de dados. Convém dar uma olhada no site em toda linha Thinkpad porque promoções são comuns.

Lenovo IdeaPad Gaming 3i — modelo com uma RTX 3050 de 4GB (melhor do que não ter placa de vídeo dedicada, mas não resolve muito). Na verdade, o que ele faz, acima de tudo, é ser um dispositivo multifunções (usar o notebook para trabalho e lazer).

Notebook até 3000 reais

Ideapad 3i — Aqui é o território perto de “continua usando o que você já vem”, mas quem ainda não tem nada precisa comprar algo. A ideia é encontrar um notebook com 8GB de RAM, construção de qualidade, com possibilidade de expansão de memória RAM no futuro. Eu olharia o preço de outras linhas da Lenovo, como a thinkpad, em busca de promoções.

Computador para ciência de dados — desktop

É melhor montar um PC customizado, mas abaixo são alguns exemplos de configuração.

Até 10.000 reais — RTX 4070, i5 13ª geração, 16GB de RAM

Até 5.000 reais — RTX 3060, i5 12ª geração, 16GB de RAM

Até 3.000 reais — Ryzen 7 5700G com gráficos integrados. Esse é um que eu recomendo de verdade montar do zero, porque a fonte geralmente é mais fraca e seria interessante ter uma fonte energia de no mínimo 550W (750–850 não é ruim, pensando em upgrades futuros).

Conclusão

Instale Ubuntu/Linux Mint no seu computador velho e comece a estudar o quanto antes e/ou use o Google Collab enquanto junta dinheiro para comprar algo.

Ter uma placa de vídeo RTX da NVidia em algum lugar é uma ideia, mas não é uma necessidade absoluta. É possível ter um notebook linux com 16GB de RAM e um SSD para trabalho estudo e, se o caso, usar o PC gamer pra treinar Machine Learning ou estudar Power BI com dados simulados, se você tiver um. (Lembre-se: não recomendado, boas práticas, segurança de dados — mas é possível. Evite usar dados reais.)

Se por acaso aparecer na sua frente um Macbook decente (M1) com um bom preço por qualquer motivo E você tem algum outro motivo para querer um Mac (estudar criação de apps para iOS por exemplo), é possível usá-lo para ciência de dados, mas recomendo fortemente ter 16GB de RAM para aumentar a vida útil do aparelho.

No fim do dia — especialmente para deep learning — você vai trabalhar com o computador que a empresa fornece ou com computação na nuvem. Esse é o verdadeiro computador para ciência de dados. Não precisa gastar o dinheiro que não tem ou fazer dívidas só para estudar.

--

--

Helio Augusto de Lima Barbosa
comunidadeds

Gosta de tecnologia. E gosta de arte. E de política. E de espiritualidade. E de várias coisas.