Buzzfeed logo
Buzzfeed logo

Se tratando do Buzzfeed, pode ter certeza que a maioria é “1”

Trabalho atualmente como Analista de BI, e de uma brincadeira no trabalho surgiu a ideia de validar algumas justificativas através do Processamento de Linguagem Natural (PLN). Passei uma semana estudando e implementando o modelo num dataset que achei no Kaggle, e trago nesse artigo meu melhor restultado.

1. Pré-processamento dos Dados

import pandas as pdfrom sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import confusion_matrix, f1_score, classification_report, accuracy_score, roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.externals import joblib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

De início existiam 2 datasets diferentes. O primeiro apenas com títulos considerados clickbait, e…


Paraisópolis / Morumbi

Provavelmente não.

São Paulo é uma ótima cidade. Tem museus, parques, arte na rua, belas vistas, diversidade… Tudo que você possa imaginar. Mas como já é de se esperar, “barata” não é uma qualidade da maior metrópoles da América do Sul.
Como na foto do começo, onde quer que você olhe em São Paulo, a desigualdade é clara; então eu arrumei alguns dados e resolvi olhar mais de perto como isso é traduzido no preço dos apartamentos pela cidade.

Compra x Aluguel

Pessoalmente, não acho que comprar seja uma boa ideia. Se você vai pagar por uma coisa a vida toda, pelo menos que seja…


Paraisópolis/Morumbi

Probably not.

São Paulo is a great city. It has museums, parks, street art, nice views, diversity; everything you can imagine. But as you can imagine, “low-cost” is not a quality of the biggest metropolis in South America.
Like in the picture above, wherever you look in São Paulo the inequality is clear. So I gathered some data and decided to look a little more deep into the apartment prices in the city.

Buying vs Renting

Personally, I don’t think buying a place is a good idea. If you’re gonna pay for something your entire life, at least pay for something you can change whenever…


It’s a fact that 2019 MSI has it’s favorites, but talking about numbers who would be the winner?

Versão em português

You can’t tell who is gonna be the actual MSI winner this year, but with each team’s numbers in this first split you can have an idea of how well they are going to do.
For the record, LEC, LCK and LPL are in the Group Stage already. CBLOL is in the Play-In stage, and LCS and LMS will be waiting to take on the winner of each Play-In groups.

Total Games and Games Won

Each team has played a different amount of games, depending on the number of teams in their league and of how well the do in the series.


É fato que o MSI já tem seus favoritos, mas em questão de números, quem seria o vencedor?

English version

Não dá pra saber ainda quem vai ser, de fato, o vencedor do MSI desse ano, mas com os números de cada equipe nesse primeiro split dá pra ter uma ideia do desempenho de cada uma.
Lembrando que as equipes da LEC(G2 Esports), LCK(SK Telecom T1) e LPL(Invictus Gaming) já estão classificadas para a Fase de Grupo. A equipe do CBLOL(INTZ e-Sports)está na etapa da Fase de Entrada, e as equipes da LCS(Team Liquid) e LMS(Flash Wolves)estão na etapa da Fase de Entrada.

Número de Jogos e Jogos Vencidos

Cada equipe tem uma quantidade diferente de jogos jogados, dependendo do número de…


It’s safe to say that different regions have different play styles, but how does it differ in the big picture?

I was watching SKT Faker’s stream the other day and thinking about how different is the play style in each region. Starting with the picks, it’s not everyday that you see a Taliyah/Pantheon botlane or even a Riven being picked in competitive games. That being said, I started looking for any website with statistics from the game, and that’s when I found Oracle’s Elixir. Seeing all the numbers gave me the urge to try and see how these little differences would affect the big play for each position, and so I did. …


Alguns comandos você deve conhecer, mas talvez não soubesse que poderiam ser usados dessa forma.

Kung Fu Panda, Dreamworks

Post original escrito pelo Shiu-Tang Li

Pandas é uma biblioteca de Python bastante conhecida, usada para análise de dados. Existem muitos bons tutoriais dela, mas aqui eu gostaria de introduzir alguns truques que as pessoas talvez não conheçam e eu os acho muito úteis.

read_csv

Todo mundo conhece esse comando. Mas se os dados que você está tentando ler é grande, tente usar o argumento nrows = 5 para ler apenas uma pequena porção da tabela antes de carregá-la por inteira. Então você pode evitar erros aos usar o delimitador errado (pode não ser separado por vírgula).

(Ou você pode usar…

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store