Análise de dados de 10.000 IA startups

Extraindo insights de empresas do AngelList

Introdução

AngelList é um lugar que conecta startups a investidores e candidatos que procuram emprego. Seu objetivo é democratizar o processo de investimento, ajudando as startups com captação de recursos e talento. Seja para achar emprego, investidores para sua startup, ou apenas para fazer conexões, é uma plataforma que todos na área de tecnologia deveriam conhecer. Desde que o site foi criado em 2010, mais de 4 milhões de empresas, 8 milhões de investidores e pelo menos 1 milhão de candidatos se registraram no site.

Em tempos em que a Inteligência Artificial cresce exponencialmente, seria interessante dar uma olhada nas startups de IA e fazer uma análise de dados exploratória em torno delas e de seu campo de atividade. Qual é o tamanho do investimento no setor de IA? Como essas empresas escalam? Quais mercados são mais promissores?

Extração de Dados

Para encontrar palavras comumente relacionadas, uma ferramenta eficaz é o SenseToVec, criado pela equipe do explosion.ai. É um modelo de rede neural treinado por comentários postados no Reddit em 2015, que forma um mapa semântico a partir de word embbedings. Você pode procurar por uma palavra ou frase e obter as palavras mais semelhantes a essa. Digitando Machine Learning, obtemos termos como:

  • Data Science
  • Natural Language Processing
  • Computer Vision

E mais dezenas de resultados. Depois de filtrar alguns, usei esses termos de busca para procurar startups relacionadas na caixa de pesquisa do AngelList.

O web scraper foi feito usando Selenium e Beautiful Soup. Ele cria um driver que acessa o URL (https://angel.co/companies), clica na barra de pesquisa e realiza uma consulta específica. Em seguida, percorre todas as empresas da lista e armazena seus dados. Como o site limita a busca por 400 empresas por pesquisa, optei por usar filtros e aumentar o número de consultas, a fim de maximizar a quantidade de empresas extraídas.

Angel Scraper

Depois de remover duplicatas, o resultado foi um arquivo CSV contendo 10.139 pontos de dados, com colunas como:

  • name’ → Nome da empresa
  • joined’ → Data que a companhia se juntou ao Angel
  • type’ → Tipo de empresa (Inicialização, Empresa Particular, Incubadora…)
  • location’ → Cidade onde a empresa está baseada
  • market’ → Campo de atividade da empresa (E-Commerce, Games…)
  • pitch’ → Slogan da empresa
  • raised’ → Valor arrecadado pela empresa com investimentos
  • tech’ → Linguagem de programação principal (Python, Javascript…)

Análise de Dados

Antes de procurar insights nos dados, foi necessário limpá-los e pré-processá-los para que sejam úteis para análise. Isso incluiu algumas etapas, como formatação de datas, normalização de textos e conversão de sequências monetárias em floats. Depois disso, importei a biblioteca Geopy para extrair informações de coordenadas geográficas da coluna de localização, para trabalhar com latitudes e longitudes mais tarde. Aqui está uma amostra do quadro de dados processado:

Muitas formas de análise podem ser extraídas de um data set como este. Vamos começar verificando as linguagens de programação que essas empresas estão usando:

A diferença é enorme. Python é uma das linguagens mais usadas quando se trata de Machine Learning, e parece um grande favorito dentro das startups de IA do Angel. Observe que estamos apenas comparando entre as linguagens mais usadas no AngelList, de acordo com eles, então outras linguagens importantes não foram incluídas.

Podemos reorganizar esses dados por data e verificar o crescimento de cada uma das linguagens nos últimos anos:

Tech growth by year

Python está crescendo, de fato. É uma linguagem incrível, de propósito geral e de alto nível, com uma extensa gama de bibliotecas poderosas, principalmente quando se trata de ciência de dados e machine learning.

Voltando à nossa análise, vamos checar a frequência de mercados. Quais são os mais comuns?

Market distribution

Legal. Embora alguns deles sejam muito abrangentes (como b2b e SaaS) e outros possam se encaixar na mesma categoria (como Big Data Analytics e Big Data), podemos obter uma boa comparação nos setores existentes.

Vamos tentar algo mais interessante. Agrupar nossos dados por mercado e somar os valores levantados para ver quanto dinheiro, no total, foi investido por setor:

Total investment by market

Esses são os 20 mercados com maior investimento. Isso não significa necessariamente que eles tenham a maior quantidade de empresas investidas.

Quais são as maiores empresas?

Airbnb → 10.3 Bi (Hotels)
Netscape → 4.2 Bi (News)
Nest → 3.3 Bi (Internet of Things)
Palantir → 2.1 Bi (Analytics)
Grail → 1.7 Bi (Diagnostics)

Isso explica o enorme investimento no mercado de hotéis. Uma ou duas startups gigantes podem pesar demais na soma total dos investimentos.

Talvez pegar o investimento mediano de cada mercado apresente um resultado diferente:

Median investment by market

Esses são os 10 mercados em que o investimento mediano é maior. O mercado de hotéis nem está mais lá.

Ainda assim, deve haver outras abordagens que nos levem a resultados mais reveladores. Vamos contar o número de empresas investidas por mercado, em vez de obter o valor investido. Em segundo lugar, seria bom ter essa comparação entre intervalos de investimento. Por exemplo, quantas empresas de publicidade receberam um investimento que varia de 1 a 10 milhões de dólares?

Para isso, construí um gráfico interativo, no qual você pode clicar nos botões para modificar (até 1 milhão, de 1 a 10 milhões e assim por diante). Para cada botão, você obtém um gráfico de barras com o número de empresas que tiveram investimento nesse intervalo.

Number of invested companies by market

Essa é uma análise muito mais complexa e pode fornecer aos investidores e fundadores uma visão mais profunda de como esses mercados se comportam em relação a escala de investimento. Em que mercados é mais fácil ser alavancado se você estiver no primeiro estágio (seed)? E quais são as empresas que se tornaram bilionárias?

Dependendo do dispositivo que você está usando para ler este artigo, talvez não seja possível visualizar o gráfico abaixo. Caso contrário, fique à vontade para interagir e tirar suas próprias conclusões.

Interactive Chart — Number of invested companies by market

Usando o montante investido por ano para cada setor, podemos até comparar a evolução de alguns desses setores desde 2011.

Market growth since 2011

Também podemos verificar o investimento médio por estágio:

Average investment by stage

Por alguma razão, a Série A apresenta um investimento médio inferior ao Seed. Vamos dar uma olhada no total investido nos últimos anos (em milhões de dólares):

Total investments

Percebemos claramente que 2012 foi o ano em que o AngelList explodiu, provavelmente junto com um crescimento no financiamento de Venture Capital e um número crescente de startups em todo o mundo. O próximo gráfico mostra o número de startups registradas no site por ano.

Number of startups per year

Por último, o que podemos fazer é usar as coordenadas extraídas da localização com o Geopy e separar em clusters a distribuição mundial dessas startups. O resultado é um mapa interativo como mostrado abaixo:

Cluster Map

Esse é um mapa de localização para cada uma dessas 10.000 empresas. Mesmo que seja uma amostra pequena, é uma boa representação da distribuição de tecnologia no mundo.

Para criá-lo, usei a biblioteca Folium e salvei o output em HTML. Se você quiser interagir com este mapa, basta ir ao meu repositório do GitHub → clique aqui, faça o download do arquivo cmap.html e abra no seu computador.

Clique nos clusters para abrir clusters menores e clique nesses para ver cada uma das empresaa. Se você clicar em uma única empresa, verá o link do seu website.

A figura abaixo mostra um mapa de calor (hmap_weighted.html) ponderado pelo valor do investimento, ou seja: para onde vai o dinheiro de Inteligência Artificial?

Heat Map

Isso não é nem metade do que poderíamos fazer com um data set como esse. Mais insights poderiam ser obtidos a partir do número de funcionários (tamanho da empresa), da vida útil das empresas e até mesmo de suas descrições, utilizando processamento de liguagem. Por enquanto, vamos apenas checar as palavras mais comuns usadas nos slogans das startups.

Word Cloud

O que mais poderia ser extraído? Informações de contato de fundadores, co-fundadores e investidores. Web Scraping é incrível e, juntamente com análise de dados e Machine Learning, torna-se uma ferramenta incrivelmente poderosa.


Se você quiser acessar os mapas, dados ou notebooks, basta entrar no repositório do GitHub → clique aqui ou deixe um comentário abaixo. Sinta-se a vontade para deixar observações ou idéias nos comentários abaixo. Siga meu perfil para mais artigos sobre Ciência de Dados e Machine Learning.

Clique aqui para acessar o artigo original em inglês.