Когато Google ти спре API-то…

Kaloyan Yankulov
LeanHustler
Published in
6 min readJul 4, 2017

Дълго време отлагах този пост. Трябваше да си събера мислите и да менажирам кашата от емоции и напрежение през последните месеци. Няма да е от триумфалните ми постове, което го прави още по-труден за писане.

[Отварям скоба: Повечето хора, правещи стартъпи в България, живеят два живота. Този пред Капитал, в който са уверени и успели и този, който наистина живеят, но не споделят с никого. Тези хора имат проблем със споделянето, когато нещата се оакат в кухнята им. Провалът е голямо табу.

Противно на това разбиране, когато стартирах този блог, го направих с основната цел да споделям всичко. За да се насиля да съм честен със себе си и читателите ми, дори го кръстих “watch me while I fail”.

Не съм фундаменталист на мисленето, че ако не си прозрачен, си обречен на провал. Повечето успели хора нямат блогове. Но ако споделяш съм сигурен, че рано или късно ще обереш от каймака на икономиката, която си помогнал да създадеш.]

Последните 4 месеца (от март до юни) бяха доста агонизиращи в HeadReach. Не обичам да драматизирам, но няма и да съм честен, ако кажа, че се чувствах напълно ОК през този период. Когато сложиш всичките ти яйца в една кошница. И тир мине през кошницата ти. Тогава се чувстваш кофти.

С други думи, HeadReach е кошницата. Връзките, кариерата, спорта и здравето са яйцата. А тирът е Google.

Писмо от Google

В края на февруари Google ни изпратиха писмо, в което споделят, че ще затворят основното API, което ползваме за HeadReach.

За да ви дам малко контекст ще кажа, че главната технология, на която базираме HeadReach, е Google Search API. През това API дърпаме информация от LinkedIn за профилите на хората — информация иначе недостъпна за простосмъртните, защото LinkedIn категорично забраняват обхождането й, освен ако не сте Google. С други думи благодарение на този loophole в системите на Google, може да имаме данните на над 400 милиона хора. В комбинация с още няколко API-та и наши технологии и хакове цялата магия се случва in the background и може да предоставим една от най-пълните бази данни с хора и техните имейли без да инвестираме почти никакви пари за инфраструктура, crawling, сървъри и т.н.

Разбира се, нещата не биха били толкова лошо, ако имаше удобна и адекватна алтернатива за този инструмент на Google, но за жалост все още няма. Което ефективно ни изправи пред въпросът какво ще правим щом вече нямаме Google.

Ясните алтернативи бяха две:

  1. Да продължим да използваме “downgraded” версията на Google Search API-то (което описват в последния абзац от имейла). Необичайно решение, но Google все пак ще продължат да поддържат версия на Google search с някои малки промени и липса на support. (Съпортът е най-големият разход на Google).
  2. Да си създадем наш Google, който да обхожда LinkedIn и да боравим с наши собствени данни, а не тези, обходени от Google.

Така описано т.1. звучи много по-лесната за реализация, но не особено разумна. Имейлът от Google ни дойде като събуждащ шамар. Осъзнахме, че правим бизнес, зависещ от чужда технология. Нямаме гаранциите, че утре жената на шефа, отговарящ за това API, няма да му изневери, и да се събудим без бизнес. Няма как да стане.

Винаги целта ни е била т.2. Искахме да увеличим приходите, за да можем да си позволим собствена инфраструктура, с която да реализираме тази цел. Бяхме предвидили това за след 12–18 месеца.

В крайна сметка решихме, че единственият ни избор е да пробваме да създадем наша инфраструктура и да действаме с голямата лопата. Трябваше за 2 месеца да направим това, което бяхме предвидили да направим за 18. И то без пари.

По пътя на мъките

Следващите няколко месеца бяха пълни с много надежда, много загубена надежда, отново надежда и накрая тотално отчаяние.

През март месец стигнахме около $1600 MRR, все още с минимални до никакви маркетинг и sales усилия. През предстоящите месеци MRR-а ни намаля и в момента е около $1000, причината, за което е, че както Дидо (tech фаундъра ми), така и аз се концентрирахме ексклузивно да намерим решение за LinkedIn. Спрях всякакъв маркетинг и дори съпорт за HeadReach.

Трябваше да разберем как да скрейпнем един от най-трудните за скрейпване в света сайтове. Да го направиме в гигантски scale (200 милиона страници на месец). И да го направим за без пари. Без да имаме предишен опит в crawling/scrapping.

Доста вода изтече и опитът, който натрупахме през следващите месеци, е несравним.

  • Научихме се как да скрейпваме сайтове ефективно и умно. Първите няколко седмици бяха изгубени, заради липса на елементарни знания в сферата.
  • Работихме със “Script Daddy”. Легендарен руснак от Upwork, с повече години опит в скрейпване от моя съзнателен живот. Разбрахме, че не е хубаво да залагаш основната си технология на външен човек от Upwork.
  • Запознахме се с едни от най-добрите скрейпъри в света. Разбрахме, че освен, че трябва да си добър с кода, трябва да имаш и топките да скрейпваш.
  • Разбрахме откъде могат да се купят и колко струват големи бази с данни.
  • Разбрахме, че LinkedIn има 6 различни anti-scrapping алгоритъма и как работят.
  • Научихме законите за скрейпване/copyrights/CFAA и прочие.
  • Открихме exploit в един от internal tool-овете на Google и успяхме да скрейпнем милиони LinkedIn профили през Google IP. Страхотно чувство е, когато едни от най-скъпо платените инженери в света не са помислили за елементарни защити и как с малко повече креативност можеш да ги покориш… дори и за малко. Разбира се, на 2рия-3тия ден се усетиха и започнаха да слагат защити.

След 4 месеца експерименти, агония и пот установихме, че няма добро large-scale решение, което можем да реализираме без пет цифрен месечен бюджет за scrapping инфраструктура. И дори тогава, остава въпросът дали имаме топките/липсата на разум да базираме бизнеса си на информация, която не притежаваме.

Това е наистина много сбитият вариант на 4 месеца история, в която животът ни се въртеше само и единствено около този проблем. Сбит е, защото не искам да ви отегчавам с технически подробности, а да ви актуализирам какво се случва с HeadReach и с мен.

Какво предстои за HeadReach?

HeadReach ще продължи да функционира нормално. Ще преминем към downgraded версията на Search API-то на Google и сайтът ще си работи както обикновено.

Като изключим това, сме спрели всякакви бъдещи разработки и маркетинг по проекта, докато не решим окончателно какво искаме да правим с него. Това, което знаем, е, че няма да разработваме технология, зависеща от един единствен 3rd party инструмент.

Какво предстои за мен?

Аз мисля да си взема почивка от HeadReach и да работя по няколко малки странични проекти. Вече съм замислил три.

Също така започнах да помагам на Уилко от UpViral като Product manager/UX lead. Уилко е един от супер пичовете, които правят успешно bootstrapped SaaS-ове (в момента 20 човека отбор) и има ужасно много какво да науча от него за маркетинг, а той за UX и удобни сайтове от мен.

Какво предстои за LeanHustler?

Както виждате, вече преминах на Medium — въпреки че Ghost ме кефи като платформа супер много, реших, че не е рентабилно да давам по $10/месец при положение, че пиша 1 път на 2 месеца.

Ще продължавам да пиша в блога, надявам се по-често. Скоро ще споделя преживяването ни в Малта, където имахме възможността да се запознаем със супер умни хора от Hotjar, Basecamp, Spotify, Pipedrive, PriceIntelligently, както и от дузина буутстрапнати стартъпи в начален стадии.

Също имам идеи да разчупя формата и да запиша няколко практични видеа — първото за това как да launch-ваме в ProductHunt като български стартъп. Ако имате някакви идеи, не се срамувайте да споделяте с мен.

Надявам се и този пост да ви е бил полезен с нещо.

Кало

--

--

Kaloyan Yankulov
LeanHustler

Product creator and marketer. Co-founder of Encharge.io Former co-founder of HeadReach.