A Twitter üzenetek feldolgozásának módszertani problémái

Richard Nagyfi
Like / Share
Published in
4 min readFeb 7, 2016

Több, olyan online kutatás is létezik, melyek alapja, hogy bizonyos kulcsszavak (nevek, márkák, stb.) megjelenésének számát és a kulcsszó kontextusát használják fel adott platformokon. Ezt általában úgy végzik, hogy bizonyos időközönként ellenőrzik, hogy megjelenik-e a vizsgált platformokon a kutatott kulcsszó valamilyen formában. Minél nagyobb a vizsgált platformok száma, a kutatás annál költségesebb lesz, így előfordul, hogy az online kutatások során csak egy bizonyos szolgáltató tartalmaira összpontosítanak. Jól dokumentáltsága és könnyű elérhetősége miatt gyakori választás a Twitter. Backend API-ja felé bizonyos időközönként keresési kéréseket küldhetünk, a kutatott kulcsszavakra vagy azok valamilyen ragozott, speciális prefixekkel (hashtag vagy kukac) ellátott formáira. A Twitter API ilyenkor (többé-kevésbé) azokat az üzeneteket fogja visszaadni, amelyek rendelkeznek ezekkel a kulcsszavakkal. Az üzenetek előzőleges elküldésekor keletkezik egy időbélyeg, amely alapján eldönthető, hogy az adott üzenetet mikor hozták létre vagy mikor frissítették, így azt is láthatjuk, hogy adott időszakon belül hány ilyen hozzászólás érkezett. Ha személyesen végeznénk el ezt a feladatot, az azzal lenne egyenlő, mintha adott időközönként fellépnénk a Twitterre, rákeresnénk egy kulcsszóra és a kidobott, új üzeneteket felírnánk, feljegyezve azt is, mikor keletkeztek. Az így kapott dátumok alapján aztán eldönthető, hogy mikor hány üzenet keletkezett a kutatott témában. Ezzel a módszertannal több kutatást is publikáltak már és több predikciós modellben is felhasználták az így kapott eredményeket. Ilyen módon megpróbáltak már előre jelezni járványokat, választási eredményeket, filmek bevételeit, tüntetéseket és a tőzsde mozgását is. Egy pontban divattá vált Twitter kutatásokat végezni.

Csábító lenne vakon hinni ezeknek az eredményeknek, de ahogy az “I Wanted to Predict Elections with Twitter and all I got was this Lousy Paper” írója rámutat, a Twitter kutatások többségében nem történik valódi predikció. Pusztán nagyobb események és a róluk szóló tweetek magas száma közötti korrelációra mutatnak rá. Ez önmagában pedig nem jelenti azt, hogy minden nagyobb esemény megjelenik Twitteren, vagy azt, hogy minél nagyobb egy esemény, mindig annál több tweetet kapna. A kutatások végén sokszor csak lehetséges jövőbeli alkalmazási módként jelenik meg a predikció. Az író külön rámutat arra, hogy amióta a politikai szereplők tudomására jutott, hogy a választási eredményeket a tweetek száma alapján próbálják megjósolni, sokan vitatott eszközökkel árasztatják el a Twittert, róluk szóló, pozitív üzenetekkel.

Akár elfogadjuk, akár nem, hogy a Twitter üzenetek száma gyakorlatilag bármit képes előre jelezni, a tweetek feldolgozásának komoly módszertani korlátai vannak:

· Nem minden adat érhető el az eltérő privacy beállítások, jogosultságok miatt. Emellett előfordulhat, hogy a rendszer elosztott struktúrája miatt csak késve, elavultan, vagy egyáltalán nem lesznek elérhetőek bizonyos adatok. Ilyen megoldásokra gyorsítási és takarékossági szempontból van szükség, amiből a felhasználók általában semmit sem tapasztalnak — a kutatást azonban torzíthatják.

· A Twitter felhasználóinak demográfiája rendkívül torzít, emellett egyes országokban (beleértve hazánkat is) nem terjedt el széles körben.

· Előfordulhat, hogy a divattá vált fogalomról, mémről nem beszélnek az adott felületen, vagy az rendkívül alulreprezentáltan jelenik csak meg. Például az Apple facebook oldalának követőszáma rendkívül alacsony, ami többek között az Apple üzletpolitikai stratégiájából következő döntések eredménye, ez azonban nem jelenti azt, hogy ne használnák nap mint nap több millióan a facebookot iOS eszközökről.

· Előfordulhat, hogy a divattá vált fogalomról, mémről más szavak segítségével beszélnek, magát a fogalmat szó szerint nem említik, bár az azzal kapcsolatos témák folyamatosan a diskurzus részét képezik. Az elütéseket, félregépeléseket nagy eséllyel szintén nem fogjuk megtalálni.

· Nem csak az üzenetek automatikus olvasására, hanem automatikus írásukra, publikálásukra is van mód. A spambotok, robotok, reklámkliensek és marketinges szakemberek által létrehozott üzenetek száma eltorzíthatja a mintánkat. A választási eredmények, a jelöltek megemlítésének, valamint követőiknek száma közötti együtt járás felismerése után bevett szokássá vált, hogy a jelöltek hamis üzenetekkel és követőkkel árasszanak el platformokat.

· Bár az ismertség és elterjedtség szempontjából mind a pozitív, mind a negatív konnotációban megjelenő keresőszavak érdekesek lehetnek, a szövegfeldolgozás jelenlegi lehetőségeivel nagyon nehéz elválasztani a pozitív, negatív és ironikusan, viccesen írt üzeneteket. Itt megjegyezném, hogy az üzenetek érzelmi töltetének mérésére használt sentiment analysis megoldások, a legtöbb kapcsolódó publikációban nincsenek kifejtve, azok működéséről és hatásfokáról nem esik említés. Ennek ellenére a publikációk azt az érzetet kelthetik az olvasóban, hogy az alkalmazott megoldások hibátlanul működnek; hogy minden szkriptnek ugyanazon a módon, objektívan és helyesen sikerült osztályoznia szubjektív üzeneteket. Az ilyen fajta analízisnél az is probléma lehet, hogy a szkript, annak ellenére, hogy a validációra használt szövegeken jól teljesít, más, előzőleg ismeretlen témákban lehetséges, hogy hibás eredményeket ad.

· Az adatok historikusan önmagukban nem visszakövethetők. A keresési eredmények csak az utolsó, néhány elemet tartalmazzák, nem lapozhatunk bennük vissza a végtelenségig. Ez a probléma azonban kiküszöbölhető úgy, hogy mi magunk mentjük el egy külön adatbázisba a keresési eredményeket és az így létrejövő adatbázissal dolgozunk. A probléma hátulütője, hogy így csak olyan dolgokon tudunk kutatást végezni, amiket jó előre kiválasztottunk. Tehát egy esemény, mém, innováció, divat terjedését csak onnantól kezdve tudjuk mérni, hogy már mi magunk felfigyeltünk rá.

Bár a Twitter hatalmas potenciállal rendelkezik és remek eszköz hálózatkutatási kérdések gyors és olcsó megválaszolására, az így kapott eredményeket célszerű bizonyos fenntartásokkal fogadnunk.

--

--

Richard Nagyfi
Like / Share

Data Science Researcher & PhD Student — Budapest, Hungary