Avete presente quando si chiede su twitter “mi scrivete i migliori link per …”

Ecco come estrarli e non perderli

Andrea Borruso
mai più senza
2 min readMar 11, 2022

--

Capita spesso su Twitter che si chieda qualcosa come:

mi scrivete qui per favore i link dei migliori siti con ricette per imparare a fare la migliore parmigiana di melanzane

Arrivano decine di risposte ed è un’impresa raccogliere tutti gli URL contenuti in queste, anche perché gli alberi discussione (i thread) sono di difficile consultazione. Molto spesso non ci si rende conto dei rami, e di tutti i livelli di ramificazione.

Ad esempio Katherin A. Sliter ieri ha chiesto dei consigli, su delle buone letture per imparare a fare i primi passi con R, un linguaggio di programmazione e un ambiente di sviluppo per l’analisi statistica.

Le sono arrivate decine di risposte, una piccola miniera di risorse(quelle di sotto è una rappresentazione del flusso). Ecco come recuperare tutti i link contenuti.

Si possono usare straordinarie applicazioni a riga di comando:

  • twarc, per interrogare Twitter ed estrarre dati dai suoi flussi. Il suo output di default è in formato JSON;
  • jq, per leggere, trasformare e filtrare un JSON;
  • sort, per ordinare delle stringhe di testo;
  • uniq, per estrarre i valori univoci e conteggiarli (alcuni URL sono stati consigliati più volte).

A partire dall’identificativo del tweet di Katherin che è 1501945896157597703 si apre la shell e si lancia:

twarc2 conversation 1501945896157597703 | \
jq -r '.data[].entities.urls[]?.expanded_url' | \
sort | \
uniq -c >output.txt

In output il tesoretto delle risorse per imparare a fare i primi passi con R (il numero è il conteggio delle volte in cui è stato consigliato).

--

--

Andrea Borruso
mai più senza

#data #maps #GIS #baci #condivisione. Orgoglioso di essere presidente di @ondatait