Strablog – la blogosfera informa

Un network di blog che aggrega notizie dai blog Read more »

Come Funziona

Come funziona l’indicizzazione delle notizie dalla Blogosfera del network Strablog? Vediamo di spiegarlo andando a “denudare” quella che è l’architettura dello script che abbiamo realizzato per la piattaforma WordPress.

Si tratta di un procedimento completamente automatico di catalogazione delle notizie tramite uno spider che autonomamente compie l’arduo lavoro di scansione e revisione delle notizie con cadenze cronologiche variabili stabilite dallo script. Lo Spider (o Crawler se preferite) passa in rassegna tutti i post giornalieri che rileva dalla Blogosfera secondo una scansione semantica, una ricerca cioè per campo di pertinenza: ad esempio lo spider di Webso andrà a scansionare i post del giorno su Tecnologia e Web 2.0 mentre quello di Ricette Veloci andrà a prendere in esame i post di Cucina e Gastronomia. Successivamente i post vengono scelti o scartati secondo rilevanza semantica, autorevolezza e pertinenza. Quindi eventualmente pubblicati assegnando a ciascuno una categoria di appartenenza, un breve estratto del post e un link al post originale per poter proseguire la lettura. I post scartati per spam o perchè non pertinenti andranno a creare una blacklist che verrà utilizzata dallo Spider per l’eliminazione delle fonti e per la focalizzazione della ricerca.

Oltre a questo procedimento è anche possibile iscrivere il feed del proprio blog ad uno dei nostri aggregatori. Qualora fosse accettato verrà aggregato regolarmente e inserito nel flusso dei post aggregati dallo spider, con ordinamento cronologico.

Di seguito possiamo visionare il grafico “flow chart” dell’intero procedimento:

architetturastrablog