Tag Archives: robots.txt

La via italiana alla trasparenza

Renato Brunetta strizza l'occhio
Renato Brunetta strizza l'occhio

Il Ministro Brunetta – per capirci quello che non perde l’occasione per insultare il prossimo – al grido di “Trasparenza! Trasparenza!!!” ha lanciato l’idea di pubblicare online i curriculum e le retribuzioni dei dirigenti pubblici.

Che bello! Potremo sapere tutto di chi gestisce la cosa pubblica. Forte! Bravo Brunetta.

Un momento! Prima di festeggiare troppo, teniamo bene in mente che Brunetta è un socialista di vecchia data, dai tempi di De Michelis e Craxi, e che oggi fa parte del peggior governo della storia d’Italia guidato da Berlusconi e che vanta ministri come la Carfagna, la Gelmini, Bossi e Calderoli….

Perciò, prima di gioire andiamo un po’ a verificare po’ come funziona la trasparenza in Italia e come è stata realizzata.

Primo passo. Introduzione dell’obbligo di pubblicazione sul sito internet di dati sui dirigenti pubblici.

Per prima cosa si fa una legge che impone la pubblicazione sul sito internet di retribuzioni annuali, tassi d’assenza, e molto altro ancora per i dirigenti.

Ecco l’articolo 21 (Trasparenza sulle retribuzioni dei dirigenti e sui tassi di assenza e di maggiore presenza del personale) della legge Disposizioni per lo sviluppo economico, la semplificazione, la competitività nonché in materia di processo civile

Ciascuna delle pubbliche amministrazioni […] ha l’obbligo di pubblicare nel proprio sito internet le retribuzioni annuali, i curricula vitae, gli indirizzi di posta elettronica e i numeri telefonici ad uso professionale dei dirigenti e dei segretari comunali e provinciali nonché di rendere pubblici, con lo stesso mezzo, i tassi di assenza e di maggiore presenza del personale distinti per uffici di livello dirigenziale.

Fin qui tutto bene. Un applauso per Brunetta. Clap, clap. Evviva, evviva. Il popolo è gaudente e felice.

Passo due. Si danno le istruzioni per nascondere quanto appena reso trasparente!

Si, avete capito bene. Prima la legge che obbliga a pubblicare e poi, con molta meno enfasi, si pubblica sul sito del ministero diretto dallo stesso Brunetta un documento “tecnico” che spiega come fare in modo che alcune informazioni non siano indicizzate dai motori di ricerca.

In pratica si lascia sul sito un file (molto semplice, si chiama robots.txt) che contiene le istruzioni per dire a Google o ad altri motori di ricerca di non indicizzare certe pagine o certe sezioni del sito. Non viene specificato quali pagine, ma i solerti webmaster procedono con il …

…passo tre. La creazione del file robots.txt

I webmaster dei siti della pubblica amministrazione si mettono perciò al lavoro ed escludono intere parti di sito (a volte interi siti). Quali parti del sito vengono escluse? Non è difficile indovinare. Sono proprio le parti del sito contenenti i dati dedicati alla trasparenza, che saranno oscurate ai motori di ricerca.  Sappiamo benissimo che ormai, quando si vuole cercare qualcosa, si usano Goole o altri motori di ricerca. Se qualcosa non si trova, si deduce che non c’è e si abbandona la ricerca. E’ ovvio che escludere dai motori di ricerca le pagine dedicate alla trasparenza… le rende, diciamo cosi’, molto opache.

Et voila. Ecco realizzata la trasparenza all’italiana. Una trasparenza che non fa vedere molto.


Qualcuno potrebbe obiettare che questa cosa è sì tecnicamente fattibile, ma che in realtà non l’ha fatta nessuno…

Beh, Vittorio Pasteris è andato a leggere sui vari siti i file robots.txt che governano l’esclusione e ha scoperto esclusioni molto interessanti.

  • Il sito del ministero di Brunetta

    E’ stato ovviamente il primo ad essere verificato. Ecco (verifica anche tu)

    User-agent: *
    Disallow:/operazionetrasparenza/

    Ehi, ma che significa? Significa proprio quello che avete pensato. Tutta la sezione del sito che riguarda l’operazione trasparenza non viene indicizzata dai motori di ricerca.

    Beh, comunque qualcosa ancora si trova, ma pian pianino Google eliminerà questi dati.

  • Il sito del Governo

    Ovviamente non può esimersi dal bloccare l’indicizzazione. Ecco il suo robots.txt
    che alle prime righe così recita:

    User-agent: *
    Disallow: /Presidenza/operazione_trasparenza/dirigenti/
    Disallow: /Presidenza/operazione_trasparenza/consulenti
    /

    non male….

Ovviamente, non sono solo quelli i siti bloccati.

  • La regione Lombardia

    Qui per star sul sicuro hanno bloccato tutto…

    User-agent: *
    Disallow: /

  • La regione Friuli Venezia Giulia

    ha un robots.txt lunghissimo, nel quale ritroviamo un po’ di tutto. Ma avranno ottime ragioni per bloccare certe sezioni del sito. Magari sono pagine obsolete…

  • La Regione Liguria invece
    ha provveduto a mettere delle esclusioni specifiche (anche sbagliate)User-agent: googlebot
    Disallow: *.pdf

    User-agent: *
    Disallow: /MenuSezione.asp?Parametri=1_1_2_2500_$1_1_2_2500_$Organigramma$1_1_2_2500_-1$dirigenti_giunta2009.htm$
    Disallow: /MenuSezione.asp?Parametri=1_1_2_2538_$1_1_2_2538_$Organigramma$1_1_2_2538_-1$assenza_presenza_giunta2009.htm$
    Disallow: /operazionetrasparenza/dirigenti_giunta2009/

Diventa anche tu esploratore dei robots.txt

Divertitevi anche voi a scoprire nei siti (non solo quelli della pubblica amministrazione, ma anche quelli dei giornali, ad esempio, come si usa il robots.txt per eliminare le pagine “scomode” dai motori di ricerca.

Come si fa?

Semplicissimo:

  1. Si prende l’url del sito.
    Ad esempio: http://www.gazzettino.it/
  2. Ci si aggiunge “robots.txt” in fondo
    http://www.gazzettino.it/robots.txt
  3. Si copia nella barra degli indirizzi quanto ottenuto.
    http://www.gazzettino.it/robots.txt

    si guarda quello che c’è scritto e si traggono le proprie conclusioni
    In questo caso si deduce che il gazzettino, a differenza dei ministeri, non ha nulla da nascondere

Mi raccomando, se fate qualche scoperta interessante, scrivetela in un commento qui sotto.