Lo standard per l'
esclusione dei robot (Robots Exclusion Standard) è quel sistema che permette ai webmaster e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).
Questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.
Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo
robots.txt . All'interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.
Una volta creato,
il file robots.txt deve essere pubblicato nella directory principale del sito web .
Il file robots.txt utilizza
due regole: User-agent e Disallow.
Il campo
User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte . La sua sintassi è:
User-agent: [nome_dello_spider]
Il campo
Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent . La sintassi è:
Disallow: [nome_del_file_o_della_directory]
Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
User-agent: Alexibot
Disallow: /
User-agent: googlebot
Disallow: /password.html
Disallow: /preferiti.html
Disallow: /documenti/
Disallow: /database/
User-agent: *
Disallow:
Disallow: / ---> blocco per l'intero sito
Disallow: /directory-personale/ ---> blocco della directory [directory-personale] e del relativo contenuto
Disallow: /file-personale.html ---> blocco della pagina [file-personale.html]
User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg ---> rimuove l'immagine [immagine-personale.jpg] da Google Images
User-agent: Googlebot-Image
Disallow: / ---> rimuove tutte le immagine del sito da Google Images
Disallow: /*.mdb$ ---> blocco di tutti i file di tipo [mdb]
Disallow: /asp*/ ---> blocco di tutte le sottodirectory che iniziano con [asp]
Disallow: /*? ---> blocco di tutti gli URL che comprendono un punto interrogativo
Disallow: /*.doc$ ---> blocco di tutti gli URL che terminano con [.doc]