IL FILE ROBOTS.TXT


Lo standard per l' esclusione dei robot (Robots Exclusion Standard) è quel sistema che permette ai webmaster e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).

Questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.

Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo robots.txt . All'interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.
Una volta creato, il file robots.txt deve essere pubblicato nella directory principale del sito web .

Il file robots.txt utilizza due regole: User-agent e Disallow.
Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte . La sua sintassi è:
User-agent: [nome_dello_spider]                

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent . La sintassi è:
Disallow: [nome_del_file_o_della_directory]                
Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
User-agent: Alexibot
Disallow: /
User-agent: googlebot Disallow: /password.html Disallow: /preferiti.html Disallow: /documenti/ Disallow: /database/
User-agent: * Disallow:

Disallow: / ---> blocco per l'intero sito

Disallow: /directory-personale/ ---> blocco della directory [directory-personale] e del relativo contenuto

Disallow: /file-personale.html ---> blocco della pagina [file-personale.html]

User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg ---> rimuove l'immagine [immagine-personale.jpg] da Google Images

User-agent: Googlebot-Image
Disallow: / ---> rimuove tutte le immagine del sito da Google Images

Disallow: /*.mdb$ ---> blocco di tutti i file di tipo [mdb]

Disallow: /asp*/ ---> blocco di tutte le sottodirectory che iniziano con [asp]

Disallow: /*? ---> blocco di tutti gli URL che comprendono un punto interrogativo

Disallow: /*.doc$ ---> blocco di tutti gli URL che terminano con [.doc]

Autore: Fabrizio De Odorico

TAGS: Configurazione, Disallow, Pagina, Robots.txt, Spider, User-agent

Postato il 27/01/2013 | Invia ad un amico  |   Versione stampabile  |   Aggiungi ai preferiti  |   Visite: 3183  |   Contattami su whatsapp

Modulo Login

 

 

 

 

 

Vuoi offrirmi un caffè?

Se trovi utili i miei articoli o vuoi aiutarmi ad aggiungere altro materiale sul sito...

fai una Donazione

Terminologia

La piattaforma .Net è una suite di prodotti creata dalla Microsoft dove i vari linguaggi di programmazione sono orientati agli oggetti (da C# a Visual Basic a J#).
Il bytecode di .NET viene compilato al momento dell'esecuzione (just in time compilation) ed è compatibile con le sole piattaforme Windows.

Java è un linguaggio di programmazione orientato agli oggetti creato dalla Sun Microsystems.
Il bytecode, generato dalla compilazione, viene interpretato dalla Java Virtual Machine in fase di esecuzione. Per questo motivo le applicazioni java sono indipendenti dall'hardware sulle quali vengono eseguite.