Lo standard per l'esclusione dei robot (Robots Exclusion Standard) è quel sistema che permette ai webmaster e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).
Questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.
Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo robots.txt. All'interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.
Una volta creato, il file robots.txt deve essere pubblicato nella directory principale del sito web.

Il file robots.txt utilizza due regole: User-agent e Disallow.
Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è:

                        
User-agent: [nome_dello_spider]                
                    

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi è:

                        
Disallow: [nome_del_file_o_della_directory]                
                    

Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.
Successivamente, potete analizzare altri esempi singoli.

                        
User-agent: Alexibot
Disallow: /

User-agent: googlebot
Disallow: /password.html
Disallow: /preferiti.html
Disallow: /documenti/
Disallow: /database/

User-agent: *
Disallow:               
                        
                    
                        
Disallow: /                                 ---> blocco per l'intero sito

Disallow: /directory-personale/             ---> blocco della directory [directory-personale] e del relativo contenuto

Disallow: /file-personale.html              ---> blocco della pagina [file-personale.html]

User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg  ---> rimuove l'immagine [immagine-personale.jpg] da Google Images

User-agent: Googlebot-Image
Disallow: /                                 ---> rimuove tutte le immagine del sito da Google Images

Disallow: /*.mdb$                           ---> blocco di tutti i file di tipo [mdb]

Disallow: /asp*/                            ---> blocco di tutte le sottodirectory che iniziano con [asp]

Disallow: /*?                               ---> blocco di tutti gli URL che comprendono un punto interrogativo

Disallow: /*.doc$                           ---> blocco di tutti gli URL che terminano con [.doc]