Bloquer crawling de son site très facilement

Vous ne le savez peut-être pas, n’importe qui peut récupérer le contenu de votre site et ceux avec une simple commande ou avec un logiciel !

Prenons pour exemple, ce site: Ici.

Donc, on lance le terminal et on fait un « wget » pour crawler le site :

Site une fois crawlé

Site une fois crawlé

 

Vous voulez bloquer le crawling de votre site ? Et bien c’est possible,et c’est facile !

Tout d’abord, créez un fichier « robots.txt » et ensuite mettez dans votre fichier, ce code :

User-agent: * 
Disallow: /

Une fois fait, déplacez le fichier à la racine de votre site et puis retentez de crawler votre site.

Et voila, votre site est maintenant protégé ! On obtient maintenant une simple copie du texte sans images ni CSS.

Site bloquant le crawling

Site bloqué du crawling

Que pensez-vous de cette astuce ? N’hésitez pas à partager l’article ou commenter !

Thomas

http://megablazefun.eu

Passionné d'informatique, de Minecraft, de programmation et bien d'autres choses.

View more posts from this author
5 thoughts on “Bloquer crawling de son site très facilement
  1. leclerc-web

    Aucun intérêt dans le sens ou ça désindexe le site des moteurs de recherche, le site devient donc invisible pour tout le monde, ce qui rend le site complètement inutile car son but premier est tout de même d’attirer du monde …
    ça devrait être stipuler car le nombre de personne qui doivent mettre en place cette méthode doivent être informés sur le fait que leur site ne servira plus à rien.

     
    Reply
    1. Emilien

      Google ne fait pas de crawling par hasard ? Parce que le but de ce tutoriel est tout bonnement d’éviter le crawling et donc éviter que tout bot qui respecte le robots.txt aspire le site web. Il n’a jamais été stipulé dans l’article à quel type de site c’était destiné, il existe de nombreux sites qui ne souhaitent pas être indexé ni cloné sur archive.org par exemple.

       
      Reply

Laissez-nous votre commentaire !

Share This