Forum Rank Seo

Forum SEO pour webmasters et blogueurs !

 


  • Publicités

Empêcher le vol de contenu sur votre site

Ici, c'est les moteurs de recherche en général, pour mieux les connaitres, les utiliser, etc...

Empêcher le vol de contenu sur votre site

Message par weboost » 28 Fév 2015, 10:40

Voici un bout de code à placer dans son .htaccess afin de se prémunir contre le vol de contenu(automatique) sur votre site.
En fait je me suis aperçu que 90%(ceci est un chiffre fictif) des sites ne sont pas protégés :D

Mettre ce code au début de votre fichier .htaccess (à la racine du site)

Code : Tout sélectionner
RewriteEngine On
RewriteBase /


Puis:

Code : Tout sélectionner
#Bots SEO
RewriteCond %{HTTP_USER_AGENT} ^(rogerbot|exabot|mj12bot|dotbot|gigabot|ahrefsbot|sitebot) [NC,OR]

# IF THE UA STARTS WITH THESE
RewriteCond %{HTTP_USER_AGENT} ^(aesop_com_spiderman|alexibot|backweb|bandit|batchftp|bigfoot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(black.?hole|blackwidow|blowfish|botalot|buddy|builtbottough|bullseye) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(cheesebot|cherrypicker|chinaclaw|collector|copier|copyrightcheck) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(cosmos|crescent|curl|custo|da|diibot|disco|dittospyder|dragonfly) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(drip|easydl|ebingbong|ecatch|eirgrabber|emailcollector|emailsiphon) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(emailwolf|erocrawler|exabot|eyenetie|filehound|flashget|flunky) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(frontpage|getright|getweb|go.?zilla|go-ahead-got-it|gotit|grabnet) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(grafula|harvest|hloader|hmview|httplib|httrack|humanlinks|ilsebot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(infonavirobot|infotekies|intelliseek|interget|iria|jennybot|jetcar) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(joc|justview|jyxobot|kenjin|keyword|larbin|leechftp|lexibot|lftp|libweb) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(likse|linkscan|linkwalker|lnspiderguy|lwp|magnet|mag-net|markwatch) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(mata.?hari|memo|microsoft.?url|midown.?tool|miixpc|mirror|missigua) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(mister.?pix|moget|mozilla.?newt|nameprotect|navroad|backdoorbot|nearsite) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(net.?vampire|netants|netcraft|netmechanic|netspider|nextgensearchbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(attach|nicerspro|nimblecrawler|npbot|octopus|offline.?explorer) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(offline.?navigator|openfind|outfoxbot|pagegrabber|papa|pavuk) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(pcbrowser|php.?version.?tracker|pockey|propowerbot|prowebwalker) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(psbot|pump|queryn|recorder|realdownload|reaper|reget|true_robot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(repomonkey|rma|internetseer|sitesnagger|siphon|slysearch|smartdownload) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(snake|snapbot|snoopy|sogou|spacebison|spankbot|spanner|sqworm|superbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(superhttp|surfbot|asterias|suzuran|szukacz|takeout|teleport) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(telesoft|the.?intraformant|thenomad|tighttwatbot|titan|urldispatcher) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(turingos|turnitinbot|urly.?warning|vacuum|vci|voideye|whacker) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(libwww-perl|widow|wisenutbot|wwwoffle|xaldon|xenu|zeus|zyborg|anonymouse) [NC,OR]
 
# STARTS WITH WEB
RewriteCond %{HTTP_USER_AGENT} ^web(zip|emaile|enhancer|fetch|go.?is|auto|bandit|clip|copier|master|reaper|sauger|site.?quester|whack) [NC,OR]
 
# ANYWHERE IN UA -- GREEDY REGEX
RewriteCond %{HTTP_USER_AGENT} ^.*(craftbot|download|extract|stripper|sucker|ninja|clshttp|webspider|leacher|collector|grabber|webpictures).*$ [NC]
 
RewriteRule . - [F,L]


Edit: J'avais omis la dernière ligne :fouet:
et j'ai rajouté majestic et ahrefs
Vous pouvez remplacer la dernière ligne
Code : Tout sélectionner
RewriteRule . - [F,L]

par une page piege:
Code : Tout sélectionner
RewriteRule ^(.*)$ /jetemmerde.php


Ajoutez aussi ceci dans votre fichier robots.txt:

Code : Tout sélectionner

User-agent: Slurp
Disallow: /

User-agent: Teoma
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: exabot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: gigabot
Disallow: /

User-agent: AhrefsBot
Disallow: /


Modifié en dernier par weboost le 20 Mars 2015, 14:02, modifié 2 fois.
"Se réunir est un début, rester ensemble est un progrès, travailler ensemble est la réussite." H. Ford
"C'est pas encore gagné" WeBoost
Avatar de l’utilisateur
weboost
V.I.P
V.I.P
 
Message(s) : 437
Enregistré le: 07 Sep 2013, 13:53
A remercié: 19 fois
Remercié: 93 fois

Publicités

Re: Empêcher le vol de contenu sur votre site

Message par Jimcail » 28 Fév 2015, 11:23

Merci pour le partage Riko
Après exemple.com exemple.pro et puis c'est tout !
Avatar de l’utilisateur
Jimcail
Administrateur
Administrateur
 
Message(s) : 4092
Enregistré le: 08 Juin 2013, 16:38
Localisation : Angers
A remercié: 548 fois
Remercié: 261 fois

Re: Empêcher le vol de contenu sur votre site

Message par Buldozer » 28 Fév 2015, 12:11

Merci pour le partage.
Te serait-il possible d'expliquer ce que cela empêche ?
Je pense que cela empêche que la personne puisse afficher une image stockée chez moi sur son site et ainsi, utiliser ma bande passante.
J'ai l'impression que cela évite aussi la récupération d'emails par des bots, il bloque les aspirateurs de sites.
Pour le reste, aucune idée
Si vous recherchez des informations sur le membre Buldozer, venez consulter ma fiche.
Avatar de l’utilisateur
Buldozer
V.I.P
V.I.P
 
Message(s) : 1020
Enregistré le: 09 Juin 2013, 20:48
A remercié: 99 fois
Remercié: 85 fois

Re: Empêcher le vol de contenu sur votre site

Message par Hikaru » 28 Fév 2015, 12:54

Merci Riko :kiss:
Avatar de l’utilisateur
Hikaru
Newbies
Newbies
 
Message(s) : 58
Enregistré le: 29 Oct 2013, 11:46
A remercié: 1 fois
Remercié: 6 fois

Re: Empêcher le vol de contenu sur votre site

Message par Jimcail » 28 Fév 2015, 13:02

Wouhaaa riko, ta réussi a ramener Farid, ca fait un bail, salut l'ami ;)
Annuaire sous Vlinks Climate Adaptation Directory
Avatar de l’utilisateur
Jimcail
Administrateur
Administrateur
 
Message(s) : 4092
Enregistré le: 08 Juin 2013, 16:38
Localisation : Angers
A remercié: 548 fois
Remercié: 261 fois

Re: Empêcher le vol de contenu sur votre site

Message par mbouchaud » 28 Fév 2015, 13:20

Merci Riko pour le partage, c'est toi l'expert :-)

Personnellement, j'avais récupéré le code suivant.

Code : Tout sélectionner
##
RewriteCond %{HTTP_USER_AGENT} ^-?$ [OR] ## ANONYMES
RewriteCond %{HTTP_USER_AGENT} ^[bcdfghjklmnpqrstvwxz\ ]{8,}|^[0-9a-z]{15,}|^[0-9A-Za-z]{19,}|^[A-Za-z]{3,}\ [a-z]{4,}\ [a-z]{4,} [OR] ## CEUX QUI INVENTENT DES NOMS AU HASARD
RewriteCond %{HTTP_USER_AGENT} ^<sc|<\?|^adwords|@nonymouse|Advanced\ Email\ Extractor|almaden|anonymous|Art-Online|autoemailspider|blogsearchbot-martin|CherryPicker|compatible\ \;|Crescent\ Internet\ ToolPack|Digger|DirectUpdate|Download\ Accelerator|^eCatch|echo\ extense|EmailCollector|EmailWolf|Extractor|flashget|frontpage|Go!Zilla|grub\ crawler|HTTPConnect|httplib|HttpProxy|HTTP\ agent|HTTrack|^ia_archive|IDBot|id-search|Indy\ Library|^Internet\ Explorer|^IPiumBot|Jakarta\ Commons|^Kapere|Microsoft\ Data|Microsoft\ URL|^minibot\(NaverRobot\)|^Moozilla|^Mozilla$|^MSIE|MJ12bot|Movable\ Type|NICErsPRO|^NPBot|Nutch|Nutscrape/|^Offline\ Explorer|^Offline\ Navigator|OmniExplorer|^Program\ Shareware|psycheclone|PussyCat|PycURL|python|QuepasaCreep|SiteMapper|Star\ Downloader|sucker|SurveyBot|Teleport\ Pro|Telesoft|TrackBack|Turing|TurnitinBot|^user|^User-Agent:\ |^User\ Agent:\ |vobsub|webbandit|WebCapture|webcollage|WebCopier|WebDAV|WebEmailExtractor|WebReaper|WEBsaver|WebStripper|WebZIP|widows|Wysigot|Zeus|Zeus.*Webster [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
#
RewriteCond %{HTTP_USER_AGENT} ^<sc|<\?|8484\ Boston\ Project|autoemailspider|@nonymouse|ADSARobot|Advanced\ Email\ Extractor|^adwords|ah-ha|aktuelles|amzn_assoc|Anarchie|anonymous|Art-Online|ASPSeek|ASSORT|ATHENS|Atomz|attach|autoemailspider|BackWeb|Bandit|BatchFTP|bdfetch|big.brother|BlackWidow|blogsearchbot-martin|bmclient|Boston\ Project|BravoBrian\ SpiderEngine\ MarcoPolo|Bullseye|bumblebee|capture|CherryPicker|ChinaClaw|CICC|clipping|compatible\ \;|Crescent|Crescent\ Internet|Custo|cyberalert|Deweb|diagem|Digger|Digimarc|DIIbot|DirectUpdate|disco|DISCoFinder|Downloader|Download\ Accelerator|Download\ Demon|Download\ Wonder|Drip|DSurf15a|DTS.Agent|EasyDL|eCatch|echo\ extense|ecollector|efp@gmx\.net|EirGrabber|EmailCollector|EmailSiphon|Email\ Siphon|EmailWolf|Email\ Extractor|Express\ WebPictures|ExtractorPro [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} EyeNetIE|fastlwspider|FavOrg|Favorites\ Sweeper|^Fetch|FEZhead|FileHound|flashget|FlashGet\ WebWasher|FlickBot|fluffy|frontpage|GalaxyBot|Generic|Getleft|GetRight|GetSmart|GetWeb!|GetWebPage|gigabaz|Girafabot|Go!Zilla|go-ahead-got-it|GornKer|Grabber|GrabNet|Grafula|Green\ Research|grub-client|grub\ crawler|hanzoweb|Harvest|hhjhj@yahoo|hloader|HMView|HomePageSearch|HTTPConnect|httpdown|httplib|HttpProxy|HTTP\ agent|http\ generic|HTTrack|ia_archive|IBM_Planetwide|IDBot|id-search|imagefetch|Image\ Stripper|Image\ Sucker|IncyWincy|Indy\ Library|informant|Ingelin|InterGET|InternetLinkAgent|InternetSeer\.com|^Internet\ Explorer|Internet\ Ninja|IPiumBot|Iria|Irvine|Jakarta\ Commons|JBH*Agent [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} JetCar|JOC|JOC\ Web\ Spider|JustView|Kapere|KWebGet|Lachesis|larbin|LeechFTP|LexiBot|lftp|likse|Link*Sleuth|LINKS\ ARoMATIZED|LinkWalker|Mac\ Finder|Mag-Net|Magnet|Mass\ Downloader|MCspider|Microsoft\ URL|Microsoft\ Data|MIDown\ tool|minibot\(NaverRobot\)|Mirror|Missigua|Mister\ PiX|MJ12bot|MMMtoCrawl\/UrlDispatcherLLL|Movable\ Type|Moozilla|^Mozilla$|^MSIE|Murzillo|MSProxy|multithreaddb|nationaldirectory|Navroad|NearSite|NetAnts|NetCarta|NetMechanic|netprospector|NetResearchServer|NetSpider|NetZIP|NetZippy|NetZip\ Downloader|Net\ Vampire|NEWT|nicerspro|NICErsPRO|NPBot|Nutch|Nutscrape/|Octopus|Offline\ Explorer|Offline\ Navigator|OmniExplorer|OpaL|Openfind|OpenTextSiteCrawler [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} OrangeBot|PackRat|PageGrabber|Papa\ Foto|pavuk|pcBrowser|PersonaPilot|PingALink|Pockey|Program\ Shareware|Proxy|psbot|PSurf|psycheclone|^puf|Pump|PushSite|PussyCat|PycURL|python|QRVA|QuepasaCreep|RealDownload|Reaper|Recorder|ReGet|replacer|RepoMonkey|almaden|Robozilla|Rover|RPT-HTTPClient|Rsync|SearchExpress|searchhippo|searchterms\.it|Second\ Street\ Research|Seeker|Shai|sitecheck|SiteMapper|SiteSnagger|SlySearch|SmartDownload|snagger|SpaceBison|Spegla|SpiderBot|SqWorm|Star\ Downloader|Stripper|sucker|SuperBot|SuperHTTP|Surfbot|SurfWalker|SurveyBot|Szukacz|tAkeOut|tarspider|Teleport\ Pro|Telesoft|Templeton|TrackBack|TrueRobot|Turing|TurnitinBot [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} TV33_Mercator|UIowaCrawler|URL_Spider_Pro|^user|^User\ Agent:\ |^User-Agent:\ |UtilMind|Vacuum|vagabondo|vayala|visibilitygap|vobsub|VoidEYE|vspider|w3mir|WebaltBot|WebAuto|webbandit|WebCapture|Webclipping|webcollage|webcollector|WebCopier|webcraft@bea|WebDAV|webdevil|webdownloader|Webdup|WebEmailExtractor|WebFetch|WebGo\ IS|WebHook|Webinator|WebLeacher|WEBMASTERS|WebMiner|WebMirror|webmole|WebReaper|WebSauger|WEBsaver|Website\ eXtractor|Website\ Quester|WebSnake|Webster|WebStripper|websucker|webvac|webwalk|webweasel|WebWhacker|WebZIP|Web\ Data\ Extractor|Web\ Downloader|Web\ Image\ Collector|Web\ Sucker|web\.by\.mail|whizbang|WhosTalking|Widow|Widows|WISEbot|WISEnutbot|WUMPUS|Wweb|WWWOFFLE|Wysigot|x-Tractor|Xaldon\ WebSpider|XGET|Yandex|Zeus|Zeus.*Webster [NC] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} ^curl|^Fetch\ API\ Request|GT\:\:WWW|^HTTP\:\:Lite|httplib|^Java/1.|^Java\ 1.|^LWP|libWeb|libwww|^PEAR|PECL\:\:HTTP|PHPCrawl|^Program\ Shareware|python|Rsync|Snoopy|^URI\:\:Fetch|WebDAV|^Wget [NC] ## BIBLIOTHEQUES / CLASSES HTTP DONT ON NE VEUT PAS. ATTENTION, CELA PEUT BLOQUER CERTAINES FONCTIONS DE VOTRE CMS. NE PAS TOUT EFFACER, MAIS CHERCHEZ LE NOM DE LA CLASSE HTTP CONCERNEE (DEMANDEZ AUX DEVELOPPEURS DE VOTRE CMS). CETTE LISTE BLOQUE 80% DES ROBOTS SPAMMEURS. IL FAUT LA CONSERVER.
#


A ton avis, est-ce que je peux fusionner l'ensemble des lignes ?
Est-ce que cela ne ralenti pas trop le site ?

Merci pour ton retour
Avatar de l’utilisateur
mbouchaud
Membre Certifié
Membre Certifié
 
Message(s) : 568
Enregistré le: 15 Sep 2013, 07:24
Localisation : Pornichet
A remercié: 85 fois
Remercié: 74 fois

Re: Empêcher le vol de contenu sur votre site

Message par jeromeweb » 01 Mars 2015, 12:01

Merci pour le partage (pour info, le script bloque Xenu mais avec ce logiciel tu ne peux pas recuperer du contenu, juste crawler)
Mon blog web, seo et telephonie mobile : jeromeweb.net
Avatar de l’utilisateur
jeromeweb
Habitué
Habitué
 
Message(s) : 112
Enregistré le: 07 Nov 2013, 23:43
Localisation : IDF
A remercié: 14 fois
Remercié: 16 fois

Re: Empêcher le vol de contenu sur votre site

Message par weboost » 01 Mars 2015, 20:50

mbouchaud a écrit:A ton avis, est-ce que je peux fusionner l'ensemble des lignes ?
Est-ce que cela ne ralenti pas trop le site ?

Merci pour ton retour

Tu peux fusionner mais il y aura surement des doublons, celà dit ton code est pas mal du tout.
Pour ce qui de la vitesse du site, bien au contraire en virant ces bad bot tu éviteras qu'ils te bouffent des ressources pour rien.

jeromeweb a écrit: le script bloque Xenu mais avec ce logiciel tu ne peux pas recuperer du contenu, juste crawler


Oui en effet, j'aurai dû plutôt appeler çà "liste de bad bot".
"Se réunir est un début, rester ensemble est un progrès, travailler ensemble est la réussite." H. Ford
"C'est pas encore gagné" WeBoost
Avatar de l’utilisateur
weboost
V.I.P
V.I.P
 
Message(s) : 437
Enregistré le: 07 Sep 2013, 13:53
A remercié: 19 fois
Remercié: 93 fois

Re: Empêcher le vol de contenu sur votre site

Message par Cyd » 03 Mars 2015, 11:34

Merci pour le partage Riko, je vais aller tester ça !
SEO Junky et accro Excel !
Retrouvez-moi en détail ici.
Avatar de l’utilisateur
Cyd
V.I.P
V.I.P
 
Message(s) : 1668
Enregistré le: 14 Juin 2013, 16:20
Localisation : Rennes
A remercié: 106 fois
Remercié: 150 fois

Re: Empêcher le vol de contenu sur votre site

Message par weboost » 20 Mars 2015, 14:04

Modifications faites sur le code, celui-ci doit être pas mal maintenant.
Si quelque'un a un domaine vierge pour tester çà ce serait top.
"Se réunir est un début, rester ensemble est un progrès, travailler ensemble est la réussite." H. Ford
"C'est pas encore gagné" WeBoost
Avatar de l’utilisateur
weboost
V.I.P
V.I.P
 
Message(s) : 437
Enregistré le: 07 Sep 2013, 13:53
A remercié: 19 fois
Remercié: 93 fois

Re: Empêcher le vol de contenu sur votre site

Message par ref19 » 20 Mars 2015, 14:10

Héhé, j'aime bien la dernier ligne lol

j'vais la mettre avec un certain plaisir :lol: :lol:

Merci RiKo :app:
Avatar de l’utilisateur
ref19
Membre Certifié
Membre Certifié
 
Message(s) : 1224
Enregistré le: 08 Juin 2013, 20:15
A remercié: 38 fois
Remercié: 46 fois

Re: Empêcher le vol de contenu sur votre site

Message par lapido » 20 Mars 2015, 17:28

Merci c'est toujours bon à savoir et à garder !
Découvrir le CMS joomla une autre façon de voir le web
référencement et formation avec joomla
Avatar de l’utilisateur
lapido
Newbies
Newbies
 
Message(s) : 29
Enregistré le: 15 Déc 2014, 17:39
A remercié: 17 fois
Remercié: 4 fois

Re: Empêcher le vol de contenu sur votre site

Message par jeromeweb » 28 Déc 2015, 11:03

Hello,
En fait le htaccess ne fonctionne pas sur tous les sites sur lesquels j'ai testé sur OVH (j'ai été induit en erreur car j'avais couplé avec un robots.txt)

@weboost, cette ligne ça ne peut pas fonctionner car on dit "si le user agent comment par" alors que le user agent de majestic par exemple c'est "Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"
RewriteCond %{HTTP_USER_AGENT} ^(rogerbot|exabot|mj12bot|dotbot|gigabot|ahrefsbot|sitebot) [NC,OR]

En faisant ça fonctionne très bien par contre en faisant ainsi :
RewriteCond %{HTTP_USER_AGENT} ^.*(rogerbot|exabot|mj12bot|dotbot|gigabot|ahrefsbot|sitebot) [NC,OR]
(en fait il faut garder la logique de la dernière condition : # ANYWHERE IN UA -- GREEDY REGEX)
Il faut le faire pour toutes les lignes en fait

Il y en a qui ont réussi à le faire fonctionner en l'état chez OVH ou ailleurs?

Ciao
Mon blog web, seo et telephonie mobile : jeromeweb.net
Avatar de l’utilisateur
jeromeweb
Habitué
Habitué
 
Message(s) : 112
Enregistré le: 07 Nov 2013, 23:43
Localisation : IDF
A remercié: 14 fois
Remercié: 16 fois

Re: Empêcher le vol de contenu sur votre site

Message par Cyd » 29 Déc 2015, 09:06

jeromeweb a écrit:Cette ligne ça ne peut pas fonctionner car on dit "si le user agent comment par" alors que le user agent de majestic par exemple c'est "Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)"
RewriteCond %{HTTP_USER_AGENT} ^(rogerbot|exabot|mj12bot|dotbot|gigabot|ahrefsbot|sitebot) [NC,OR]

Salut Jérôme, tu es sûr de toi pour le User Agent Majestic ? Parce que quand on regarde ici : http://www.majestic12.co.uk/projects/ds ... j12bot.php, Majestic indique bien cette méthode pour bloquer le bot :
Code : Tout sélectionner
User-agent: MJ12bot
Disallow: /

D'autre part, j'ai déjà testé un cloaking sur cet UA et cela fonctionne parfaitement.
SEO Junky et accro Excel !
Retrouvez-moi en détail ici.
Avatar de l’utilisateur
Cyd
V.I.P
V.I.P
 
Message(s) : 1668
Enregistré le: 14 Juin 2013, 16:20
Localisation : Rennes
A remercié: 106 fois
Remercié: 150 fois

Re: Empêcher le vol de contenu sur votre site

Message par jeromeweb » 29 Déc 2015, 12:08

Le htaccess prend l'UA ($_SERVER['HTTP_USER_AGENT'] en PHP) et le robots.txt prend un nom générique du bot (donné par les sociétés)
La ligne que j'ai écrite plus haut c'est récupéré des logs apache, donc la réalité
Mon blog web, seo et telephonie mobile : jeromeweb.net
Avatar de l’utilisateur
jeromeweb
Habitué
Habitué
 
Message(s) : 112
Enregistré le: 07 Nov 2013, 23:43
Localisation : IDF
A remercié: 14 fois
Remercié: 16 fois

Re: Empêcher le vol de contenu sur votre site

Message par Cyd » 29 Déc 2015, 12:15

Au temps pour moi, tu as raison. A vrai dire, je ne passe ni par le .htaccess ni par le robots.txt mais j'utilise ceci en PHP :

Code : Tout sélectionner
$majestic=stripos($_SERVER["HTTP_USER_AGENT"],"MJ12bot");

mais cela fonctionne car à priori on recherche simplement la chaîne de caractère MJ12bot dans le nom de l'UA.
SEO Junky et accro Excel !
Retrouvez-moi en détail ici.
Avatar de l’utilisateur
Cyd
V.I.P
V.I.P
 
Message(s) : 1668
Enregistré le: 14 Juin 2013, 16:20
Localisation : Rennes
A remercié: 106 fois
Remercié: 150 fois

Re: Empêcher le vol de contenu sur votre site

Message par ref19 » 29 Déc 2015, 20:01

Voila un déterrage intéressant,
Weboost m'avait donné ce code pour le concours pinguinalité
Je l'ai laissé depuis.

Vais peut être pouvoir l'affiner :)
Avatar de l’utilisateur
ref19
Membre Certifié
Membre Certifié
 
Message(s) : 1224
Enregistré le: 08 Juin 2013, 20:15
A remercié: 38 fois
Remercié: 46 fois

Re: Empêcher le vol de contenu sur votre site

Message par jeromeweb » 30 Déc 2015, 13:06

Cyd a écrit:
Code : Tout sélectionner
$majestic=stripos($_SERVER["HTTP_USER_AGENT"],"MJ12bot");

mais cela fonctionne car à priori on recherche simplement la chaîne de caractère MJ12bot dans le nom de l'UA.

C'est ça!
L'avantage du htaccess c'est que ça fonctionne partout où tu as apache, même sur de sites statiques ;-)
Mon blog web, seo et telephonie mobile : jeromeweb.net
Avatar de l’utilisateur
jeromeweb
Habitué
Habitué
 
Message(s) : 112
Enregistré le: 07 Nov 2013, 23:43
Localisation : IDF
A remercié: 14 fois
Remercié: 16 fois


Retour vers Les moteurs de recherche



 


  • Articles en relation
    Réponses
    Consultation(s)
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum : Google [Bot] et 1 invité

  • Publicités

Webmaster Jimcail.fr

Propulsé par phpBB® Forum Software © phpBB Group • Traduit par phpBB-fr.com
phpBB SEO
Theme created by StylerBB.net