Référencement Google: au risque de l’espace chimérique

Google

Un essai sur le référencement Internet par Google

 

Bonjour, aujourd’hui  je vais vous entretenir d’un mécanisme bien mystérieux et qui a un poids certain sur notre monde actuel : l’algorithme de référencement de Google.

Vous me direz, quelle importance ?

Et pourtant, je vais vous montrer à quel point aussi bien en « butterfly effect » qu’en conséquences directes cet unique algorithme, en réalité en plusieurs parties  est fondamental.

A quoi sert le référencement Internet?

Le référencement Internet est à la base une simple inscription dans des annuaires où l’on déclarait son site simplement sur base de son titre et de son ou ses thématiques mais, très vite a été inventé le « crawler », robot qui surfe en automatique sur les sites Internet pour en lire les méta données (données de description)  et faire des inscriptions automatiques ce qui signifie que sans un fichier robot.txt dédié ou un site lisible uniquement après authentification, vous êtes repris automatiquement, vouloir ou pas.  Déjà ici intervient une nuance importante, si vous ne déclarez pas votre site non indexable, vous êtes référencé d’office et selon leurs règles.

Très vite cependant la guerre va régner dans les métadonnées, le marketing va mettre le chaos et des algorithmes de défense et de pondération vont voir le jour. Cependant Il existait encore une multitude de moteurs de recherche : Seek, Alta Vista, Metacrawler,Lycos, …

La concurrence y était rude, au bénéfice des webmasters et probablement moins des internautes qui avaient une vue plus parcellaire de l’Internet. Toujours est-il que la révolution suivante fut l’indexation  en texte complet qui consiste à lire les premiers mots du site, son titre, ses paramètres de langue, de codage, sa description puis passer la page à un analyseur de contenu qui va en extraire les mots-clefs et les indexer pour le référencement (nuage de mots) tout en indexant désormais aussi l’ensemble du texte pour des critères secondaires.

Quels sont les critères d’un bon référencement ?

Remplir complètement et correctement toutes les métadonnées standards ce qui n’est quasiment plus possible car les technologies de sites couvrent rarement l’ensemble et les standards deviennent parfois contradictoires mais, principalement : titre lisible et en relation d’avec le contenu comportant de 10 à 70 caractères, une balise de description entre 70 et 160 caractères, un renseignement de langue,  un en-tête html syntaxiquement correct et une déclaration du format de texte et de technologie du site derrière. C’est le fer de lance de votre référencement, la base de travail, les mots-clefs sont généralement officiellement ignorés, on les met encore au cas où car la recette précise  des critères est toujours relativement secrète pour deux raisons : éviter les abus marketing et  les site de recherche cherchent à la fois à garder le contrôle mais aussi à avoir des bénéfices en positionnant de manière privilégiée certains sites qui paient pour cela (rappel : ce service étant gratuit pour l’internaute, il faut bien un aspect commercial quelque part pour payer matériel, accès, personnel, recherches de développement, …).

Ensuite vont venir des critères de technologie : mettre les icones Apple et de recherche, des modules pour les smartphones, … Mais c’est une partie essentiellement technologique.

Google va donc venir renifler votre site et faire la synthèse des déclarations, technologies, configuration et contenu afin d’en tirer une image qui recevra une pondération chiffrée sur différents mots-clefs qui seront désormais choisis par l’algorithme de Google et non plus proposés par le webmaster, un plan de site aide aussi à une indexation plus rapide et à proposer aussi une pondération et un tri de vos éléments de site.

L’inscription aux outils Google n’est plus vraiment optionnelle pour être bien référencé, c’est à la fois logique et dangereux car en s’inscrivant chez Google, vous leur ouvrez aussi votre historique de navigation en local sur votre ordinateur mais aussi une possibilité de conserver chez eux une trace de vos activités. D’un autre côté, cette inscription vous donne aussi la possibilité de lier à une zone géographique, des activités, un compte Google+, des outils de webmaster y compris des diagnostics gratuit. N’oubliez pas cependant que inscrit dans ces services, vous avez lié votre identité, parfois validée avec le réel avec votre adresse IP, votre fournisseur Internet n’est donc plus le seul à lier des activités web avec votre propre personne.

Le critère géographique est devenu une obsession Google jusqu’à l’absurde, votre contenu va s’adresser en priorité aux personnes géographiquement intéressées par votre site et aussi liées par la langue, c’est bien pour du commercial,  c’est plus discutable pour de l’informatif, Wikipédia tire son épingle du jeux grâce à son poids mais sinon, globalement, les sites commerciaux ont alors priorité sur les sites d’information ce qui n’est pas toujours l’intérêt d’un public qui veut avant tout s’informer et puis acheter, Google inverse ici les intérêts faisant passer les webmaster avant les internautes.

Quelques tests éclairants :

Premier test : les rankings selon le lieu de connexion

Les 1 et 2 avril 2014, j’ai adressé via Facebook et des listes de discussion, des demandes de mettre le mot « thermographie » dans un moteur de recherche Google, de rechercher : http://www.thethermograpiclibrary.org/, de cliquer dessus et de me renvoyer  la page et la ligne où , langue et position géographique où ce résultat a été trouvé, les résultats furent extrêmement variables, en voici une synthèse des 31 répondants , c’est malheureusement un peu peu mais néanmoins très cohérent :

Nombre Pays Province/Région/Ville Google+ Langue Rang
2 Belgique Brabant y fr 1
2 Belgique Hainaut y fr 2
2 Belgique Bruxelles n fr 14
1 Belgïe Brussel n nl 17
1 Belgien Brüssel n All 181
2 Belgium Brussels n en 27
3 Belgique Brabant n fr 26
4 Belgique Hainaut n fr 23
1 Belgique Liège n fr 23
1 Belgïe Flandre Occidentale n nl 28
1 Belgïe Antwerp n nl 22
2 France Paris n fr 28
2 France Bordeaux n fr 36
1 France Angers n fr 28
1 Luxembourg Luxembourg n en 23
1 Germany Berlin n All 175
1 USA North Carolin n en 36
1 Thailand n Thaï 59
2 Tunisie Tunis n fr 27
31 Total

Á noter que selon les outils webmaster de google, pour le mot « thermographie » avait un ranking moyen 47 pour le site http://www.thethermograpiclibrary.org/.

J’ai dû mettre sur le côté certaines personnes car elles étaient liées à mon profil Google par Google+ ce qui a favorise « fortement » les sites qui y sont inscrits ou décrits. Le test en allemand est faussé parce que la traduction en allemande de thermographie est  très proche et que le navigateur croit à une faute d’orthographe.

Test complémentaire : dans les outils pour Webmaster, les origines géographiques sont rien reprises par Google, il détecte donc  bien les lieux où vous êtes et les sauvegarde de manière multiple.

Second test : le mot ou son abréviation

Taper les mots thermogramme et thermogram dans un navigateur en Français, sur Bruxelles. Ce test est particulier car thermogram est la traduction anglaise de thermogramme, c’est destiné à affoler le navigateur. Hélas c’est réussi,  ce mot est du vocabulaire technique de thermographie, très technique, assez rare : thermogramme va ressortir la page « thermogramme vs image thermique » du site Internet cible en position 11 et thermogram en position 110, l’anglais a donc priorité même si la sélection utilisateur est dans une autre langue. Important dans le choix des mots de son site donc, éviter les anglicismes ou les mots qui peuvent être mélangés avec de l’anglais car même en priorité langue, Google va favoriser l’anglais quand ce n’est pas un nom propre (là ça marche beaucoup mieux).

 

Troisième test :

Taper les termes  « thermographie humaine » qui donne accès à l’article « ABC de la thermographie infrarouge » dans 6 navigateurs différents tous en configurés en français : Internet Exploreur, Firefox, Chrome, Opera, Safari, Android. Résultat : l’article arrive pour les 6 navigateurs en sixième position.

Conclusion, pour tous les navigateurs, du moment que l’on n’est pas authentifié Google, les résultats pour une même recherche sont identiques. On observe aussi que la recherche combinée est beaucoup plus précisée que sur un terme unique, Google favorise donc les sites et recherches précis.

Quatrième test : l’ordre des mots

Taper «lion thermographie » qui amène la fiche lion en première place tandis que « thermographie lion » amène en cinquième position, la même chose avec le couple thermographie&huile.

Conclusion : Google recherche en pas à pas et pas en combinatoire, il va d’abord faire un premier tri sur le premier mot puis soumettre ce résultat au second et ainsi de suite cela se confirme sur d’autres recherches.

Cinquième test :la navigation privée

Taper « lucarne thermographie » et  « lion thermographie »  en mode navigation privée et cliquer sur le site. Résultat : ce trafic est bien détecté par Google dans son rapport mais il semble ne pas le porter en compte par contre dans le rapport de recherche par mot-clé, rapport qui peut aussi avoir plusieurs jours de retard, le temps de concaténer les indicateurs. Donc, pour des raisons diverses, ceux qui sont en navigation privée ne seront pas toujours comptabilisés dans les rapports. Ce qui est en  un sens logique car la navigation privée permet à priori de doper son trafic mais c’est un élément important à prendre en compte pour certains thèmes de site.

Sixième test : vos habitudes forgent vos résultats

Les navigateurs utilisés de manière multiples commencent à favoriser le site de La Librairie de Thermographie, il semble que Google crée une sorte de liste préférentielle basée sur l’usage et qu’il n’est pas facile de nettoyer sauf en mode « privé ». Donc pour votre site Internet depuis vos ordinateurs, votre ranking Internet est bien souvent illusoire mais en prime votre navigateur aussi a une tendance à se focaliser sur vos habitudes.

Septième test : nettoyage

Nettoyer le navigateur de tout historique Google, le remettre à vierge. On est totalement certain lorsqu’allant sur la recherche Google, on est revenu à la langue par défaut au lieu d’une langue personnalisée (en Belgique, c’est le Néerlandais par défaut). On dirait donc qu’il est encore possible de nettoyer son historique (testé sur plusieurs machines dans la même zone, à un moment similaire, avec fournisseurs différents).

Huitième test :les effets du ranking

J’ai un site professionnel sur la thermographie aussi, qui est classé en moyenne Google à 9.5 ce qui signifie que dans la pratique, en Belgique francophone, il est dans les 5 premiers résultats Google.

Or les statistiques sont sans appel  http://www.thethermograpiclibrary.org/  a un rang moyen de 47 et son blog un rang moyen de 59. Le public, lors de ses recherches avec le mot « thermographie », va se voir proposer le site professionnel 802 fois par mois, La Librairie de Thermographie 276 fois et le blog … 5 fois…

Donc, que voyons-nous dans cette affaire : les webmasters qui proposent des sites se battent aussi bien sur des critères publics que secrets et que la préférence linguistique et régionale est assez écrasante, favorisant le commercial. Tout ceci est encore recombiné par une forme de profil utilisateur volatil que Google crée de manière transparente autour de chaque utilisateur ce qui finalement permet d’avoir plus ce que l’on cherche mais cause également de risque de tourner en rond sans plus découvrir de nouvelles choses ou d’être influencé par les personnes qui financent Google qui va forcément plus pousser les pages de ceux qui payent.

Neuvième test: évolution?

Après tous ces tests, est-ce que le ranking a évolué? Il a peu évolué même si la thermographie est un thème peu utilisé en francophonie, il est possible que cela ait favorisé son meilleur référencement mais la technique du click semble illusoire même en tenant compte de l’effet retard de la concaténation. Il est plus probable que les effets retard de l’ancienneté combiné à un site assez vivant étaient alors à l’action.

La crainte de voir le site pénalisé par Google suite à toutes ces bizarreries s’est avérée vaine, il est donc probable que pour recevoir des pénalités Google, il faille vraiment faire très lourd même si le hasard et des différences de sensibilités vis à vis d’un système anglo-saxon peuvent exister.

 Dixième test: les sites de test de ranking

Les programmes de test de ranking ne sont généralement pas très fiables car basés sur des propositions commerciales qui mettent des algorithmes pour sous-évaluer vos sites afin de vous pousser au référencement payant seules exceptions observées: http://www.webrankchecker.com (mais actuellement 15/06/2014 en panne), http://www.positeo.com qui est assez cohérent d’avec les tests utilisateurs, http://www.xml-sitemaps.com/serp-position-tool.html (mais qui ne fait que votre localisation tout en proposant d’assez bon sitemap), http://www.whatsmyserp.com/serpcheck.php semble lui un peu trop optimiste, …

C’est d’ailleurs le problème du test de ranking, votre vision est déformée et la vision des spécialistes souvent déformante pour pousser à la popularité ou à la consommation.

 Onzième test: ce cache que je ne saurais voir!

À un moment donné dans les tests, vous rendez bien compte que vous tournez en rond et que les résultats sont aberratoires, soudain votre site est la star du Web! Or, il n’en est rien, tant votre navigateur que Google ont détecté que vous vous intéressiez essentiellement à un site bien particulier voire quelques uns et ils vont gentiment favoriser cela puisque vous « aimez » cela. Pire encore, des pages entières sont stockées en cache même pour les recherches Google. Résultat?

Non seulement vos nouvelles recherches ne sont plus vues par Google parce que votre navigateur charge la page sans interroger le Web mais également votre accès sur le site ciblé ne sera pas vu par Google mais pas vu non plus par vos éventuels systèmes de compteurs et de monitoring car votre navigateur va créer une copie parcelaire du Web en local sur votre machine et que vous aurez créé, sans vous en rendre compte, une forme d’intranet.

Douzième test: la supériorité tout azimut, un leurre?

Comme montré précédemment, mon site professionnel sur la thermographie (http://www.imagerie-centre.be) a un ranking de 9.5 sur Google général, c’est absolument excellent comme résultat et de 47 pour la Librairie de Thermographie qui lui est un site d’informations générales.

Aïe, là c’est un gros problème, le professionnel est généralement effectivement géographique et que mon site remonte bien en France, en Suisse ou au Canada a peu de sens pourtant je me suis bien inscrit sous Google+ et j’ai une description d’entreprise et de zone géographique ce qui dope le ranking, ce qui est « normal » sauf que cela le dope de manière irraisonnée en proposant ce résultat à des personnes qui n’en ont pas besoin, la preuve:
Site pro: ranking 9.5: vu 802 fois  -> clics 21
Site info: ranking 47: vu 276 fois -> clics 100
Site blog: ranking 59: vu 5 fois -> clics 0

Que nous apprend ce désastre? Que l’algorithme favorise vraiment les professionnels à un point qu’un site d’information considérablement plus lourd (549 pages de contenu dont 300 fort développées et 750 photos) réussit à être dépassé par un petit site d’une cinquantaine de pages et soixantaine de photos, rédigé majoritairement par la même personne. De même, le sites pros passent avant les sites d’information, peu importe la qualité du contenu. Donc que le site professionnel soit aussi « bien » placé a un mauvais impact parce que la majorité du public, on le voit, ne clique pas dessus alors que l’autre site, beaucoup moins bien placé a beaucoup plus de visiteurs puisque d’information.

Treizième test: Wikipedia, la star du web

Le test a été fait d’écrire un article à la manière Wikipédia, avec plus de textes, de mot-clefs, d’images et de profondeur rédactionnelle que l’entrée « thermographie » de Wikipédia. À première vue, rien à faire, il est indétrônable, la masse de l’encyclopédie derrière est tellement puissante que l’algorithme Google est toujours grillé. C’est mérité certes mais on peut regretter que des sites d’information basés sur la même technologie mais axés sur une spécialisation ne passent pas avant le site encyclopédique généraliste. Le facteur temps n’est évidemment pas ici totalement exploré avec un site spécialiste aussi jeune et il existe peut-être aussi un aspect sur le nombre de références au sein d’un article qui n’a pas non plus été testé.

Quatorzième test: laptop PC Windows français

Sans nettoyage de cache, un PC portable français habitué  à Paris donnait finalement les mêmes résultats lors d’un bref séjour en Belgique que si il était resté à Paris, expérience à creuser.

Conclusions générales :

Ces test montrent que Google nous espionne tous et que nous sommes tous ses clients, vouloir ou pas, avec 90 à 95% des recherches Internet en Occident  ils y ont le quasi-monopole et leurs résultats sont bien souvent repris par d’autres sites sauf Yahoo qui s’appuie sur Bing (mais qui mérite bien  d’être boudé malgré les coups de force lors des mises à jour de Windows pour le mettre en moteur de recherche par défaut) . Par contre Google vous crée un interface utilisateur adapté à vos habitudes et besoins avec le risque qu’il favorise néanmoins leurs partenaires commerciaux même sans l’indiquer (en plus des subventionnés en tête de liste et sur le côté qui paient pour être mis en évidence). C’est cet aspect qui permet à Google de véritablement influer sur l’économie et parfois le destin du monde car ils ont un pouvoir de mettre en évidence ou en arrière-plan les éléments qui les arrange.

Google vous aime en tant que webmaster quand vous êtes inscrit chez eux mais cela leur donne également une vision sur tout ce que vous faites, ils semblent cependant relativement honnêtes et ouverts mais favorisent les sites commerciaux au détriment des sites d’information, Wikipédia excepté (mais il a grillé leur algo à cause de son poids démesuré).

Actuellement, c’est donc le titre de votre site, ses url, sa localisation géographique et sa langue qui pèseront le plus lourd.

Attention aux combinaisons  qui vous font perdre toute sécurité comme :

  • Android+Google+Chrome+Google Glass : là c’est bon, vous avez l’expérience complète Google mais vous leur avez aussi donné le contrôle quasi complet de votre vie
  • Safari est adossé à Apple
  • Bing est derrière Yahoo tout en étant une émanation de Microsoft et donc à éviter en combinaison avec Windows et Internet Explorer.
  • ….

Les discrets ont donc intérêt à Firefox ou à Opéra comme navigateur.

Est-ce mauvais ? Pas nécessairement mais c’est dangereux car les scientifiques, les journalistes, les politiques, … Tout le monde utilise Internet et la majorité s’arrête à consulter la première page voire les premières lignes.

On peut aussi regretter que l’âge du site ait autant d’importance même si cet aspect est logique pour contrer les spammings violents sur le Web.

On pourrait aussi se demander si il est sain de laisser tant de pouvoir aux mains d’une seule société commerciale et si il ne faudrait pas créer une forme de Searchpédia sur le modèle de Wikipédia et qui serait libre et exempt d’ancrage commercial et/ou politique.

D’autre part, parfois sous Google il serait intéressé de pouvoir tout désactiver et de ne recevoir que des données brutes ou alors de pouvoir éliminer des paramètres car c’est gênant quand vous faites une recherche de l’étranger et que vous avez des résultats forcés sur la localisation géographique (qu’il n’est plus toujours possible de désactiver).

 Et cet espace chimérique?

Revenons donc à ce titre un peu héroïc fantasy, nous voyons que Google (voire Bing) ont tendance à stocker vos données personnelles, goûts, tendances, … de manière à optimiser les résultats qui vous sont proposés mais vos navigateurs Internet commencent aussi à le faire que ce soit via des cookies non nettoyés ou en interne même. Ce qui amène parfois à l’absurde comme par exemple quand vous voulez compléter une série par l’achat du tome manquant mais que vos recherches vous ressortent essentiellement … ceux que vous avez déjà acheté, un clean du cache s’impose alors, nettement (touche F5 ou encore CTRL+F5).

Chimérique aussi parce que votre position géographique est importante mais pas toujours liée à votre recherche si Wikipedia ne souffre pas de cela, les autres sites, plus petits sont défavorisés et plus liés aux annonceurs locaux, rarement gratuits d’ailleurs. Donc, en se mettant dans la tête d’un américain classique, il n’y a pas de mal, dans cette vision, c’est tout à fait naturel mais force est de constater que si l’on n’y prend pas garde, très vite, ce système tourne fou et tout en croyant accéder à une information libre et internationale, vous finissez par tourner en rond comme un poisson rouge dans son bocal. L’ironie, c’est que les parois de ce bocal seront d’autant plus transparentes qu’elles sont construites par une projection de vous-mêmes basée sur vos habitudes de surf Internet. En gros, vos construisez vous-mêmes vos propres miroirs et œillères.

Cependant, le vrai problème de ces algorithmes Google et de leur évolution est qu »ils flattent tellement notre Ego personnel qu’ils sont difficiles à dénoncer et qu’ils transforment notre expérience du Web à la sensation d’enfiler une bonne vieille chemise ou chaussette  adoucie là où il faut.

 

Je vous laisse ici à vos propres conclusions

 

 

Hugues CREPIN

 

Article publié dans la revue mensuelle ComMensal de mai-juin   de l’association Mensa Be asbl: http://www.mensa.be

 

 

 

Un commentaire

Comments RSS

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :