Voici mes différentes suggestions sur Google et quelques fabulations, je vous laisse faire le tri.
Si j’étais Google :
- Je pénaliserais les sites avec des fautes d’orthographe:
Parce que Google au final veut juste “servir ses clients”, des fautes d’orthographe sont une forme d’irrespect et donc je pénaliserais.
- Je pénaliserais les sites ne respectant pas les normes W3C, et cela pour plusieurs raisons.
Parce qu’encore une fois Google veut proposer à ses “clients” des sites corrects visibles sur tout type de navigateur et que ceux qui ne respectent pas les normes W3C ne tiennent pas compte de tous les internautes.
Aussi parce qu’une page valide W3C est plus facile à lire pour un programme informatique (plus simple à parser), et donc il est plus facile d’extraire les différentes informations (titre, balises méta, paragraphe …) et que du coup ça demande moins de temps CPU. Qui dit moins de temps CPU dit moins d’électricité consommée.
- Je vérifierais l’adresse ip du serveur qui héberge.
Je chercherais dans ma base de donnée si d’autres sites existent à cette adresse, ainsi je pourrais savoir si ce serveur est à risques ou pas. Données que je couplerais avec les spam triés par mes données Gmail.
- Je favoriserais les sites encodés en UTF-8
Tout simplement parce que tout est tellement plus simple en utf8, pas de problème d’encodage de caractères, pas de temps CPU gâché en conversion. Si la terre entière était en utf-8 je serais heureux.
- J’appliquerais un OCR à des screenshots des pages textuelles des sites.
Pour comparer le volume de texte que je peux voir et celui que les internautes peuvent voir, parce que je n’aime pas qu’il y ait trop de différences… je n’aime pas qu’on essai de me truander.
- Je n’aimerais pas qu’un site parle de tout et n’importe quoi.
Parce qu’il y a trop de site qui reprennent toutes les informations possibles et imaginables, je préfère la spécialisation.
- J’attendrais d’être sûr qu’un site est utile avant d’indexer les millions de page que je viens de lui crawler.
Afin de satisfaire mes clients utilisateurs, je veux être sûr qu’un contenu est intéressant et publiable avant d’inonder le net de ses pages. Je crawle ses 2 millions de pages mais je n’index pas tout de suite, je ne laisse voir qu’environ 30 000 pages. Ah pardon … j’oubliais je le fais déjà ça… moi j’appelle ça ‘Sandbox’ ou bac à sable. Mais bizarrement le terme de Sandbox est beaucoup utilisé pour d’autres choses…
- J’avantagerais les sites qui présentent un ratio texte/code intéressant.
Quand je crawl des millard de pages, je n’aime pas être obligé de télécharger du javascript, des styles ou autres trucs inutiles, moi je veux du texte et des images. Alors j’avantagerais les sites qui pense à ma consommation d’électricité et qui me font économiser des serveurs. C’est simple j’applique un coefficient avec le ratio (Poids de la page/Longueur des informations récoltés).
- Je pourrais appliquer des milliers de formules compliquées sur la densité des mots dans un texte.
Mais non … juste parce que je préfère laisser les référenceurs imaginer des formules toujours plus complexes.
- J’avantagerais les premiers qui parlent d’un sujet unique.
Parce qu’avoir un “scoop” ça rapporte, le premier (le premier que je crawl) qui parle d’un sujet particulier à le droit d’apparaître avant les autres.
- J’avantagerais les sites avec un favicon
Parce que ça fait plaisir aux internautes et j’adore que les internautes soient contents.
- J’avantagerais les utilisateurs d’analytics
Car je pourrais savoir combien de temps l’internaute reste sur un site, combien de pages il visite… Cela me permettra de connaitre la qualité du site et l’intérêt qu’il suscite.
- Je pénaliserais les sites sur un serveur lent.
Je n’aime pas attendre que le serveur réponde lorsque je crawl je perds du temps. De plus les internautes veulent que cela aille vite.
- Et donc j’aime bien que les serveurs se trouvent dans le même pays que la cible choisie.
Pour les mêmes raison que celle du dessus (elles sont liées), je préfère qu’un choix soit fait au niveau de la portée du public du site et que le serveur se trouve géographiquement dans le pays désigné.
Je vais m’arrêter là parce que je ne suis pas Google et si j’étais Google je n’aimerais pas que l’on parle trop de moi 
\\ tags:
Google,
référencement,
Référencement naturel