Analyse SEO des fichiers PDF

Le format PDF n’a pas été pensé pour le web comme l’a été le HTML. Pourtant, Google réserve bien souvent une place de choix aux fichiers PDF dans ses résultats.
Catégorie : nouvelle fonctionnalité

C’est logique, car de nombreuses informations de grande qualité sont publiées sous ce format. Le PDF est en effet le format privilégié pour publier de nombreux documents officiels, des articles scientifiques ou plus largement tous les documents destinés à être sauvegardés et/ou imprimés (brochure tarifaire, CGU, modes d'emploi, standards divers, consignes de sécurité, etc., etc.). Lors d’une recherche approfondie, la commande filetype:pdf (permettant de ne chercher que des fichiers PDF) donne d’ailleurs souvent des résultats étonnants.

Analyse des PDF par Alyze

Afin de vous aider à mieux comprendre comment Google voit vos fichiers PDF, Alyze se dote d’une fonctionnalité pour les analyser ! Ça se passe exactement comme pour analyser une page web, il suffit d'entrer l'adresse du fichier puis de cliquer sur Analyser.

Mots-clés du document par Alyze
Listes des mots-clés établis à partir du contenu textuel du PDF

L’analyse des PDF ne peut être aussi précise que celle d'une page web. Ce format ne comporte pas de balises clés permettant de « parler » à Google. L’analyse produite par Alyze est donc assez simple comparée à celle des véritables pages web. Si de petites améliorations devaient venir prochainement, on ne peut toutefois pas espérer la même précision que pour l'analyse des pages HTML.

Informations sur le document par Alyze
L'onglet PDF infos affiche des informations utiles sur le fichier PDF : son titre, avec quel logiciel il a été créé, par qui, etc.

SEO et PDF : quelques précisions

En parallèle, gardez en tête ces conseils généraux pour bien référencer vos PDF :

  • Soignez le texte des liens menant vers vos PDF. Comme pour des liens « classiques », il est utile d’y placer les mots-clés que vous voulez attacher au PDF.
  • Le nom de votre fichier PDF doit être explicite. Cela aidera Google et permettra aux utilisateurs des moteurs de recherche d’identifier plus facilement votre document.
  • Placez un titre dans votre document PDF, ça aidera beaucoup Google à présenter votre document et à y attacher les bons mots-clés.
  • Bien sûr, privilégiez le contenu textuel. Si Google sait parfois utiliser des techniques de reconnaissance de caractères, il est beaucoup plus sûr d’insérer directement du texte dans vos PDF.

Enfin, gardez aussi en tête qu’un fichier PDF n’est pas une simple page web de votre site !

  • Si un internaute télécharge votre document pour ne jamais revenir sur votre site, c’est un visiteur perdu. Il faut rédiger votre fichier PDF en fonction. À vous de voir selon votre activité comment inciter l’internaute à revenir vers vous. Les techniques peuvent varier. Vous pouvez faire « votre pub » dans le fichier PDF, éveiller la curiosité, n’y divulguer que des informations partielles, etc. Vous pouvez aussi y faire la promotion (éventuellement rémunérée) de vos partenaires. Le document se suffit alors à lui-même. Attention toutefois, il n’y pas moyen d'y insérer des liens en nofollow.
  • Votre fichier PDF ne doit pas contenir le même texte que les pages de votre site. À défaut, vous connaissez la sentence : duplicate content. Si vous proposez le téléchargement de vos pages en PDF, il est préférable de ne pas les indexer, soit avec une règle dans le fichier robots.txt soit par un entête X-Robots-Tag.
  • Google est une machine à indexer. Il trouve des fichiers de manières parfois étonnantes. Or, le format PDF se prête particulièrement à la publication de documents qui devraient rester confidentiels (contrats, documents payants, études prospectives, etc.). Il faut donc veiller à la confidentialité des documents sensibles. Pour ceux-là, c'est le contraire du SEO : il faut faire en sorte qu'ils ne s'indexent pas. Ici, la technique du fichier robots.txt ou de l'entête X-Robots-Tag est trop faible pour se prémunir légalement. L'accès à ce type de document doit être sécurisé par mot de passe et attention à l'erreur classique qui consiste à sécuriser la page permettant l'accès au document sans sécuriser le document lui-même !

Allez on se remet à coder. Comme dit plus haut, je devrais bientôt apporter des améliorations à l'analyse des PDF sur Alyze. ;-)

– Licence : CC BY-SA