Les générateurs de contenus automatiques continuent d’évoluer, notamment avec l’intelligence artificielle (IA) et la démocratisation des «autoregressive language models» comme GPT-3. En effet, vous pouvez désormais créer votre propre contenu qui est automatiquement référencé par les moteurs de recherche, bien que l’IA nécessite une intervention humaine. Comment est-ce que cela impacte notre façon de travailler dans le marketing ?

Dans un premier temps revenons sur le terme « intelligence artificielle » selon la définition du Conseil de l’Europe, il s'agit d' « une discipline jeune d'une soixantaine d’années, qui réunit des sciences, théoriques et techniques (notamment logique mathématique, statistique, probabilités, neurobiologie computationnelle et informatique) et dont le but est de parvenir à faire imiter par une machine les capacités cognitives d’un être humain ».
Qu'est ce qu'un autoregressive language model ?
Pour simplifier, un « modèle autorégressif » en français est simplement un modèle qui prédit les valeurs futures à partir des valeurs passées. Techniquement parlant, il s’agit d’un modèle de Deep Learning, ces modèles de prédiction de langage sont considérés comme un réseau neuronal artificiel (un système dont les schémas ont été inspirés par le fonctionnement des neurones biologiques) doté d’une mémoire à long terme. Ce type de modèle fait partie de la branche de l’intelligence artificielle nommée NPL (Natural Language Processing ou Traitement du langage naturel en français) qui permet aux ordinateurs de comprendre, générer et manipuler le langage humain. C’est-à-dire un algorithme conçu pour recevoir, en entrée, un extrait de langage et le compléter, en sortie, en ce qu’il prédit comme l’extrait de langage le plus pertinent pour l’utilisateur.
Prenons exemple avec GPT-3
GPT3 a remplacé GPT2, sorti en 2019, et représente son évolution la plus aboutie. L’acronyme de « Generative Pre-trained Transformer 3 » est un système de langage intelligent. Il est le résultat d’un projet du département d’intelligence artificielle de la société OpenAI. Ce modèle est mis à disposition des utilisateurs via une API (interface de programmation d’application) depuis juillet 2020. Ce modèle a 175 milliards de paramètres, par rapport à son prédécesseur GPT-2 qui avait 1,5 milliard de paramètres.
Parmi les nombreuses applications en intelligence artificielle, GPT-3 appartient à la catégorie des modèles de prédiction de langage. Le GPT-3 utilise ces algorithmes pour générer du texte. Ils ont été préalablement entraînés à l’aide d’une importante base de données. La quantification du nombre de textes collectés sur Internet pour entraîner ce modèle de NPL génère plus de 570 Go de données. L’essentiel de cette collecte provient des textes de CommonCrawl (60%), WebText2 (22%), Books1 (8%), Books2 (8%) et Wikipédia (3%). En termes simples, il utilise un algorithme « pré-entraîné » pour générer du texte. OpenAI aurait dépensé 4,6 millions de dollars pour mener cette formation. L’algorithme a appris comment les langages sont construits à l’aide de techniques d’analyse sémantique. Cette méthode, également connue en marketing, consiste à étudier non seulement les mots, mais leurs significations et comment leurs combinaisons affectent les autres mots utilisés dans le texte. Cette formation rentre dans la catégorie de Machine Learning « non supervisé ». Les données d’entraînement n’ont pas été pré-étiquetées, autrement dit, pendant la formation, ils n’ont reçu aucune rétroaction quant à savoir si leurs réponses étaient correctes ou incorrectes. GPT-3 détermine que le choix est le « choix correct » en examinant les données d’entrées d’origine. Lorsqu’il sera certain d’avoir trouvé la bonne sortie, il attribuera un « poids » au processus algorithmique qui a produit le bon résultat. De cette façon, il apprend progressivement le processus le plus susceptible de fournir les bonnes réponses. Il est essentiellement la première intelligence artificielle capable de passer le test de Turing (test permettant de vérifier la capacité d’une machine à faire preuve de signes d’intelligence humaine. Encore aujourd’hui, ce test fait figure de standard pour déterminer l’intelligence d’une machine, en dépit de nombreuses critiques formulées au fil des années.) et d’écrire une copie très convaincante en tant qu’humain.
Pour en savoir plus sur le Deep Learning
Comment les modèles de prédictions de langage ont révolutionné la génération de contenu ?
Ils sont capables de compléter un récit à partir de la création d’une phrase, créant ainsi un texte entier. Tout comme ils peuvent avoir la capacité d’écrire sur n’importe quel sujet et peuvent être dirigés pour écrire avec n’importe quelles voix, style ou ton… Par exemple, un texte peut être traduit en langue étrangère, tout comme ils peuvent s’adapter à différents styles d’écritures, comme un roman, de la poésie, des articles, ils peuvent pour certains répondre aux questions que l’on se pose, résumer de longs textes, prendre des notes, rédiger des textes courts. GPT-3 par exemple peut même écrire du code informatique. En effet, dans une vidéo démonstrative postée sur YouTube, l’IA utilise un plugin pour le logiciel Figma (outil pour la conception d’applications et de sites Web) qui permet à GPT-3 de créer une application très similaire à Instagram. Cette nouvelle avancée aura un impact majeur sur l’avenir du développement des logiciels.
Implication dans le marketing de recherche
La création de contenu elle-même est vouée à être complètement transformée avec une adoption généralisée de l’utilisation d’un autoregressive language model. Mais d’autres aspects du marketing numérique seront également fortement impactés. Approximativement, l’intégralité des aspects de la commercialisation des marques et des produits en ligne sera impactée par les modèles de prédictions de langage, sur le paysage global du contenu, du référencement, de la publicité, etc...
Implication dans les moteurs de recherche
Alors que Google annonce que près de 100 % des recherches américaines utilisent désormais BERT (un réseau de transformateur comme GPT-3), il paraît presque évident que l’avenir de la recherche intégrera cette technologie jusqu’à ses limites éventuelles. Le plus grand impact potentiel pourrait prendre la forme d’une amélioration significative de la capacité de Google à générer des résultats de réponse dynamiques et éventuellement à remplacer les extraits de site Web. De plus, l’architecture de ce transformateur n’est pas unique. Au cours des prochaines années, de nombreuses entreprises seront capables de créer des modèles qui pourraient facilement rivaliser avec la qualité de BERT. Si cela se produit, Google pourrait perdre sa position historique de leader en tant que moteur de recherche.
Implications pour les recherches
Si vous associez cette production de contenu à un outil, qui vous aide à identifier les mots-clés, le nombre de mots, etc. dont vous avez besoin pour rivaliser avec la concurrence dans les SERPs (page Web générée par un moteur de recherche), le contenu généré par un modèle de prédiction de langage a de grandes chances d’être classé.
Concernant le référencement, ils résident plutôt pour le moment dans la capacité d’être des assistants de rédaction qui aident à améliorer la vitesse d’écriture de contenu. Malheureusement, il semble que certaines applications liées à ses modèles de prédiction pourraient être néfastes pour l’écosystème de recherche. Certaines fonctionnalités peuvent aider les utilisateurs dans une forme évolutive de spam de tous types que nous n’avons jamais vu auparavant comme :
Sites de blogspam massifs (le contenu écrit ne sera pas inutile, mais il sera rempli d’inexactitudes s’il n’est pas rédigé par un humain)
Astroturfing, désinformation indétectable par l’homme
Manipulation massive des avis humains indétectables par la création évolutive d’avis
Génération de fausses nouvelles à des fins de création de liens ou de médias sociaux
Implications pour le commerce éléctronique
Par exemple, GTP-3 peut permettre de créer des descriptions de produits pour les sites Web de commerce électronique. La création de descriptions de produits complètes et attrayantes est une étape importante, mais chronophage du marketing. Ces modèles seront des alliés pour réduire considérablement le temps et les efforts investis, ce qui permettra de se concentrer sur la recherche, les conversions et les autres aspects du marketing.
Un point négatif est à souligner. En effet, il est envisageable que certains spécialistes du marketing génèrent des critiques de produits en masse, ce qui signifie qu’un mélange avec de vraies critiques humaines justifierait une détérioration de la confiance des critiques sur le Web. Le secteur du commerce électronique est déjà très impacté par ce manque de confiance dans une moindre mesure, il paraît important d’approfondir les moyens de surmonter ce manque d’authenticité avant que le problème ne s’aggrave.
Cela peut-il impacter le SEO ?
Il est essentiel de garder en tête qu’un système d’IA va imiter les données sur lesquelles il est formé. Le référencement est construit en parallèle de la progression des moteurs de recherche, les blogs, les livres et les interviews. Ainsi, l’IA apprendra probablement de tout le contenu SEO disponible. Mais il y a des limites au référencement piloté par l’IA :
Résoudre des problèmes inconnus ou mal documentés.
L’IA ne peut pas trouver de solution avec des données qui ne font pas partie de son analyse.
Prendre en compte toute la matière existante.
Il est actuellement impossible de fournir tous les codes sources et la documentation du projet à un système d’IA pour trouver une réponse précise qui tient compte de toutes les informations existantes.
Réussir à mesurer la vraie qualité d’un contenu ou d’une idée.
Les systèmes d’IA ne fonctionnent pas encore en temps réel et manque d’originalité et de créativité. En tant que telle, la véritable mesure de la qualité du contenu est actuellement minime. Les humains sont les seuls juges de la qualité de contenu. Les IA détectent généralement les spams et les contenus de mauvaise qualité.
En résumé, l’IA a les capacités de surpasser les novices du SEO, mais elle a encore un long chemin à parcourir pour remplacer un expert SEO. Ce qu’il faut retenir c’est que le duo IA et humain restera toujours le meilleur combo, en sachant que l’humain se concentre sur les tâches à plus forte valeur ajoutée.
Quel est l'avenir de GPT-3
OpenAI ne divulgue pas tous les détails sur le fonctionnement de ses algorithmes, n’importe quelle personne qui cherche des réponses ou développe du contenu grâce à GPT-3 ou tout autre modèle de prédiction de langage, doit se demander comment les informations extraites ont-elles été obtenues et si l’on peut vraiment avoir une confiance totale dans ces outils. Le système s’avère malgré tout prometteur, même s’il y a encore des détails à modifier. Il est un outil intéressant pour travailler sur des textes courts ou des applications simples, mais les résultats qu’il produit pour des tâches plus poussées ne sont pas de véritables réponses. Néanmoins, je dois avouer que GPT-3, avec toutes ses limites, a tout de même obtenu des résultats plus que satisfaisants dans un temps relativement court. Mais j’ai réalisé que GPT-3 comme tout autre modèle de prédiction sera un catalyseur clé du changement dans le marketing de contenu et la recherche. Il est important que les praticiens restent informés et explorent les implications de cette technologie pour eux-mêmes, car ils la rencontreront bientôt sous de nombreuses formes différentes.
Sources :
Semruch : https://www.semrush.com/blog/the-biggest-threat-to-seo-isnt-human/
Search Engine Journal : https://www.searchenginejournal.com/seo-experiment-gpt-3/444988/
Yeeply : https://fr.yeeply.com/blog/gpt-3-revolutionnaire-de-lia/
Le big data : https://www.lebigdata.fr/openai-gpt-3-tout-savoir
Comments