SEO Pipeline
Cet article explique comment Thinvent génère des pages de requêtes à partir des données de recherche. Notre pipeline SEO traite les requêtes provenant de plusieurs sources, les regroupe, les associe à des produits et génère des pages optimisées pour les moteurs de recherche.
Sources de données
Nous agrégeons les requêtes provenant de plusieurs sources :
-
Google Search Console (GSC) : Requêtes de recherche organique avec impressions et clics
-
Google Ads : Termes de recherche ayant déclenché des annonces payantes
-
Google Ads Keyword Ideas : Suggestions de mots-clés avec volume de recherche
-
Requêtes en direct : Requêtes de recherche en temps réel provenant de notre service de recherche
Ces sources offrent une vue complète de ce que les utilisateurs recherchent, en combinant des données historiques avec des insights en temps réel.
Architecture du pipeline
Le pipeline SEO s'exécute chaque semaine le dimanche et comprend 11 étapes :
flowchart TD
A[Étape 0 : Intégrer les données sources] --> B[Étape 1a : Récupérer GSC]
A --> C[Étape 1b : Récupérer Ads]
A --> D[Étape 1c : Récupérer Keywords]
A --> E[Étape 1d : Récupérer Live]
B --> G[Étape 2 : Combiner les requêtes]
C --> G
D --> G
E --> G
G --> H[Étape 3a : Générer des phrases de base]
G --> I[Étape 3b : Intégrer les requêtes]
H --> J[Étape 4 : Étendre les mappages de phrases]
I --> J
J --> K[Étape 5 : Regrouper les requêtes]
I --> K
K --> L[Étape 6 : Associer les données sources]
A --> L
L --> M[Étape 7 : Router les requêtes]
J --> M
K --> M
M --> N[Étape 8a : Construire les pages de requêtes]
K --> O[Étape 8b : Générer les recherches associées]
N --> O[Étape 8b : Générer les recherches associées]Processus étape par étape
Étape 0 : Intégrer les données sources
Nous intégrons les données produit à l'aide de SentenceTransformer pour créer des embeddings sémantiques. Ces embeddings sont utilisés plus tard pour associer les requêtes aux produits en fonction de la similarité sémantique, et pas seulement du matching par mots-clés.
Étapes 1a-1e : Récupérer les requêtes
Nous récupérons les requêtes de plusieurs sources :
-
Google Search Console (GSC) : Requêtes de recherche organique avec métriques de performance
-
Google Ads : Termes de recherche ayant déclenché des annonces payantes
-
Google Ads Keyword Ideas : Suggestions de mots-clés avec volume de recherche
-
Requêtes en direct : Requêtes de recherche en temps réel provenant de notre service de recherche
Chaque source fournit des insights différents sur l'intention de l'utilisateur.
Étape 2 : Combiner les requêtes
Nous combinons toutes les requêtes en un seul jeu de données, en dédupliquant et en agrégeant des métriques comme les impressions et les clics.
Étapes 3a-3b : Générer des phrases et intégrer
Nous générons des phrases de base à partir des caractéristiques des produits et nous intégrons les requêtes à l'aide de SentenceTransformer. Les mappages de phrases sont utilisés pour extraire les filtres des requêtes de recherche.
Étape 4 : Étendre les mappages de phrases
Nous étendons les mappages de phrases en :
-
Résolvant les collisions mémoire/stockage (par exemple, "8 Go de RAM" vs "8 Go de stockage")
-
Construisant des mappages phrase-à-filtre
-
Extrayant des n-grammes des requêtes
Étape 5 : Regrouper les requêtes
Nous regroupons les requêtes similaires en utilisant la similarité vectorielle. Les requêtes sémantiquement similaires sont regroupées et partageront la même page de requête.
Étape 6 : Associer les données sources
Nous associons les requêtes aux produits en utilisant :
-
La similarité vectorielle entre les embeddings des requêtes et les embeddings des produits
-
L'extraction de filtres à partir des mappages de phrases
-
Le matching des noms de produits
Étape 7 : Router les requêtes
Nous acheminons les requêtes vers les pages appropriées :
-
Trouver les correspondances de famille (par exemple, la famille "Treo")
-
Trouver les correspondances de catégorie (par exemple, la catégorie "Mini PC")
-
Générer des slugs pour les pages de requêtes
Étapes 8a-8b : Construire les pages et les recherches associées
Nous construisons les pages de requêtes et générons les recherches associées :
-
Étape 8a : Construire les pages de requêtes avec des listes de produits
-
Étape 8b : Générer les recherches associées en utilisant la similarité vectorielle
Génération des pages de requêtes
Les pages de requêtes sont générées à l'adresse /q/<slug> et incluent :
-
Titre : Optimisé pour les moteurs de recherche
-
Description : Contenu généré par IA
-
Produits : Produits correspondants les plus pertinents
-
Filtres : Extraits de la requête
-
Recherches associées : Correspondances par similarité sémantique
Génération de contenu par IA
Nous utilisons l'IA pour générer le contenu des pages de requêtes :
-
DeepSeek : Descriptions de produits, contenu des pages de requêtes
-
Prompts système : Pour l'efficacité de la mise en cache
-
Température : 0,7 pour une créativité équilibrée
L'IA génère :
-
Slogan : Titre court et accrocheur
-
Corps : Informations détaillées sur les produits
Support multilingue
Les pages de requêtes prennent en charge plusieurs langues :
-
Anglais (source)
-
Espagnol, Français, Allemand, Italien, Portugais
-
Russe, Hindi, Bengali, Gujarati, Kannada
-
Malayalam, Marathi, Pendjabi, Tamoul, Télougou
-
Arabe, Chinois, Japonais, Coréen
Résumé
Notre pipeline SEO fournit :
-
Données complètes : Multiples sources de requêtes
-
Matching sémantique : Similarité vectorielle pour de meilleures associations
-
Contenu IA : Génération de contenu automatisée
-
Multilingue : Support pour plus de 15 langues
-
Automatisé : Pipeline hebdomadaire avec points de contrôle