SEO Pipeline

Cet article explique comment Thinvent génère des pages de requêtes à partir des données de recherche. Notre pipeline SEO traite les requêtes provenant de plusieurs sources, les regroupe, les associe à des produits et génère des pages optimisées pour les moteurs de recherche.

Sources de données

Nous agrégeons les requêtes provenant de plusieurs sources :

  • Google Search Console (GSC) : Requêtes de recherche organique avec impressions et clics

  • Google Ads : Termes de recherche ayant déclenché des annonces payantes

  • Google Ads Keyword Ideas : Suggestions de mots-clés avec volume de recherche

  • Requêtes en direct : Requêtes de recherche en temps réel provenant de notre service de recherche

Ces sources offrent une vue complète de ce que les utilisateurs recherchent, en combinant des données historiques avec des insights en temps réel.

Architecture du pipeline

Le pipeline SEO s'exécute chaque semaine le dimanche et comprend 11 étapes :

flowchart TD
    A[Étape 0 : Intégrer les données sources] --> B[Étape 1a : Récupérer GSC]
    A --> C[Étape 1b : Récupérer Ads]
    A --> D[Étape 1c : Récupérer Keywords]
    A --> E[Étape 1d : Récupérer Live]
    
    B --> G[Étape 2 : Combiner les requêtes]
    C --> G
    D --> G
    E --> G
    
    G --> H[Étape 3a : Générer des phrases de base]
    G --> I[Étape 3b : Intégrer les requêtes]
    
    H --> J[Étape 4 : Étendre les mappages de phrases]
    I --> J
    
    J --> K[Étape 5 : Regrouper les requêtes]
    I --> K
    
    K --> L[Étape 6 : Associer les données sources]
    A --> L
    
    L --> M[Étape 7 : Router les requêtes]
    J --> M
    K --> M
    
    M --> N[Étape 8a : Construire les pages de requêtes]
    K --> O[Étape 8b : Générer les recherches associées]
    
    N --> O[Étape 8b : Générer les recherches associées]

Processus étape par étape

Étape 0 : Intégrer les données sources

Nous intégrons les données produit à l'aide de SentenceTransformer pour créer des embeddings sémantiques. Ces embeddings sont utilisés plus tard pour associer les requêtes aux produits en fonction de la similarité sémantique, et pas seulement du matching par mots-clés.

Étapes 1a-1e : Récupérer les requêtes

Nous récupérons les requêtes de plusieurs sources :

  • Google Search Console (GSC) : Requêtes de recherche organique avec métriques de performance

  • Google Ads : Termes de recherche ayant déclenché des annonces payantes

  • Google Ads Keyword Ideas : Suggestions de mots-clés avec volume de recherche

  • Requêtes en direct : Requêtes de recherche en temps réel provenant de notre service de recherche

Chaque source fournit des insights différents sur l'intention de l'utilisateur.

Étape 2 : Combiner les requêtes

Nous combinons toutes les requêtes en un seul jeu de données, en dédupliquant et en agrégeant des métriques comme les impressions et les clics.

Étapes 3a-3b : Générer des phrases et intégrer

Nous générons des phrases de base à partir des caractéristiques des produits et nous intégrons les requêtes à l'aide de SentenceTransformer. Les mappages de phrases sont utilisés pour extraire les filtres des requêtes de recherche.

Étape 4 : Étendre les mappages de phrases

Nous étendons les mappages de phrases en :

  • Résolvant les collisions mémoire/stockage (par exemple, "8 Go de RAM" vs "8 Go de stockage")

  • Construisant des mappages phrase-à-filtre

  • Extrayant des n-grammes des requêtes

Étape 5 : Regrouper les requêtes

Nous regroupons les requêtes similaires en utilisant la similarité vectorielle. Les requêtes sémantiquement similaires sont regroupées et partageront la même page de requête.

Étape 6 : Associer les données sources

Nous associons les requêtes aux produits en utilisant :

  • La similarité vectorielle entre les embeddings des requêtes et les embeddings des produits

  • L'extraction de filtres à partir des mappages de phrases

  • Le matching des noms de produits

Étape 7 : Router les requêtes

Nous acheminons les requêtes vers les pages appropriées :

  • Trouver les correspondances de famille (par exemple, la famille "Treo")

  • Trouver les correspondances de catégorie (par exemple, la catégorie "Mini PC")

  • Générer des slugs pour les pages de requêtes

Étapes 8a-8b : Construire les pages et les recherches associées

Nous construisons les pages de requêtes et générons les recherches associées :

  • Étape 8a : Construire les pages de requêtes avec des listes de produits

  • Étape 8b : Générer les recherches associées en utilisant la similarité vectorielle

Génération des pages de requêtes

Les pages de requêtes sont générées à l'adresse /q/<slug> et incluent :

  • Titre : Optimisé pour les moteurs de recherche

  • Description : Contenu généré par IA

  • Produits : Produits correspondants les plus pertinents

  • Filtres : Extraits de la requête

  • Recherches associées : Correspondances par similarité sémantique

Génération de contenu par IA

Nous utilisons l'IA pour générer le contenu des pages de requêtes :

  • DeepSeek : Descriptions de produits, contenu des pages de requêtes

  • Prompts système : Pour l'efficacité de la mise en cache

  • Température : 0,7 pour une créativité équilibrée

L'IA génère :

  • Slogan : Titre court et accrocheur

  • Corps : Informations détaillées sur les produits

Support multilingue

Les pages de requêtes prennent en charge plusieurs langues :

  • Anglais (source)

  • Espagnol, Français, Allemand, Italien, Portugais

  • Russe, Hindi, Bengali, Gujarati, Kannada

  • Malayalam, Marathi, Pendjabi, Tamoul, Télougou

  • Arabe, Chinois, Japonais, Coréen

Résumé

Notre pipeline SEO fournit :

  • Données complètes : Multiples sources de requêtes

  • Matching sémantique : Similarité vectorielle pour de meilleures associations

  • Contenu IA : Génération de contenu automatisée

  • Multilingue : Support pour plus de 15 langues

  • Automatisé : Pipeline hebdomadaire avec points de contrôle