SEO-Pipeline

Dieser Artikel erklärt, wie Thinvent Abfrageseiten aus Suchdaten generiert. Unsere SEO-Pipeline verarbeitet Abfragen aus mehreren Quellen, gruppiert sie, ordnet sie Produkten zu und generiert optimierte Seiten für Suchmaschinen.

Datenquellen

Wir aggregieren Abfragen aus mehreren Quellen:

  • Google Search Console (GSC): Organische Suchanfragen mit Impressionen und Klicks

  • Google Ads: Suchbegriffe, die bezahlte Anzeigen ausgelöst haben

  • Google Ads Keyword-Ideen: Keyword-Vorschläge mit Suchvolumen

  • Live-Abfragen: Echtzeit-Suchanfragen von unserem Suchdienst

Diese Quellen bieten einen umfassenden Überblick darüber, wonach Nutzer suchen, und kombinieren historische Daten mit Echtzeit-Einblicken.

Pipeline-Architektur

Die SEO-Pipeline läuft wöchentlich sonntags und besteht aus 11 Schritten:

flowchart TD
    A[Step 0: Embed Source Data] --> B[Step 1a: Fetch GSC]
    A --> C[Step 1b: Fetch Ads]
    A --> D[Step 1c: Fetch Keywords]
    A --> E[Step 1d: Fetch Live]
    
    B --> G[Step 2: Combine Queries]
    C --> G
    D --> G
    E --> G
    
    G --> H[Step 3a: Generate Base Phrases]
    G --> I[Step 3b: Embed Queries]
    
    H --> J[Step 4: Expand Phrase Mappings]
    I --> J
    
    J --> K[Step 5: Cluster Queries]
    I --> K
    
    K --> L[Step 6: Match Source Data]
    A --> L
    
    L --> M[Step 7: Route Queries]
    J --> M
    K --> M
    
    M --> N[Step 8a: Build Query Pages]
    K --> O[Step 8b: Generate Related Searches]
    
    N --> O[Step 8b: Generate Related Searches]

Schritt-für-Schritt-Prozess

Schritt 0: Einbetten von Quelldaten

Wir betten Produktdaten mit SentenceTransformer ein, um semantische Embeddings zu erstellen. Diese Embeddings werden später verwendet, um Abfragen basierend auf semantischer Ähnlichkeit und nicht nur auf Keyword-Übereinstimmung Produkten zuzuordnen.

Schritte 1a-1e: Abfragen abrufen

Wir holen Abfragen aus mehreren Quellen:

Jede Quelle bietet unterschiedliche Einblicke in die Nutzerabsicht.

Schritt 2: Abfragen kombinieren

Wir kombinieren alle Abfragen in einen einzigen Datensatz, entfernen Duplikate und aggregieren Metriken wie Impressionen und Klicks.

Schritte 3a-3b: Phrasen generieren und einbetten

Wir generieren Basisphrasen aus Produkteigenschaften und betten Abfragen mit SentenceTransformer ein. Die Phrasenzuordnungen werden verwendet, um Filter aus Suchanfragen zu extrahieren.

Schritt 4: Phrasenzuordnungen erweitern

Wir erweitern die Phrasenzuordnungen durch:

  • Auflösen von Speicher-/Speicherkollisionen (z.B. "8GB RAM" vs. "8GB Speicher")

  • Aufbauen von Phrase-zu-Filter-Zuordnungen

  • Extrahieren von N-Grammen aus Abfragen

Schritt 5: Abfragen clustern

Wir clustern ähnliche Abfragen mithilfe von Vektorähnlichkeit. Semantisch ähnliche Abfragen werden zusammengefasst und teilen sich dieselbe Abfrageseite.

Schritt 6: Quelldaten zuordnen

Wir ordnen Abfragen Produkten zu mithilfe von:

  • Vektorähnlichkeit zwischen Abfrage-Embeddings und Produkt-Embeddings

  • Filterextraktion aus Phrasenzuordnungen

  • Übereinstimmung von Produktnamen

Schritt 7: Abfragen weiterleiten

Wir leiten Abfragen an geeignete Seiten weiter:

  • Finden von Familienübereinstimmungen (z.B. "Treo"-Familie)

  • Finden von Kategorieübereinstimmungen (z.B. "Mini-PC"-Kategorie)

  • Generieren von Slugs für Abfrageseiten

Schritte 8a-8b: Seiten und verwandte Suchen erstellen

Wir erstellen Abfrageseiten und generieren verwandte Suchen:

  • Schritt 8a: Abfrageseiten mit Produktlisten erstellen

  • Schritt 8b: Verwandte Suchen mithilfe von Vektorähnlichkeit generieren

Generierung von Abfrageseiten

Abfrageseiten werden unter /q/<slug> generiert und enthalten:

  • Titel: Für Suchmaschinen optimiert

  • Beschreibung: KI-generierter Inhalt

  • Produkte: Top passende Produkte

  • Filter: Aus der Abfrage extrahiert

  • Verwandte Suchen: Übereinstimmungen basierend auf semantischer Ähnlichkeit

KI-Inhaltsgenerierung

Wir nutzen KI, um Inhalte für Abfrageseiten zu generieren:

  • DeepSeek: Produktbeschreibungen, Abfrageseiten-Inhalte

  • System-Prompts: Für Caching-Effizienz

  • Temperatur: 0,7 für ausgewogene Kreativität

Die KI generiert:

  • Tagline: Kurze, ansprechende Überschrift

  • Haupttext: Detaillierte Produktinformationen

Mehrsprachige Unterstützung

Abfrageseiten unterstützen mehrere Sprachen:

  • Englisch (Quelle)

  • Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch

  • Russisch, Hindi, Bengalisch, Gujarati, Kannada

  • Malayalam, Marathi, Punjabi, Tamil, Telugu

  • Arabisch, Chinesisch, Japanisch, Koreanisch

Zusammenfassung

Unsere SEO-Pipeline bietet:

  • Umfassende Daten: Mehrere Abfragequellen

  • Semantische Zuordnung: Vektorähnlichkeit für bessere Übereinstimmungen

  • KI-Inhalte: Automatisierte Inhaltsgenerierung

  • Mehrsprachig: Unterstützung für 15+ Sprachen

  • Automatisiert: Wöchentliche Pipeline mit Kontrollpunkten