SEO 管道

本文介绍了 Thinvent 如何从搜索数据生成查询页面。我们的 SEO 管道处理来自多个来源的查询,对其进行聚类,与产品匹配,并为搜索引擎生成优化页面。

数据来源

我们汇总来自多个来源的查询:

  • Google Search Console (GSC):包含展现次数和点击次数的自然搜索查询

  • Google Ads:触发付费广告的搜索词

  • Google Ads 关键词规划师:包含搜索量的关键词建议

  • 实时查询:来自我们搜索服务的实时搜索查询

这些来源结合历史数据和实时洞察,提供了用户搜索内容的全面视图。

管道架构

SEO 管道每周日运行,包含 11 个步骤:

flowchart TD
    A[步骤 0: 嵌入源数据] --> B[步骤 1a: 获取 GSC 数据]
    A --> C[步骤 1b: 获取广告数据]
    A --> D[步骤 1c: 获取关键词数据]
    A --> E[步骤 1d: 获取实时数据]
    
    B --> G[步骤 2: 合并查询]
    C --> G
    D --> G
    E --> G
    
    G --> H[步骤 3a: 生成基础短语]
    G --> I[步骤 3b: 嵌入查询]
    
    H --> J[步骤 4: 扩展短语映射]
    I --> J
    
    J --> K[步骤 5: 聚类查询]
    I --> K
    
    K --> L[步骤 6: 匹配源数据]
    A --> L
    
    L --> M[步骤 7: 路由查询]
    J --> M
    K --> M
    
    M --> N[步骤 8a: 构建查询页面]
    K --> O[步骤 8b: 生成相关搜索]
    
    N --> O[步骤 8b: 生成相关搜索]

分步流程

步骤 0:嵌入源数据

我们使用 SentenceTransformer 嵌入产品数据以创建语义嵌入。这些嵌入稍后将用于基于语义相似度(而不仅仅是关键词匹配)将查询与产品匹配。

步骤 1a-1d:获取查询

我们从多个来源获取查询:

每个来源都提供了关于用户意图的不同洞察。

步骤 2:合并查询

我们将所有查询合并到一个数据集中,并去重和汇总展现次数、点击次数等指标。

步骤 3a-3b:生成短语和嵌入

我们从产品特性生成基础短语,并使用 SentenceTransformer 嵌入查询。短语映射用于从搜索查询中提取筛选条件。

步骤 4:扩展短语映射

我们通过以下方式扩展短语映射:

  • 解决内存/存储冲突(例如,"8GB RAM" 与 "8GB storage")

  • 构建短语到筛选条件的映射

  • 从查询中提取 n-gram

步骤 5:聚类查询

我们使用向量相似度对相似查询进行聚类。语义相似的查询被分组在一起,并将共享同一个查询页面。

步骤 6:匹配源数据

我们通过以下方式将查询与产品匹配:

  • 查询嵌入与产品嵌入之间的向量相似度

  • 从短语映射中提取筛选条件

  • 产品名称匹配

步骤 7:路由查询

我们将查询路由到适当的页面:

  • 查找系列匹配(例如,"Treo" 系列)

  • 查找类别匹配(例如,"Mini PC" 类别)

  • 为查询页面生成 slugs

步骤 8a-8b:构建页面和相关搜索

我们构建查询页面并生成相关搜索:

  • 步骤 8a:构建包含产品列表的查询页面

  • 步骤 8b:使用向量相似度生成相关搜索

查询页面生成

查询页面在 /q/<slug> 路径下生成,包含:

  • 标题:为搜索引擎优化

  • 描述:AI 生成的内容

  • 产品:最匹配的产品

  • 筛选条件:从查询中提取

  • 相关搜索:语义相似度匹配

AI 内容生成

我们使用 AI 生成查询页面内容:

  • DeepSeek:产品描述,查询页面内容

  • 系统提示词:用于缓存效率

  • 温度参数:0.7 以平衡创意性

AI 生成以下内容:

  • 标语:简短、引人注目的标题

  • 正文:详细的产品信息

多语言支持

查询页面支持多种语言:

  • 英语(源语言)

  • 西班牙语、法语、德语、意大利语、葡萄牙语

  • 俄语、印地语、孟加拉语、古吉拉特语、卡纳达语

  • 马拉雅拉姆语、马拉地语、旁遮普语、泰米尔语、泰卢固语

  • 阿拉伯语、中文、日语、韩语

总结

我们的 SEO 管道提供:

  • 全面数据:多个查询来源

  • 语义匹配:向量相似度以实现更好匹配

  • AI 内容:自动内容生成

  • 多语言:支持 15 种以上语言

  • 自动化:带检查点的每周管道