SEO 管道
本文介绍了 Thinvent 如何从搜索数据生成查询页面。我们的 SEO 管道处理来自多个来源的查询,对其进行聚类,与产品匹配,并为搜索引擎生成优化页面。
数据来源
我们汇总来自多个来源的查询:
-
Google Search Console (GSC):包含展现次数和点击次数的自然搜索查询
-
Google Ads:触发付费广告的搜索词
-
Google Ads 关键词规划师:包含搜索量的关键词建议
-
实时查询:来自我们搜索服务的实时搜索查询
这些来源结合历史数据和实时洞察,提供了用户搜索内容的全面视图。
管道架构
SEO 管道每周日运行,包含 11 个步骤:
flowchart TD
A[步骤 0: 嵌入源数据] --> B[步骤 1a: 获取 GSC 数据]
A --> C[步骤 1b: 获取广告数据]
A --> D[步骤 1c: 获取关键词数据]
A --> E[步骤 1d: 获取实时数据]
B --> G[步骤 2: 合并查询]
C --> G
D --> G
E --> G
G --> H[步骤 3a: 生成基础短语]
G --> I[步骤 3b: 嵌入查询]
H --> J[步骤 4: 扩展短语映射]
I --> J
J --> K[步骤 5: 聚类查询]
I --> K
K --> L[步骤 6: 匹配源数据]
A --> L
L --> M[步骤 7: 路由查询]
J --> M
K --> M
M --> N[步骤 8a: 构建查询页面]
K --> O[步骤 8b: 生成相关搜索]
N --> O[步骤 8b: 生成相关搜索]分步流程
步骤 0:嵌入源数据
我们使用 SentenceTransformer 嵌入产品数据以创建语义嵌入。这些嵌入稍后将用于基于语义相似度(而不仅仅是关键词匹配)将查询与产品匹配。
步骤 1a-1d:获取查询
我们从多个来源获取查询:
-
Google Search Console (GSC):包含性能指标的自然搜索查询
-
Google Ads:触发付费广告的搜索词
-
Google Ads 关键词规划师:包含搜索量的关键词建议
-
实时查询:来自我们搜索服务的实时搜索查询
每个来源都提供了关于用户意图的不同洞察。
步骤 2:合并查询
我们将所有查询合并到一个数据集中,并去重和汇总展现次数、点击次数等指标。
步骤 3a-3b:生成短语和嵌入
我们从产品特性生成基础短语,并使用 SentenceTransformer 嵌入查询。短语映射用于从搜索查询中提取筛选条件。
步骤 4:扩展短语映射
我们通过以下方式扩展短语映射:
-
解决内存/存储冲突(例如,"8GB RAM" 与 "8GB storage")
-
构建短语到筛选条件的映射
-
从查询中提取 n-gram
步骤 5:聚类查询
我们使用向量相似度对相似查询进行聚类。语义相似的查询被分组在一起,并将共享同一个查询页面。
步骤 6:匹配源数据
我们通过以下方式将查询与产品匹配:
-
查询嵌入与产品嵌入之间的向量相似度
-
从短语映射中提取筛选条件
-
产品名称匹配
步骤 7:路由查询
我们将查询路由到适当的页面:
-
查找系列匹配(例如,"Treo" 系列)
-
查找类别匹配(例如,"Mini PC" 类别)
-
为查询页面生成 slugs
步骤 8a-8b:构建页面和相关搜索
我们构建查询页面并生成相关搜索:
-
步骤 8a:构建包含产品列表的查询页面
-
步骤 8b:使用向量相似度生成相关搜索
查询页面生成
查询页面在 /q/<slug> 路径下生成,包含:
-
标题:为搜索引擎优化
-
描述:AI 生成的内容
-
产品:最匹配的产品
-
筛选条件:从查询中提取
-
相关搜索:语义相似度匹配
AI 内容生成
我们使用 AI 生成查询页面内容:
-
DeepSeek:产品描述,查询页面内容
-
系统提示词:用于缓存效率
-
温度参数:0.7 以平衡创意性
AI 生成以下内容:
-
标语:简短、引人注目的标题
-
正文:详细的产品信息
多语言支持
查询页面支持多种语言:
-
英语(源语言)
-
西班牙语、法语、德语、意大利语、葡萄牙语
-
俄语、印地语、孟加拉语、古吉拉特语、卡纳达语
-
马拉雅拉姆语、马拉地语、旁遮普语、泰米尔语、泰卢固语
-
阿拉伯语、中文、日语、韩语
总结
我们的 SEO 管道提供:
-
全面数据:多个查询来源
-
语义匹配:向量相似度以实现更好匹配
-
AI 内容:自动内容生成
-
多语言:支持 15 种以上语言
-
自动化:带检查点的每周管道