SEO 파이프라인
이 글은 Thinvent가 검색 데이터에서 쿼리 페이지를 생성하는 방법을 설명합니다. 당사의 SEO 파이프라인은 여러 소스에서 쿼리를 수집, 클러스터링하고, 제품과 매칭하여 검색 엔진에 최적화된 페이지를 생성합니다.
데이터 소스
여러 소스에서 쿼리를 통합합니다:
-
Google Search Console (GSC): 노출수와 클릭수가 포함된 자연 검색 쿼리
-
Google Ads: 유료 광고를 유발한 검색어
-
Google Ads 키워드 아이디어: 검색량이 포함된 키워드 제안
-
실시간 쿼리: 당사 검색 서비스의 실시간 검색 쿼리
이러한 소스들은 사용자가 무엇을 검색하는지에 대한 포괄적인 시각을 제공하며, 과거 데이터와 실시간 통찰력을 결합합니다.
파이프라인 아키텍처
SEO 파이프라인은 매주 일요일에 실행되며 11단계로 구성됩니다:
flowchart TD
A[Step 0: 소스 데이터 임베딩] --> B[Step 1a: GSC 가져오기]
A --> C[Step 1b: Ads 가져오기]
A --> D[Step 1c: Keywords 가져오기]
A --> E[Step 1d: Live 가져오기]
B --> G[Step 2: 쿼리 통합]
C --> G
D --> G
E --> G
G --> H[Step 3a: 기본 구문 생성]
G --> I[Step 3b: 쿼리 임베딩]
H --> J[Step 4: 구문 매핑 확장]
I --> J
J --> K[Step 5: 쿼리 클러스터링]
I --> K
K --> L[Step 6: 소스 데이터 매칭]
A --> L
L --> M[Step 7: 쿼리 라우팅]
J --> M
K --> M
M --> N[Step 8a: 쿼리 페이지 빌드]
K --> O[Step 8b: 관련 검색어 생성]
N --> O[Step 8b: 관련 검색어 생성]단계별 프로세스
Step 0: 소스 데이터 임베딩
SentenceTransformer를 사용하여 제품 데이터를 임베딩하여 의미론적 임베딩을 생성합니다. 이 임베딩은 나중에 키워드 매칭뿐만 아니라 의미적 유사성을 기반으로 쿼리를 제품과 매칭하는 데 사용됩니다.
Steps 1a-1e: 쿼리 가져오기
여러 소스에서 쿼리를 가져옵니다:
-
Google Search Console (GSC): 성능 지표가 포함된 자연 검색 쿼리
-
Google Ads: 유료 광고를 유발한 검색어
-
Google Ads 키워드 아이디어: 검색량이 포함된 키워드 제안
-
실시간 쿼리: 당사 검색 서비스의 실시간 검색 쿼리
각 소스는 사용자 의도에 대한 다양한 통찰력을 제공합니다.
Step 2: 쿼리 통합
모든 쿼리를 단일 데이터셋으로 통합하고, 노출수와 클릭수와 같은 지표를 중복 제거 및 집계합니다.
Steps 3a-3b: 구문 생성 및 임베딩
제품 기능에서 기본 구문을 생성하고 SentenceTransformer를 사용하여 쿼리를 임베딩합니다. 구문 매핑은 검색 쿼리에서 필터를 추출하는 데 사용됩니다.
Step 4: 구문 매핑 확장
다음과 같은 방법으로 구문 매핑을 확장합니다:
-
메모리/저장소 충돌 해결 (예: "8GB RAM" vs "8GB storage")
-
구문-필터 매핑 구축
-
쿼리에서 n-gram 추출
Step 5: 쿼리 클러스터링
벡터 유사성을 사용하여 유사한 쿼리를 클러스터링합니다. 의미론적으로 유사한 쿼리들은 함께 그룹화되며 동일한 쿼리 페이지를 공유하게 됩니다.
Step 6: 소스 데이터 매칭
다음과 같은 방법으로 쿼리를 제품과 매칭합니다:
-
쿼리 임베딩과 제품 임베딩 간의 벡터 유사성
-
구문 매핑에서 필터 추출
-
제품 이름 매칭
Step 7: 쿼리 라우팅
쿼리를 적절한 페이지로 라우팅합니다:
-
제품군 매칭 찾기 (예: "Treo" 제품군)
-
카테고리 매칭 찾기 (예: "Mini PC" 카테고리)
-
쿼리 페이지용 슬러그 생성
Steps 8a-8b: 페이지 빌드 및 관련 검색어 생성
쿼리 페이지를 빌드하고 관련 검색어를 생성합니다:
-
Step 8a: 제품 목록이 포함된 쿼리 페이지 빌드
-
Step 8b: 벡터 유사성을 사용하여 관련 검색어 생성
쿼리 페이지 생성
쿼리 페이지는 /q/<slug> 에 생성되며 다음을 포함합니다:
-
제목: 검색 엔진에 최적화됨
-
설명: AI 생성 콘텐츠
-
제품: 상위 매칭 제품
-
필터: 쿼리에서 추출됨
-
관련 검색어: 의미적 유사성 매칭
AI 콘텐츠 생성
쿼리 페이지 콘텐츠를 생성하기 위해 AI를 사용합니다:
-
DeepSeek: 제품 설명, 쿼리 페이지 콘텐츠
-
시스템 프롬프트: 캐싱 효율성 향상을 위해
-
Temperature: 균형 잡힌 창의성을 위해 0.7
AI는 다음을 생성합니다:
-
태그라인: 짧고 매력적인 헤드라인
-
본문: 상세한 제품 정보
다국어 지원
쿼리 페이지는 여러 언어를 지원합니다:
-
영어 (원본)
-
스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어
-
러시아어, 힌디어, 벵골어, 구자라트어, 칸나다어
-
말라얄람어, 마라티어, 펀자브어, 타밀어, 텔루구어
-
아랍어, 중국어, 일본어, 한국어
요약
당사의 SEO 파이프라인은 다음을 제공합니다:
-
포괄적인 데이터: 다중 쿼리 소스
-
의미론적 매칭: 더 나은 매칭을 위한 벡터 유사성
-
AI 콘텐츠: 자동화된 콘텐츠 생성
-
다국어: 15개 이상의 언어 지원
-
자동화: 체크포인트가 있는 주간 파이프라인