SEO 파이프라인

이 글은 Thinvent가 검색 데이터에서 쿼리 페이지를 생성하는 방법을 설명합니다. 당사의 SEO 파이프라인은 여러 소스에서 쿼리를 수집, 클러스터링하고, 제품과 매칭하여 검색 엔진에 최적화된 페이지를 생성합니다.

데이터 소스

여러 소스에서 쿼리를 통합합니다:

  • Google Search Console (GSC): 노출수와 클릭수가 포함된 자연 검색 쿼리

  • Google Ads: 유료 광고를 유발한 검색어

  • Google Ads 키워드 아이디어: 검색량이 포함된 키워드 제안

  • 실시간 쿼리: 당사 검색 서비스의 실시간 검색 쿼리

이러한 소스들은 사용자가 무엇을 검색하는지에 대한 포괄적인 시각을 제공하며, 과거 데이터와 실시간 통찰력을 결합합니다.

파이프라인 아키텍처

SEO 파이프라인은 매주 일요일에 실행되며 11단계로 구성됩니다:

flowchart TD
    A[Step 0: 소스 데이터 임베딩] --> B[Step 1a: GSC 가져오기]
    A --> C[Step 1b: Ads 가져오기]
    A --> D[Step 1c: Keywords 가져오기]
    A --> E[Step 1d: Live 가져오기]
    
    B --> G[Step 2: 쿼리 통합]
    C --> G
    D --> G
    E --> G
    
    G --> H[Step 3a: 기본 구문 생성]
    G --> I[Step 3b: 쿼리 임베딩]
    
    H --> J[Step 4: 구문 매핑 확장]
    I --> J
    
    J --> K[Step 5: 쿼리 클러스터링]
    I --> K
    
    K --> L[Step 6: 소스 데이터 매칭]
    A --> L
    
    L --> M[Step 7: 쿼리 라우팅]
    J --> M
    K --> M
    
    M --> N[Step 8a: 쿼리 페이지 빌드]
    K --> O[Step 8b: 관련 검색어 생성]
    
    N --> O[Step 8b: 관련 검색어 생성]

단계별 프로세스

Step 0: 소스 데이터 임베딩

SentenceTransformer를 사용하여 제품 데이터를 임베딩하여 의미론적 임베딩을 생성합니다. 이 임베딩은 나중에 키워드 매칭뿐만 아니라 의미적 유사성을 기반으로 쿼리를 제품과 매칭하는 데 사용됩니다.

Steps 1a-1e: 쿼리 가져오기

여러 소스에서 쿼리를 가져옵니다:

각 소스는 사용자 의도에 대한 다양한 통찰력을 제공합니다.

Step 2: 쿼리 통합

모든 쿼리를 단일 데이터셋으로 통합하고, 노출수와 클릭수와 같은 지표를 중복 제거 및 집계합니다.

Steps 3a-3b: 구문 생성 및 임베딩

제품 기능에서 기본 구문을 생성하고 SentenceTransformer를 사용하여 쿼리를 임베딩합니다. 구문 매핑은 검색 쿼리에서 필터를 추출하는 데 사용됩니다.

Step 4: 구문 매핑 확장

다음과 같은 방법으로 구문 매핑을 확장합니다:

  • 메모리/저장소 충돌 해결 (예: "8GB RAM" vs "8GB storage")

  • 구문-필터 매핑 구축

  • 쿼리에서 n-gram 추출

Step 5: 쿼리 클러스터링

벡터 유사성을 사용하여 유사한 쿼리를 클러스터링합니다. 의미론적으로 유사한 쿼리들은 함께 그룹화되며 동일한 쿼리 페이지를 공유하게 됩니다.

Step 6: 소스 데이터 매칭

다음과 같은 방법으로 쿼리를 제품과 매칭합니다:

  • 쿼리 임베딩과 제품 임베딩 간의 벡터 유사성

  • 구문 매핑에서 필터 추출

  • 제품 이름 매칭

Step 7: 쿼리 라우팅

쿼리를 적절한 페이지로 라우팅합니다:

  • 제품군 매칭 찾기 (예: "Treo" 제품군)

  • 카테고리 매칭 찾기 (예: "Mini PC" 카테고리)

  • 쿼리 페이지용 슬러그 생성

Steps 8a-8b: 페이지 빌드 및 관련 검색어 생성

쿼리 페이지를 빌드하고 관련 검색어를 생성합니다:

  • Step 8a: 제품 목록이 포함된 쿼리 페이지 빌드

  • Step 8b: 벡터 유사성을 사용하여 관련 검색어 생성

쿼리 페이지 생성

쿼리 페이지는 /q/<slug> 에 생성되며 다음을 포함합니다:

  • 제목: 검색 엔진에 최적화됨

  • 설명: AI 생성 콘텐츠

  • 제품: 상위 매칭 제품

  • 필터: 쿼리에서 추출됨

  • 관련 검색어: 의미적 유사성 매칭

AI 콘텐츠 생성

쿼리 페이지 콘텐츠를 생성하기 위해 AI를 사용합니다:

  • DeepSeek: 제품 설명, 쿼리 페이지 콘텐츠

  • 시스템 프롬프트: 캐싱 효율성 향상을 위해

  • Temperature: 균형 잡힌 창의성을 위해 0.7

AI는 다음을 생성합니다:

  • 태그라인: 짧고 매력적인 헤드라인

  • 본문: 상세한 제품 정보

다국어 지원

쿼리 페이지는 여러 언어를 지원합니다:

  • 영어 (원본)

  • 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어

  • 러시아어, 힌디어, 벵골어, 구자라트어, 칸나다어

  • 말라얄람어, 마라티어, 펀자브어, 타밀어, 텔루구어

  • 아랍어, 중국어, 일본어, 한국어

요약

당사의 SEO 파이프라인은 다음을 제공합니다:

  • 포괄적인 데이터: 다중 쿼리 소스

  • 의미론적 매칭: 더 나은 매칭을 위한 벡터 유사성

  • AI 콘텐츠: 자동화된 콘텐츠 생성

  • 다국어: 15개 이상의 언어 지원

  • 자동화: 체크포인트가 있는 주간 파이프라인