작년에 구글 검색 SEO에 관련한 중요한 자료가 공개된 적이 있습니다. 일명 ‘구글 검색 SEO 내부 자료’이며 이 문서의 정식 명칭은 Google API Contents Warehouse입니다.

[ 목차 ]
Google API Contents Warehouse 문서란?
Google API Contents Warehouse는 구글 API에 구글 내부 프로젝트에서 사용될 데이터를 확인하기 위해 작성된 것으로 보이며 GitHub에 실수로 공개되면서 알려지게 되었습니다.
Google API Contents Warehouse 문서가 주목 받고 있는 것은 구글 검색 상위 노출을 바라는 많은 사람들에게 구글 검색 순위 알고리즘에 대한 구체적인 정보를 제공하고 있기 때문입니다.
수 년간 구글 SEO를 연구하는 사람들과 구글의 공식 입장이 대립되어 구글 검색 순위에 대한 다양한 추측이 난무하였으나 이번에 공개된 문서로 인해 구글이 그동안 어떠한 정보를 통해 구글 검색 순위를 정하고 있었는지 가늠할 수 있게 되었습니다.
아래 글을 통해 프로그램 기술적인 이라서 정리한 내용을 확인하시고 다른 링크를 통해 전체 문서나 소스, 평가를 상세히 보시기를 추천드립니다.
Google API Contents Warehouse 문서로 알 수 있는 것
분석 결과 내용
- 구글 검색이 사용자의 클릭 데이터를 사용하지 않는다고 여러차례 밝혔지만, Google API Contents Warehouse 문서에서는 클릭 데이터를 사용하고 있는 것이 확인 됨
- 서브도메인을 별도로 평가하지 않으며, 새로운 웹사이트에 대한 샌드박스가 없고, 도메인 연령을 고려하지 않는다는 구글의 주장도 부정됨
- 구글 검색팀은 초기부터 검색 결과 품질을 향상시키기 위해 많은 웹 사용자의 클릭스트림 데이터(브라우저에서 방문한 모든 URL)를 필요로 했음
- NavBoost 시스템은 구글 툴바 페이지랭크에서 데이터를 수집하고, 더 많은 클릭스트림 데이터를 얻기 위해 Chrome 브라우저를 개발하게 된 주요 동기였음
- NavBoost는 특정 키워드에 대한 검색 수, 검색 결과 클릭 수, 짧은 클릭과 긴 클릭을 분석하여 사용자 의도를 평가하고, 동영상이나 이미지에 대한 클릭이 많으면 NavBoost 관련 쿼리에 대한 동영상 또는 이미지 기능을 트리거함
- 클릭 데이터 활용: 구글은 쿠키 기록, 로그인된 Chrome 데이터, 패턴 감지 등을 사용하여 수동 및 자동 클릭 스팸을 방지하고, 사용자의 클릭 및 참여도를 분석하여 검색 결과에 반영함
- 사이트 품질 평가: NavBoost 데이터는 사이트의 전체 품질을 평가하는 데 사용되며(Panda라고 불리는), 이 평가에 따라 순위가 상승/강등
- NavBoot는 클릭 데이터를 지리적 데이터도 고려하여 국가 및 주/도 수준으로 구분하여 평가함
- 코로나19 및 선거 관련 검색 결과에 화이트리스트를 적용하여 특정 사이트를 우선적으로 표시함
구글 검색 순위의 주요 기준
- 브랜드 중요성: 구글 검색은 큰 브랜드를 우선적으로 검색 순위에 반영하고 있습니다. 따라서, 중소기업과 개설 기간이 짧은 블로그나 사이트는 큰 브랜드와 경쟁하기가 어렵습니다.
- E-E-A-T 요소의 중요성 감소: SEO에서 강조하는 경험, 전문성, 권위, 신뢰성 요소가 직접적으로 순위에 반영되지 않을 가능성이 있음
- Experience, Expertise, Authoritativeness, Trustworthiness
- 사용자 의도와 클릭 패턴이 콘텐츠와 링크보다 더 중요한 검색 순위 요소임
- 페이지랭크, 앵커 텍스트 등 전통적인 랭킹 요소의 중요성이 낮아지고 있음
구글 검색 SEO 내부 자료 및 분석 글 링크
Google API Contents Warehouse 소스 바로가기
https://github.com/googleapis/elixir-google-api/commit/d7a637f4391b2174a2cf43ee11e6577a204a161e
유출된 구글 검색 API 문서 간략 분석
https://news.hada.io/topic?id=15074
Google API Contents Warehouse 레퍼런스
https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html
결론
유출 문서의 의미
Google API Contents Warehouse 유출 문서가 구글의 공식 내부 문서인지에 대해서는 100% 확신할 수 없으며, 여전히 SEO 업계에서 의견이 분분합니다. 설령 이 문서가 구글의 정식 문서라고 하더라도 현재 검색 엔진의 최신 알고리즘을 반영하고 있는지는 명확하지 않습니다.
그러나 이 문서가 구글 검색 알고리즘의 작동 방식과 검색 순위 결정 과정에 대한 전례 없는 통찰을 제공하고 있다는 점은 부인할 수 없습니다. 그동안 구글이 영업 비밀로 숨겨왔던 검색 순위의 비밀문이 열리게 된 것입니다.
주요 발견사항
구글은 자사의 검색 순위를 정하는 방법에 대한 다양한 기준을 제시했지만, 어떤 것이 우선적인지, 또는 어떤 정보가 숨어서 동작하는지 명확하게 공개한 적이 없었습니다. 이번 유출을 통해 구글이 공식적으로 부인해왔던 여러 요소들이 실제로는 검색 순위에 영향을 미치고 있음이 확인되었습니다.
- 샌드박스 기간과 도메인 연령: SEO 전문가들이 주장해왔으나 구글이 지속적으로 부인했던 요소들의 실제 존재가 확인됨
- 크롬 브라우저 데이터: 클릭률, 체류시간, 사용자 행동 패턴이 실제로 순위 결정에 활용됨
- 화이트리스트 시스템: 특정 상황에서 선별된 사이트들이 우선 노출되는 시스템 운영
- 브랜드 권위: 브랜드 언급과 저자 전문성이 검색 순위에 중요한 영향을 미침
구글 SEO의 미래 전망
어뷰징 심화: 확실한 조작 방법이 알려지면서 크롬 데이터 조작, 인위적인 사용자 신호 생성, 브랜드 언급 조작 등의 시도가 증가할 것으로 예상됩니다.
소규모 사업체의 어려움: 브랜드가 없는 소규모 기업이나 도메인 연령이 짧은 신규 사이트들은 구글 상단 노출이 더욱 어려워질 전망입니다. 대형 브랜드와 기존 권위 있는 사이트들에게 유리한 구조가 공고해질 것입니다.
이상입니다.
[더 읽어볼거리]