소식

구글 검색엔진 완전 공개! 거의 100개에 달하는 문서가 유출되었고 블로거들은 이를 리버스 엔지니어링하는 데 몇 주를 보냈습니다.

2024-08-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개]지난 5월 문서 유출 이후 구글의 검색 엔진은 다시 뒤집어졌다. DeepMind는 Vizier 시스템의 메커니즘을 설명하는 논문을 발표했을 뿐만 아니라 블로거 Mario Fischer도 이 인터넷 거대 기업의 전체 그림을 복원하기 위해 거의 100개에 달하는 문서에 대한 철저한 조사와 분석을 수행했습니다.

구글이 발표한 논문들이 또다시 구글의 기술 비밀을 밝히기 시작했다.

DeepMind 수석 연구 과학자 Xingyou(Richard) Song 등이 발표한 최근 논문에서 그들은 Google Vizier 서비스의 알고리즘 비밀을 설명했습니다.

수백만 번 실행된 블랙박스 최적화 도구인 Vizier는 Google이 많은 내부 연구와 시스템을 최적화하는 데 도움을 주는 동시에 Google Cloud와 Vertex는 연구원과 개발자가 초매개변수 조정 또는 블랙박스 최적화를 수행하는 데 도움이 되는 Vizier 서비스도 출시했습니다. .

Song은 Ax/BoTorch, HEBO, Optuna, HyperOpt, SkOpt 등과 같은 다른 업계 기준과 비교할 때 Vizier는 고차원, 일괄 쿼리, 다중 목표 문제 등과 같은 많은 사용자 시나리오에서 더 강력한 성능을 제공한다고 말했습니다.

논문 발표를 활용하여 Google 베테랑 Jeff Dean도 Vizier 시스템을 칭찬하기 위해 트윗을 올렸습니다.

그가 언급한 Vizier의 오픈 소스 버전은 GitHub 저장소에서 호스팅되었으며 매우 상세한 문서를 포함하고 있으며 최근 지속적으로 유지 관리 및 업데이트되었습니다.

창고 주소: https://github.com/google/vizier

OSS Vizier의 분산 클라이언트-서버 시스템

Google Research에서는 2017년 초에 전체 Vizier 시스템을 논의한 기사를 발표했지만 내용은 최신 기사에 비해 훨씬 덜 상세합니다.

이 기술 보고서에는 오픈 소스 Vizier 알고리즘의 구현 세부 사항과 설계 선택을 설명하는 동시에 표준화된 벤치마크에 대한 실험을 사용하여 다양한 분야에서 Vizier의 견고성과 다양성을 보여주기 위해 많은 양의 연구 작업과 사용자 피드백이 포함되어 있습니다. 실용적인 모드.

그중에서도 Vizier 시스템의 반복 과정을 통해 얻은 경험과 교훈도 하나씩 전시되어 있어 학계와 산업계에 큰 참고 의미가 있으며 주목할 가치가 있습니다.

Vizier 시스템에서 사용되는 베이지안 알고리즘의 핵심 구성 요소

해당 기사의 주요 기여는 다음과 같습니다.

- 현재 버전의 Vizier에 대한 기본 알고리즘을 공식적으로 확인하고 해당 기능, 디자인 선택 및 반복 프로세스 전반에 걸쳐 학습한 교훈에 대한 설명

- 원본 C++ 구현을 기반으로 하는 오픈 소스 Python 및 JAX 프레임워크 구현을 제공합니다.

- 일반적인 업계 벤치마크를 사용하여 테스트하여 고차원, 분류, 배치 및 다중 목표 최적화 모드에서 Vizier의 견고성을 입증했습니다.

- 0차 진화 획득 최적화기의 색다른 설계 선택에 대한 절제 실험을 수행하고 주요 장점을 시연하고 논의합니다.

논문 저자 목록의 상위 2명은 Richards입니다.

Xingyou (Richard) Song은 OpenAI에서 강화학습 일반화 연구원으로 근무했습니다. 그는 2019년에 Google Brain에 수석 연구 과학자로 합류했으며 2023년부터 DeepMind에서 수석 연구 과학자로 근무하며 GenAI 작업을 수행할 예정입니다.

Qiuyi (Richard) Zhang은 현재 DeepMind Vizier 팀에서 일하고 있으며 Vizier 오픈 소스 버전의 공동 제작자이기도 합니다. 그의 연구는 주로 하이퍼파라미터 최적화, 베이지안 보정 및 이론적 기계 학습 방향에 중점을 두고 있습니다. AI 정렬에는 반사실적/공정성 성별 및 기타 측면도 포함됩니다.

Zhang은 2014년 프린스턴 대학교에서 우등으로 학사 학위를 취득한 후 캘리포니아 대학교 버클리에서 응용 수학과 컴퓨터 과학 박사 학위를 받았습니다.

검색 엔진 메커니즘은 바닥부터 시작됩니다.

절대적인 업계 거대 기업인 구글의 미공개 핵심 기술 중 다수는 오랫동안 검색 엔진 등 외부 세계를 궁금하게 만들었습니다.

10년 넘게 90% 이상의 시장 점유율을 차지한 Google 검색은 아마도 전체 인터넷에서 가장 영향력 있는 시스템이 되었을 것입니다. 이는 웹사이트의 생사와 온라인 콘텐츠 제공을 결정합니다.

그러나 Google이 웹사이트 순위를 매기는 방법에 대한 구체적인 세부 사항은 항상 "블랙박스"였습니다.

Vizier와 같은 제품과 달리 검색 엔진은 Google의 자산 코드이자 관리 기술이며 공식 문서에 공개하는 것은 불가능합니다.

일부 언론과 연구자, 검색엔진 최적화 관련 종사자들이 다양한 추측을 내놓고 있지만 이들은 코끼리를 알아내려는 시각 장애인들일 뿐이다.

오랫동안 지속된 구글의 독점금지 소송은 최근 미국 각계 검찰이 약 500만 페이지에 달하는 문서를 수집해 이를 공개 증거로 삼았다는 판결을 발표했다.

그러나 내부 Google 문서 유출과 독점금지 청문회에서 공개된 서류 등은 순위가 어떻게 작동하는지 정확히 알려주지 않습니다.

게다가 머신러닝을 활용하다보니 유기적인 검색 결과의 구조가 너무 복잡해 순위 알고리즘 개발에 참여한 구글 직원들도 “그들은 특정 결과가 왜 1위나 2위인지 설명하기 위해 많은 신호 가중치의 상호 작용을 완전히 이해하지 못합니다.

5월 27일, 익명의 소식통(나중에 검색 엔진 최적화 업계의 베테랑 실무자인 Erfan Azimi로 확인됨)이 SparkToro CEO Rand Fishkin에게 2,500페이지 분량의 Google 검색 API 유출 문서를 제공하여 Google 검색 엔진 내부 정보를 공개했습니다. 순위 알고리즘.

하지만 그게 전부는 아닙니다.

검색엔진 산업 보도를 전문으로 하는 뉴스 웹사이트인 서치엔진랜드(Search Engine Land)는 최근 유출된 구글 법원 문서 수천 건을 역설계해 구글 온라인 검색 순위의 핵심 기술 원리를 처음으로 공개하는 블로그를 게재했다.

이 블로그 게시물은 원저자가 몇 주간의 작업을 통해 100개에 가까운 문서를 여러 번 검토, 분석, 구조화, 폐기 및 재구성한 후에 탄생했습니다. 엄밀히 말하면 정확하거나 포괄적이지는 않지만 Google에 대한 이해라고 할 수 있습니다. 다른 검색 엔진과는 비교할 수 없는 포괄적이고 자세한 정보를 제공합니다.

저자의 흐름 절약 버전 구조 다이어그램은 다음과 같습니다.

Google 검색 엔진이 크고 복잡한 프로젝트라는 것은 의심의 여지가 없습니다. 크롤러 시스템, 저장소 Alexandria, 대략 순위 Mustang, 필터링 및 정밀 순위 시스템 Superroot 및 페이지 최종 렌더링을 담당하는 GWS에 이르기까지 이는 웹사이트 페이지의 최종 표시 및 노출에 영향을 미칩니다.

새 파일: Googlebot 액세스를 기다리는 중

새로운 웹사이트가 게시되면 Google에서는 즉시 색인을 생성하지 않습니다. Google은 웹페이지 정보를 어떻게 수집하고 업데이트하나요?

첫 번째 단계는 크롤링 및 데이터 수집입니다. Google은 먼저 웹사이트 URL의 존재를 알아야 하며, URL 링크를 배치하면 Google이 새 웹사이트를 크롤링할 수 있습니다.

또한 자주 방문하는 페이지에 대한 링크는 Google의 관심을 더 빨리 끌 수 있습니다.

크롤러 시스템은 웹 사이트 업데이트를 확인하기 위해 URL을 다시 방문할 때 새로운 콘텐츠를 크롤링하고 기록합니다. 이는 스케줄러라는 구성 요소에 의해 관리됩니다.

그런 다음 스토리지 서버는 URL을 전달할지 아니면 샌드박스에 넣을지 결정합니다.

Google은 이전에 샌드박스의 존재를 부인했지만 최근 유출에 따르면 (의심되는) 스팸 및 저가치 웹사이트도 샌드박스에 배치되어 있으며 Google은 콘텐츠 및 학습 알고리즘에 대한 추가 분석을 위해 일부 스팸 웹사이트를 전달할 것으로 보입니다.

그런 다음 이미지 링크는 후속 검색 호출을 위해 ImageBot으로 전송되며 때로는 지연이 발생합니다. ImageBot에는 동일하거나 유사한 이미지를 이미지 컨테이너에 배치하는 정렬 기능이 있습니다.

크롤러 시스템은 자체 PageRank를 사용하여 정보 크롤링 빈도를 조정하는 것으로 보입니다. 웹 사이트의 트래픽이 많으면 이 크롤링 빈도가 증가합니다(ClientTrafficFraction).

알렉산드리아: Google 색인 시스템

Alexandria라고 불리는 Google의 색인 시스템은 각 웹페이지의 콘텐츠에 고유한 DocID를 할당합니다. 콘텐츠가 중복되는 경우 새로운 ID는 생성되지 않으며, URL은 기존 DocID에 연결됩니다.

Google은 URL과 문서를 명확하게 구분합니다. 문서는 동일한 DocID로 호출되는 다양한 언어 버전을 포함하여 유사한 콘텐츠를 포함하는 여러 URL로 구성될 수 있습니다.

다른 도메인 이름에서 중복된 콘텐츠가 발견되면 Google은 검색 순위에 표준 버전을 표시하도록 선택합니다. 이는 또한 다른 URL이 때때로 비슷한 순위를 갖는 이유도 설명합니다. 더욱이 소위 "표준" 버전의 URL은 일회성 거래가 아니라 시간이 지남에 따라 변경됩니다.

알렉산드리아 컬렉션 문서 URL

온라인에는 작성자 문서의 버전이 하나만 있으므로 시스템에서 고유한 DocID가 부여됩니다.

DocID를 사용하면 문서의 각 부분이 키워드로 검색되어 검색 색인에 요약됩니다. "히트 목록"은 각 페이지에 여러 번 나타나는 키워드를 요약하여 직접 색인으로 먼저 전송됩니다.

작성자의 웹페이지를 예로 들면, "pencil"이라는 단어가 여러 번 나타나므로 DocID는 단어 색인의 "pencil" 항목 아래에 나열됩니다.

알고리즘은 다양한 텍스트 특징을 기반으로 문서 내 "연필"이라는 단어의 IR(정보 검색) 점수를 계산하고 이를 DocID에 할당하며, 이는 나중에 게시 목록에서 사용됩니다.

예를 들어, 문서에서 "연필"이라는 단어는 굵게 표시되고 첫 번째 수준 제목(AvrTermWeight에 저장됨)에 포함됩니다. 이러한 신호는 IR 점수를 높입니다.

Google은 빠르게 액세스할 필요가 없는 정보를 장기간 저장하기 위해 빠른 SSD와 기존 HDD(TeraGoogle이라고 함)를 모두 사용하여 중요한 문서를 메인 메모리 시스템인 HiveMind로 이동할 예정입니다.

특히 전문가들은 최근 AI 붐이 일어나기 전에는 전 세계 웹 서버의 약 절반을 구글이 장악했다고 추정한다.

상호 연결된 클러스터의 거대한 네트워크를 통해 수백만 개의 주 메모리 장치가 함께 작동할 수 있습니다. Google 엔지니어는 한 회의에서 이론적으로 Google의 주 메모리가 전체 네트워크를 저장할 수 있다고 지적했습니다.

흥미롭게도 HiveMind에 저장된 중요한 문서에 대한 링크와 백링크는 더 높은 가중치를 갖는 것으로 나타나는 반면, HDD(TeraGoogle)에 있는 URL 링크는 더 낮은 가중치를 가지며 고려되지 않을 수도 있습니다.

각 DocID에 대한 추가 정보 및 신호는 관련성을 조정할 때 많은 시스템이 액세스하는 CrawlerChangerateURLHistory를 통해 각 문서의 최신 20개 버전을 보유하는 저장소인 PerDocData에 동적으로 저장됩니다.

그리고 Google은 시간이 지남에 따라 다양한 버전을 평가할 수 있는 능력을 갖추고 있습니다. 문서의 내용이나 테마를 완전히 변경하려면 이론적으로 이전 버전을 완전히 덮어쓰려면 20개의 전환 버전을 만들어야 합니다.

이것이 만료된 도메인(한때 활성화되었지만 나중에 파산이나 기타 이유로 인해 포기되거나 판매된 도메인)을 복원해도 원래 도메인의 순위 이점을 유지하지 못하는 이유입니다.

도메인의 Admin-C와 해당 주제 콘텐츠가 동시에 변경되면 컴퓨터는 이를 쉽게 식별할 수 있습니다.

이때 Google에서는 모든 신호를 0으로 설정하므로, 한때 트래픽 가치가 있었던 기존 도메인 이름은 더 이상 새로 등록된 도메인 이름과 다르지 않습니다. 원래 트래픽과 순위보다 더 높습니다.

유출 외에도 미국 사법 청문회 및 Google에 대한 재판의 증거 문서는 내부 이메일을 포함하여 유용한 연구 소스입니다.

QBST: 누군가 '연필'을 검색하고 있습니다.

누군가 Google에 "연필"이라는 검색어를 입력하면 QBST(Query Based Salient terms)가 작동하기 시작합니다.

QBST는 사용자가 입력한 검색어를 분석하고, 중요성과 관련성에 따라 포함된 각 단어에 서로 다른 가중치를 할당하고, 관련 DocID 쿼리를 각각 수행하는 일을 담당합니다.

어휘 가중치 프로세스는 매우 복잡하며 RankBrain, DeepRank(이전 BERT) 및 RankEmbeddedBERT와 같은 시스템을 포함합니다.

QBST는 Google이 검색 결과 순위를 매기는 방식과 웹 사이트가 받을 수 있는 트래픽 및 가시성의 정도에 영향을 미치기 때문에 SEO에 중요합니다.

QBST는 사용자 쿼리와 일치하는 가장 일반적으로 사용되는 용어가 포함된 경우 웹사이트의 순위를 더 높게 지정합니다.

QBST 이후에는 "연필"과 같은 관련 단어가 추가 처리를 위해 Ascorer로 전달됩니다.

Ascorer: "녹색 링"을 만듭니다.

Ascorer는 반전된 색인(즉, 어휘 색인)에서 "연필" 항목 아래의 상위 1000개 DocID를 추출하고 IR 점수에 따라 순위를 매깁니다.

내부 문서에 따르면 이 목록은 '그린링'이라고 불린다. 업계에서는 이를 포스팅 리스트라고 부른다.

"연필" 예에서 해당 문서는 게시된 목록에서 132위를 차지했습니다. 다른 시스템의 개입이 없다면 이것이 최종 위치가 될 것입니다.

Superroot: "천 마일에서 10마일"

Superroot는 Mustang이 방금 선별한 1,000개의 후보 웹페이지 순위를 다시 매기고 1,000개의 DocID의 "녹색 링"을 10개의 결과인 "파란색 링"으로 줄이는 작업을 담당합니다.

이 작업은 특별히 Twiddlers 및 NavBoost에 의해 수행됩니다. 다른 시스템도 관련될 수 있지만 부정확한 정보로 인해 구체적인 세부 사항은 불분명합니다.

Mustang은 1000개의 잠재적 결과를 생성하고 Superroot는 이를 10으로 필터링합니다.

Twiddlers: 필터링 레이어

다양한 문서에 따르면 Google은 WordPress 플러그인의 필터와 유사하다고 생각할 수 있는 수백 개의 Twiddler 시스템을 사용합니다.

각 Twiddler에는 고유한 필터링 목표가 있으며 IR 점수 또는 순위 위치를 조정할 수 있습니다.

Twiddler는 비교적 만들기 쉽고 Ascorer의 복잡한 순위 알고리즘을 수정할 필요가 없기 때문에 이런 방식으로 설계되었습니다.

순위 알고리즘을 수정하는 것은 잠재적인 부작용 때문에 매우 어렵고 광범위한 계획과 프로그래밍이 필요합니다. 대조적으로, 여러 Twiddler는 병렬 또는 순차적으로 작동하며 다른 Twiddler의 활동을 인식하지 못합니다.

Twiddlers는 기본적으로 두 가지 유형으로 나눌 수 있습니다.

-PreDoc Twiddlers는 추가 정보가 거의 필요하지 않기 때문에 수백 개의 DocID 컬렉션을 처리할 수 있습니다.

-반대로 "Lazy" 유형의 Twiddler에는 PerDocData 데이터베이스의 정보와 같은 더 많은 정보가 필요하므로 상대적으로 더 긴 시간과 더 복잡한 프로세스가 필요합니다.

따라서 PreDocs는 먼저 출판물 목록을 수신하고 웹 페이지 항목을 줄인 다음 더 느린 "Lazy" 유형 필터를 사용합니다. 이 둘의 조합은 컴퓨팅 성능과 시간을 크게 절약합니다.

100명이 넘는 Twiddler 중 두 가지 유형이 잠재적인 검색 결과 수를 줄이고 순서를 변경하는 일을 담당합니다.

테스트 후 Twiddler는 다양한 용도로 사용할 수 있습니다. 개발자는 새로운 필터, 승수 또는 특정 위치 제한을 시도할 수 있으며 다른 결과 앞이나 뒤의 특정 검색 결과 순위를 매기는 매우 정밀한 조작도 가능합니다.

유출된 Google 내부 문서에 따르면 특정 Twiddler 기능은 핵심 검색 팀과 협의하여 전문가만 사용해야 한다는 사실이 드러났습니다.

Twidder가 어떻게 작동하는지 알고 있다고 생각하신다면 저희를 믿으세요. 우리가 이해하고 있는지 잘 모르겠습니다

주석을 생성하고 해당 주석을 DocID에 추가하기 위한 Twiddler도 있습니다.

COIVD 기간 동안 귀하의 국가의 보건부가 항상 코로나19 검색 목록의 상위에 오르는 이유는 무엇입니까?

Twiddler는 queryForWhichOfficial을 사용하여 언어와 지역을 기반으로 공식 리소스의 정확한 배포를 용이하게 하기 때문입니다.

개발자는 Twiddler의 순위 재지정 결과를 제어할 수 없지만 해당 메커니즘을 이해하면 순위 변동 및 "설명할 수 없는 순위"를 더 잘 설명할 수 있습니다.

품질 평가자 및 RankLab

Google 검색 결과를 평가하고 새로운 알고리즘이나 필터가 출시되기 전에 테스트하는 품질 평가자가 전 세계적으로 수천 명 있습니다.

구글은 자사의 평가가 참고용일 뿐 순위에 직접적인 영향을 미치지 않는다고 밝혔습니다.

이것은 본질적으로 사실이지만 평점과 입찰 티켓은 순위에 간접적으로 큰 영향을 미칩니다.

평가자는 일반적으로 모바일 장치에서 평가를 수행하며 시스템에서 URL 또는 검색 문구를 수신하고 미리 설정된 질문에 답합니다.

예를 들어, “이 콘텐츠의 작성자와 창작 활동이 명확한가요? 작성자가 해당 주제에 대한 전문 지식을 갖고 있습니까?”라는 질문을 받게 됩니다.

이러한 답변은 고품질의 신뢰할 수 있는 페이지와 덜 신뢰할 수 있는 페이지를 더 잘 식별하기 위해 기계 학습 알고리즘을 훈련하는 데 저장되고 사용됩니다.

즉, 인간 평가자가 제공하는 결과는 딥러닝 알고리즘의 중요한 기준이 되고, 구글 검색팀이 만든 순위 기준은 그다지 중요하지 않습니다.

인간 평가자가 어떤 종류의 웹 페이지를 신뢰할 수 있다고 생각하는지 상상해 보십시오.

작성자의 사진, 이름, LinkedIn 링크가 포함된 페이지는 일반적으로 설득력 있게 보입니다. 반대로, 이러한 특성이 결여된 웹페이지는 신뢰도가 낮다고 판단됩니다.

그런 다음 신경망은 이 기능을 핵심 요소로 식별하고 최소 30일 동안 활성 테스트를 실행한 후 모델이 자동으로 이 기능을 순위 기준으로 사용하기 시작할 수 있습니다.

따라서 작성자 사진, 이름 및 LinkedIn 링크가 있는 페이지는 Twiddler 메커니즘을 통해 순위가 올라갈 수 있지만 이러한 특성이 없는 페이지는 순위가 감소합니다.

또한 구글이 유출한 정보에 따르면 isAuthor 속성과 AuthorVectors 속성('저자 지문 식별'과 유사)을 통해 시스템은 작성자의 고유한 단어와 표현(즉, 개인 언어 특성)을 식별하고 구별할 수 있다.

평가자의 평가는 "정보 만족도"(IS) 점수로 집계됩니다. 많은 평가자가 참여하지만 IS 점수는 소수의 URL에만 적용됩니다.

Google은 클릭되지 않은 많은 문서도 중요할 수 있다고 지적합니다. 시스템이 추론을 할 수 없는 경우 문서가 자동으로 평가자에게 전송되고 점수가 생성됩니다.

평가자 관련 용어에서 "골드"라는 용어가 언급되는데, 이는 특정 문서가 "골드 표준"을 가질 수 있으며 인간 평가자의 기대를 충족하면 문서가 "골드" 표준에 도달하는 데 도움이 될 수 있음을 나타냅니다.

또한 하나 이상의 Twiddler 시스템은 "최적 표준"을 충족하는 DocID를 상위 10위로 승격시킬 수 있습니다.

품질 검토자는 일반적으로 Google의 정규 직원이 아니지만 아웃소싱 회사에 소속되어 있습니다.

대조적으로 Google의 자체 전문가는 RankLab에서 작업하여 실험을 수행하고, 새로운 Twiddler를 개발하고, 평가 및 개선하여 Twiddler가 결과의 품질을 향상하는지 아니면 단순히 스팸을 필터링하는지 확인합니다.

검증되고 효과적인 Twiddler는 복잡하고 상호 연결되어 있으며 계산 집약적인 알고리즘을 사용하여 Mustang 시스템에 통합되었습니다.

NavBoost: 사용자는 무엇을 좋아합니까?

Superroot에서는 또 다른 핵심 시스템인 NavBoost도 검색 결과 순위를 매기는 데 중요한 역할을 합니다.

Navboost는 주로 사용자와 검색 결과의 상호 작용, 특히 다양한 쿼리 결과에 대한 클릭에 대한 데이터를 수집하는 데 사용됩니다.

Google은 순위에 사용자 클릭 데이터를 사용하는 것을 공식적으로 거부하지만, 연방거래위원회(FTC)가 공개한 내부 이메일에서는 클릭 데이터가 처리되는 방식을 기밀로 유지해야 한다고 지시합니다.

구글은 두 가지 이유로 이를 부인합니다.

우선, 사용자의 관점에서 볼 때 Google은 검색 플랫폼으로서 사용자의 온라인 활동을 항상 모니터링하므로 개인 정보 보호 문제에 대한 언론의 분노를 불러일으킬 수 있습니다.

그러나 Google의 관점에서 클릭 데이터를 사용하는 목적은 개별 사용자를 모니터링하는 것이 아니라 통계적으로 유의미한 데이터 측정항목을 얻는 것입니다.

FTC 문건에서는 클릭 데이터가 순위에 영향을 미칠 것이라는 점을 확인하고 NavBoost 시스템을 자주 언급했다(2023년 4월 18일 청문회 당시 54회). 이는 2012년 공식 청문회에서도 확인됐다.

2012년 8월부터 관계자들은 클릭 데이터가 순위에 영향을 미칠 것임을 분명히 했습니다.

검색, 클릭, 반복 검색, 반복 클릭 등 검색결과 페이지에서의 다양한 사용자 행동과 웹사이트 또는 웹페이지에 대한 트래픽이 모두 순위에 영향을 미칩니다.

사용자 개인 정보 보호에 대한 우려는 단지 하나의 이유일 뿐입니다. 또 다른 우려 사항은 클릭 데이터와 트래픽을 통해 평가하면 스패머와 사기꾼이 순위를 조작하기 위해 봇 시스템을 사용하여 가짜 트래픽을 사용하도록 조장할 수 있다는 것입니다.

Google은 여러 평가를 통해 사용자 클릭을 불량 클릭과 양호한 클릭으로 구분하는 등 이러한 상황에 대응할 수 있는 방법도 있습니다.

사용되는 측정 항목에는 대상 페이지에서 보낸 시간, 페이지를 본 기간, 검색 시작 페이지, 사용자 검색 기록에서 가장 최근의 "좋은 클릭" 기록 등이 포함됩니다.

검색 결과 페이지(SERP)의 각 순위에는 평균 예상 클릭률(CTR)이 기준으로 있습니다.

예를 들어, 올해 베를린에서 열린 CAMPIXX 컨퍼런스에서 요하네스 보이스(Johannes Beus)의 분석에 따르면, 자연 검색 결과의 첫 번째 위치는 평균 26.2%의 클릭을 받았고, 두 번째 위치는 15.5%의 클릭을 받았습니다.

CTR이 예상 비율보다 현저히 낮은 경우 NavBoost 시스템은 이러한 차이를 기록하고 그에 따라 DocID 순위를 조정합니다.

"expected_CRT"가 실제 값에서 크게 벗어나면 이에 따라 순위가 조정됩니다.

사용자 클릭은 기본적으로 제목, 설명, 도메인 이름을 포함한 결과의 관련성에 대한 사용자의 의견을 나타냅니다.

SEO 전문가와 데이터 분석가의 보고서에 따르면 클릭률을 종합적으로 모니터링한 결과 다음과 같은 현상이 발견되었습니다.

문서가 검색어 상위 10위 안에 들었고 CTR이 예상보다 크게 낮으면 며칠 내에 순위가 떨어지는 것을 볼 수 있습니다(검색량에 따라 다름).

반대로 순위에 비해 CTR이 훨씬 높으면 순위가 올라가는 것이 일반적입니다. CTR이 낮을 경우 웹사이트는 더 많은 클릭을 얻기 위해 짧은 시간 안에 제목과 콘텐츠 설명을 조정하고 최적화해야 합니다.

PageRank 계산 및 업데이트는 시간이 많이 걸리고 계산 집약적이므로 PageRank_NS 측정항목이 사용됩니다. NS는 "가장 가까운 시드(Nearest Seed)"를 의미하며 관련 페이지 그룹은 새 페이지에 일시적 또는 영구적으로 적용되는 PageRank 값을 공유합니다.

Google은 최신 정보 제공 방법에 대한 청문회에서 좋은 모범을 보였습니다. 예를 들어 사용자가 '스탠리 컵'을 검색하면 일반적으로 검색 결과에 물잔이 표시됩니다.

그러나 Stanley Cup 하키 경기가 진행 중이면 NavBoost는 경기에 대한 실시간 정보의 우선순위를 지정하도록 결과를 조정합니다.

최근 조사 결과에 따르면 문서의 클릭 측정항목은 13개월 동안의 데이터를 다루며, 전년도와 비교할 수 있도록 1개월이 중복됩니다.

놀랍게도 Google은 실제로 개인화된 검색 결과를 많이 제공하지 않습니다. 테스트 결과에 따르면 사용자 행동을 모델링하고 조정하면 개별 사용자의 개인적 선호도를 평가하는 것보다 더 나은 결과를 얻을 수 있는 것으로 나타났습니다.

그러나 검색 및 동영상 콘텐츠에 대한 선호도 등 개인 선호사항은 여전히 ​​개인화된 결과에 포함됩니다.

GWS: 검색의 끝과 시작

Google 웹 서버(GWS)는 10개의 "블루 링크"는 물론 광고, 이미지, Google 지도 보기, "사람들이 묻는 질문" 및 기타 요소를 포함하는 검색 결과 페이지(SERP)를 렌더링하는 역할을 담당합니다.

FreshnessNode, InstantGlue(24시간 이내에 반응, 약 10분 지연), InstantNavBoost와 같은 구성 요소는 페이지가 표시되기 전 마지막 순간에 순위를 조정할 수 있습니다.

FreshnessNode는 사용자 검색 행동의 변화를 실시간으로 모니터링하고 이러한 변화를 기반으로 순위를 조정하여 검색 결과가 최신 검색 의도와 일치하는지 확인할 수 있습니다.

InstantNavBoost 및 InstantGlue는 최신 뉴스 및 인기 주제를 기반으로 순위를 조정하는 등 검색 결과를 최종 렌더링하기 전에 순위를 최종 조정합니다.

그러므로,높은 순위를 얻으려면 우수한 문서 콘텐츠와 올바른 SEO 조치가 결합되어야 합니다.

순위는 검색 동작의 변화, 추가 문서의 존재, 실시간 정보 업데이트 등 다양한 요인의 영향을 받을 수 있습니다. 따라서 고품질 콘텐츠를 보유하고 좋은 SEO를 수행하는 것은 역동적인 순위 환경의 일부일 뿐이라는 점을 인식하는 것이 중요합니다.

구글의 존 뮬러(John Mueller)는 순위 하락이 일반적으로 콘텐츠의 품질이 낮다는 것을 의미하지 않으며 사용자 행동이나 기타 요인의 변화가 결과의 성능을 변화시킬 수 있다고 강조했습니다.

예를 들어 사용자가 더 짧은 텍스트를 선호하기 시작하면 NavBoost는 이에 따라 자동으로 순위를 조정합니다. 그러나 Alexandria 시스템이나 Ascorer의 IR 점수는 변경되지 않습니다.

이것이 우리에게 말해주는 것은 SEO가 더 넓은 의미로 이해되어야 한다는 것입니다.. 문서 내용이 사용자 검색 의도와 일치하지 않으면 단순히 제목이나 내용을 최적화하는 것만으로는 효과가 없습니다.