- 검색 엔진의 응용 프로그램 PageRank
- PageRank 소개
- PageRank 계산 중
- 우리는 사이트의 중요성을 높입니다.
- PageRank와 관련된 몇 가지 일반적인 오해
- 추가 연구를위한 링크 :
Наша команда-партнер Artmisto
A. Shkondin.
검색 서비스를 제공하는 시장에서의 Google의 성공과 특히 웹 마스터 중이 검색 엔진을 Runet으로 확장 한 결과 PageRank를 계산하는 알고리즘에 대한 관심이 증가했습니다. 이 기사에서는 PageRank 계산의 일부 측면에 대해 설명합니다.
검색 엔진의 응용 프로그램 PageRank
단음절 질의의 경우 관련 페이지를 찾는 전통적인 방법으로는 만족스러운 결과를 얻지 못합니다. 인기있는 주제 (예 : "에세이", "저작물")에는 항상 관련성이 많은 많은 페이지가 있습니다. 어떻게 든 이러한 페이지를 구성하기 위해 검색 엔진은 다양한 트릭을 시작합니다. 예를 들어 출석이 많은 페이지 또는 카탈로그 (Yandex, Aport)에있는 페이지를 먼저 발행하십시오. Google은 이러한 목적으로 PageRank를 사용하여 놀라운 결과를 얻었으며 짧은 시간 내에 Google은 데이터베이스 크기뿐만 아니라 검색 품질 측면에서도 선도적 인 지위를 차지하기 시작했습니다. 검색 엔진 중 Aport는 PageRank를 가장 먼저 사용하고 Yandex를 사용했습니다. 이 기술은 사용되지 않지만이 단계에서는이 가능성이 고려되며이 PageRank가이 검색 엔진에서 사용될 수 있습니다.
PageRank로 검색 결과를 주문하는 것과 함께이 기술에 대한 또 다른 응용 프로그램이 있습니다. 사실 인터넷의 페이지 수가 너무 많아서 검색 엔진이 더 이상 모든 것을 색인 할 여력이 없습니다. PageRank는 페이지 값의 기준으로 사용되기 때문에 PageRank의 내림차순으로 페이지를 색인화하는 것이 좋습니다. Google은 더욱 발전했습니다. 등록 양식을 제출하는 것만으로는 충분하지 않습니다. 사이트를 색인에 추가하려면 최소한 하나의 외부 링크가 있어야합니다.
PageRank 소개
PageRank는 검색어와 상관없이 페이지의 품질을 평가하기위한 정적 값입니다. 즉 PageRank를 사용하여 각 페이지의 "전역 값"을 계산합니다. 검색 엔진 결과의 추가 순위 지정 기술을 개발 한 PageRank Sergey Brin과 Larry Page의 저자는 나중에 Google의 창립자가되었습니다.
페이지 랭크 (PageRank)의 기본은 저자의 서지가 다른 저자의 서지 참고 문헌에서 참고 문헌의 수만큼 중요하다는 것을 평가하는 학문적 접근이었다. 인터넷 사용에 적응하기 위해 다음과 같이 알고리즘이 변경되었습니다. 각 링크의 가중치가 개별적으로 고려되며 참조 페이지의 링크 수에 의해 표준화됩니다. 또한, 페이지 랭크는 랜덤 워크의 관점에서 해석 될 수 있습니다.
PageRank 계산 중
월드 와이드 웹 서핑을하는 완벽한 웹 서퍼를 상상해보십시오. 서퍼가 페이지 p를 방문하게하고 무작위 도보는 상태 p에있게하십시오 . 각 단계에서 웹 서퍼는 의사 랜덤 방식으로 선택된 네트워크의 다른 페이지로 이동하거나 돌아가거나 동일한 페이지를 두 번 방문하지 않고 현재 페이지의 링크를 따라 이동합니다. 랜덤 점프의 확률은 d 로 표시되고 링크의 확률은 1 - d가 됩니다. 따라서 페이지 p 에서 사용자를 찾을 확률은 다음 공식으로 계산할 수 있습니다.
여기서 R (p) 는 페이지의 페이지 랭크, C (p) 는 페이지의 링크 수, k 는 p를 참조하는 페이지 수 , d 는 댐핑 계수입니다. 보통 0.1 <d <0.15 . PageRank를
N 은 PageRank가 계산되는 모든 페이지의 수이고, R (p) 는 모든 페이지에 대한 확률 분포로 간주 될 수 있습니다.
페이지 랭크 (PageRank)를 계산하기 위해, 행렬 M 은 크기 NxN으로 생성되고 , 여기서 i 번째 페이지가 j 번째에 대한 링크를 갖는 경우 행렬 의 각 요소 mij에 값 R0 (p) = 1 / C (p) 가 할당되고, 나머지 모든 요소는 0으로 채워진다 . 따라서, PageRank의 계산은 각 반복 단계에서 행렬 M 에 벡터 Rj 를 곱함으로써 얻어지는 행렬 M 의 고유 벡터를 찾는 것으로 감소된다. 감쇠 계수를 도입하면 프로세스가 수렴됩니다.
우리는 사이트의 중요성을 높입니다.
PageRank의 우승 행렬을 깨달으면, 귀하의 페이지에 대한 인상을 생각하는 것을 도울 수 없습니다. 링크가있는 권위있는 자원 일수록 링크가 가리키는 페이지의 PageRank가 증가한다는 것이 직관적으로 분명합니다. 반대로 페이지의 링크가 많을수록 페이지의 PageRank 증가에 대한 기여도가 감소합니다. FFA (Free For All - 무료 추가 링크 집합을 포함하는 사이트)에 참여하는 무익함의 또 다른 증거입니다. 인터 링크 된 페이지의 최적 토폴로지가 덜 명확합니다. 예를 들어, "링"으로 구성된 페이지 (각 페이지가 왼쪽과 오른쪽의 이웃을 참조 할 때 마지막 페이지는 첫 번째 페이지와 마지막 페이지를 나타냄)는 링의 페이지 수에 관계없이 동일한 PageRank를가집니다. 모두의 PageRank는 1과 같을 것입니다. "별"또는 모든 사람이 모든 사람을 가리키는 경우도 마찬가지입니다.이 문은 모든 대칭 토폴로지에 해당 할 수 있습니다. 비대칭 토폴로지는 PageRank 증가와 관련하여 훨씬 더 유망합니다. 무료 호스트에서 "빈"(그러나 서로 링크하는) 웹 사이트를 만드는 데 쓸모없는 것에 대한 진술은 그리 명백하지 않습니다. 예를 들어, 5 개의 사이트에서 링크 중 하나가 PageRank가 최소 0이 아닌 PageRank보다 15 배 많은 방식으로 교환 할 수 있습니다. 이것은 작은 프로그램을 작성하여 쉽게 볼 수 있습니다. 이 기사에서이 작업을 수행하는 방법을 읽어보십시오. PageRank의 효율적인 계산
PageRank와 관련된 몇 가지 일반적인 오해
검색 엔진에서의 위치 확인에 전념 한 Runet 포럼의 메시지를 분석 한 후 적어도 논란의 여지가있는 페이지 랭크 (PageRank)에 대한 수많은 주장을 골라 낼 수 있습니다. 간단히 다음 진술을 고려하십시오.
- FFA, 게스트 북 또는 기타 웹 사이트가있는 웹 사이트에 많은 링크가있는 경우 PageRank는 절제됩니다.
"인용 색인"과 PageRank의 개념을 혼동하지 마십시오. 페이지 랭크 (PageRank)를 계산할 때 사이트의 내용이나 링크의 텍스트 분석은 수행되지 않으며 전체 링크 수와 가중치 만 고려되므로 "잘못된"페이지의 링크가 있으면 처벌이 적용되지 않습니다.
- 페이지에 대한 PageRank가 높으면이 페이지가 검색 결과의 첫 번째 페이지에 표시됩니다.
사실이 아닙니다. PageRank가 순위 페이지의 주요 기준이 아니라 보조 페이지입니다. 그렇지 않으면 첫 번째 페이지에서 매우 많은 요청에 대해 평점과 상단 만 배치됩니다. ceteris paribus만이 PageRank가 높은 페이지가 검색 결과에서 더 높습니다.
- 당신이 모든 대중적인 전화 번호부에있는 위치를 등록하는 경우에, PageRank는 아주 높을 것이다
자신을 아첨하지 마라 - PageRank는 전체 사이트가 아니라 단일 페이지로 계산됩니다. 따라서 야후에서 말하는 하위 하위 디렉토리의 링크는 Vasya Pupkin의 페이지보다 가치가 떨어질 수 있습니다. 그래서, 여기 링크의 품질이 아니라 그 숫자를 취할 수 있습니다. 카탈로그의 링크가 CGI 스크립트가 아닌 직접 사이트로 이동한다는 사실에주의를 기울일 필요가 있습니다. 그렇지 않으면 단순히 고려되지 않습니다. 또한 많은 디렉토리의 규칙에는 PageRank를 늘리는 문서가 아닌 루트 페이지의 배치가 필요합니다. 따라서 자신의 사이트의 루트 페이지를 참조하여 특정 페이지의 PageRank를 늘리는 것이 훨씬 효율적입니다.
- 외부 링크를 배치 할 때 PageRank가 줄어 듭니다.
위에 언급 한 바와 같이 매우 논란의 여지가있는 언급으로, 참조 페이지의 대칭 조합의 경우 PageRank가 감소합니다. 외부 링크를 부착 할 때 확률은 무시할 수 있습니다. 그런 공포증 자체가 극복하지 못한다면, 우리는 링크 교환을위한 특별한 페이지를 시작하기위한 조언을 줄 수 있습니다. 그런데 PageRank를 계산할 때 아무도 외부 참조와 내부 참조를 분리 할 것을 약속하지 않았습니다.
추가 연구를위한 링크 :
- PageRank 인용 순위 : 웹에 주문 가져 오기
- 대규모 하이퍼 텍스트 웹 검색 엔진의 해부학
- 폭 넓은 검색 크롤링으로 고품질 페이지 생성
- PageRank의 효율적인 계산
Copyright © 2001 by A. Shkondin
출판물에는 저자의 허락이 필요합니다.