Определение релевантности документов в поисковой выдаче с целью раскрутки сайтовРаскрутка сайтов в Волгограде и приблизительный алгоритм релевантности страницЧастенько, даже от специалистов занимающихся оптимизацией сайтов в Волгограде можно слышать вопросы по поводу загадочной формулы, посрдетсвом которой, якобы, можно продвинуть сайт на хорошие поизции в поисковой выдаче. В частности спрашивают о так называемой плотности ключевых слов или фраз в веб-документе, необходимой для того чтобы этот документ попал на первые позиции поисковой выдачи по этим словам. Так вот - таких формул не существует, и таких цифр в природе не существуют. Конечно, у владельцев крупных поисковых систем существуют технологии оберегаемые как Священный Грааль воинами Приората, но и знание этих "тайн" полишинельных не даст ощутимых приимуществ в продвижении сайта, если попробовать применять эти таинственные формулы без ума, "дураком". Тут важно проникновение в базовые принципы ранжирования документов, а не в цифры понижающих, повышающих и корректирующих индексов, выраженных в сотых единицы и тысячных долях процента. Заблуждаются и те аватары, кто утверждает что точные алгоритмы поисковиков совершенно недоступны "плебеям". Разумеется, владельцы поисковых порталов никогда не будут открывать и выставлять на всеообщее обозрение тонкости технологии поиска, индексирования, сортировки, хранения, кластеризации массивов информации, определения первоисточников, выявления нечистоплотных ресурсов и разоблачения накруточных сетей низкопробных сайтов и продажных рекомендаций, формулы определения релевантности. И не только по коммерческим соображениям. А еще и по здравому смыслу. Ибо нужность, полезность и результативность такого "разоблачения" изначально нулевая. Слишком много желающих будет рвануть налегке в топ выдачи по все мало-мальски коммерчески привлекательным, то есть транзакционным, запросам, попутно являющимся еще и информационными и использовать это для такого запростецкого продвижения сайта. Как всегда, добрая идея будет моментально поругана негласным сообществом рвачей. Никто ничего не добъется. Проиграют все. И пользователи поиска, и владельцы сайтов, и даже оптимизаторы. Да что тут объяснять. Формула эта, однако дает слишком обобщенное представление об алгоритмах распределения мест между сайтами в результирующей выдаче поисковых систем и не может рассматриваться как отправная точка для оптимизации ресурсов с целью раскрутки сайтов в Волгограде. Может возникнуть вопрос - почему если у всех поисковых систем подход к ранжированию столь одинаков, то результаты их работы в большинстве случаев совершенно различны? Как всегда, как любит говаривать наш Президент, дело в деталях. Вот мы и будет искать, где же собака порылась, а где другие дела делала. В принципе, каждый из указанных в формулепоказателей в свою очередь является целой функцией от группы других важных показателей. При этом любой из этих малых показателей имеет свою удельную значимость в общем влиянии, таким образом, что к каждой переменной формулы можно и нужно добавить еще один коэффициент (коэффициент выраженности фактора). Для каждого поисковика набор этих выраженностей будет совершенно различным. Статические детерминанты релевантности, т.е. не зависимые от запроса в поискеПравильнее говоря - это факторы имеющие в общем смысле значение измеряемой авторитетности страницы, документа или всего сайта, его ранг. В указанной выше обобщенной формуле это фактор Pd. В указанных выше поисковиках этот фактор обозначается по-разному, но во всех случаях при расчете этого, одного из главнейших, основополагающих, фактора применяются алгоритмы тем или иным образом учитывающие взаимные ссылки между отдельными страницами внутри сайта, между сайтами, и взаимосвязь между входящими и исходящими ссылками между сайтами и отдельными страницами на одном или разных корреспондирующих сатах - донорах и акцепторах ранговых рекомендаций. Алгоритмы эти в той или иной форме наследуют главную идею, заложенную двумя основателями ведущей на сегодняшний день поисковой системы в показатель PageRank. PageRank от ГошиС общим увеличением количества документов в Интернете вообще и информации, учитываемой поисковыми системами, т.е.включаемой в индекс, так называемого "видимого Интернета", перед строителями поисковых систем возникла очень большая проблема - количество в равной степени соответствующих запросу страниц было большим, и правильно распределять их в результатах поиска, т.е. ранжировать документы, стало все труднее. Кроме того, сами алгоритмы ранжирования документов, изобретенные для неких заведомо известных массивов документов, так то университетские коллекции, оказались совершенно нестойкими даже к простым способам целенаправленного воздействия на них, манипулирования факторами ранжирования. В те времена для сносного результата и хорошей видимости было достаточно копировать, из документа уже хорошо ранжируемого по тому или иному поисковому запросу, в новый документ всю систему расположения ключевых слов и фраз текстовой части, в том числе служебных кладжей, и хороший результат новому документу тоже был обеспечен, до следующей подобной итерации. Возникла необходимость распределять элементы информации на достоверную в той или иной степени, важную с технической точки зрения, авторитетную с точки зрения того какие сайты ее предоставляют и какие "рекомендуют" к использованию своими исходящими ссылками. Какие возможности были осуществить все это? Вернее - на основании сведений о посещаемости ресурса или отдельной страницы, т.е. ее реальной популярности. Но в этом случае на каждой странице нужно установить некий специальный счетчик каждого из ведущих поисковиков. Для огромной всемирной паутины и ее глобального поиска такой подход нереален. Но, умниками математиками, была придуман фактор теоретической посещаемости страницы, как критерий замещающий реальную посещамость, которую отследить в глобальном разрезе крайне сложно. Создана некая математическая модель, показывающая путь воображаемого пользователя Интернета по страницам сайтов, путешествующего с помощью ссылочных переходов между документами сети. Модель имеет ввиду, что этот пользователь перейдет по любой из имеющихся исходящих ссылок с одинаковой вероятностью, т.е. одинаково вероятно "уйдет" на любой из рекомендуемых сайтов или страниц. Тогда получается, что вероятность сёрфера добраться до какой-то конкретной страницы в Интернете зависит от общего количества ссылок на эту страницу с других страниц в Интернете и, кроме того, от того какова вероятность присутствия сёрфера в настоящее время на одной из рекомендующих (донорских) страниц, и сколько исходящих рекомендаций несёт в себе эта страница помимо ссылки на выше указанного сайта-реципиента. Вот эта обобщенная вероятность возможной рекомендациии и была обозначена как ранг страницы PageRank, и принята за значение авторитета и мерило значимости каждой конкретной страницы в Интернете: Одна из известных и очень живучих легенд в сообществе специалистов по раскрутке сайтов в Волгограде, что по выше описанной формуле для конкретной страницы в интернете можно вычислить значение PageRank, подставляя уже известные значения PageRank для страниц сайтов, с которых стоят ссылки на данную страницу. Так вот - этого сделать невозможно. Для того чтобы расчитать показатель ранга для каждой конкретной страницы, нужно составить систему N линейных уравнений вышеописанного типа для каждой из страниц содержащихся во всей базе поисковой системы, где N - это общее количество страниц всех сайтов, проиндексированных поисковиком и содержащися в активной базе, используемой для выдачи результатов поиска. При этом, система уравнений будет иметь в себе N неизвестных. Круто?! То-то же. Решив эту систему уравнений, можно получить значения PR для каждой из страниц, известных поисковику на данный момент.А в базе таких поисковиков как Гоша на сегодняшний день насчитываются сотни миллиардов страниц. Даже невзирая на тот факт, что матрицу решения данной системы уравнений для упрощения можно сильно разредить, решение этой системы потребует столь больших вычислительных мощностей, что представляется нереальным. Поэтому поисковики стараются минимизировать ресурсоемкий процесс настолько насколько это возможно, упрощая расчеты, нивелирую коэффициенты, сворачивая функции и принимая всевозможные условности и допущения. Но конкретные реализации классического алгоритма ранжирования в конкретный поисковых системах, разумеется, представляют коммерческую тайну за семью воротами охраняемыми четырьмя встадниками апокалипсиса и опечатанными двенадцатью печатями. ВИЦ от Яши Взвешенный индекс цитирования, это показатель авторитетности ресурса сети, принятый в другом популярном поисковике - Яшке. Он совершенно аналогичен гошеному PageRank, был введен в эксплуатацию в первой половине две тысячи первого года. ИЦ от А-Порта Самым первым из отечественных поисковиков, который начал использовать для ранжирования выдачи вариант известного алгоритма PageRank был уверенно хееющий в настоящее время вертикальный поисковик Апорт. Эта поисковая система ввела фактор внешней популярности страницы еще в 1999 году, назвав его просто - Индекс Цитирования, по полной аналогии с таковым значением у значения авторитетности научных трудов. Сами ребята из Апорта еще называют его между собой и в публикациях как PageRank'ом так и взвешенным индексом цитирования, что еще раз подчеркивает родственность всех этих алгоритмов. Главнейшее отличие апортовского ИЦ от ВИЦ и PR то, что для определения ИЦ страницы этим алгоритмом используется только одна, самая "хорошая" из данных ссылка, то есть та которая передает с собой наибольший вес. Притом учитываются только входящие ссылки со страниц на доменах второго уровня. ссылка со всех страниц домена второго уровня. КП от Рамы Рама, некогда самый популярный российский поисковик, начал использовать коэффициент популярности страниц для расчета их ранга во второй половине две тысячи второго года. Как говорили представители Рамы, этот коэффициент, так же как и PageRank, учитывает взаимные ссылки между документами в Интернете, при этом "наше воплощение этого алгоритма учитывает дополнительно и информацию о реальной посещаемости каждой страницы, полученные с установленных на этих страницах счетчиков Top100. Обычные алгоритмы ссылочного ранжирования учитывают только мнение одной категории пользователей сети - веб-мастеров. Конечно, если многим веб-мастерам понравился тот или иной сайт, они ставят на своих сйтах ссылки на этот сайт. Простые сёрферы обычно не создают сайтов и посему мнение этой категории пользователей Интернета учесть таким образом невозможно. А вот счетчик Top100 решает этот вопрос и позволяет сделать коэффициент популярности более правильным, учитывающим мнение и более широкой аудитории потребителей контента, а не только его создателей." Но разумеется, этот критерий возможно только для ресурсов установивших на своих страницах этот хитроумный счетчик. А если нет? Следует обратить внимание, что отделные страницы и целые сайты в поисковых системах машинах могут исключаться из учета донорских ссылок, то есть ссылки с этих ресурсов не учитываются в процессе расчета весов других ресурсов, на которые они ссылаются. Причины этого могут быть разные как то нахождение сайта на бесплатном хостинге и при этом не участвующие в каталоге Яши, сайты где позволено свободное размещение ссылок (доски объявлений, форумы, конференции, гостевые книги), сайты размещающие скрытые ссылки. Это хорошо известный "непот" - гроза морей и океанов. |