IT10.ru    Телефон в Волгограде: +7 (8442) 488-766

Создание и продвижение сайтов в Волгограде

Определение релевантности документов в поисковой выдаче с целью раскрутки сайтов

Раскрутка сайтов в Волгограде и приблизительный алгоритм релевантности страниц

     Частенько, даже от специалистов занимающихся оптимизацией сайтов в Волгограде можно слышать вопросы по поводу загадочной формулы, посрдетсвом которой, якобы, можно продвинуть сайт на хорошие поизции в поисковой выдаче. В частности спрашивают о так называемой плотности ключевых слов или фраз в веб-документе, необходимой для того чтобы этот документ попал на первые позиции поисковой выдачи по этим словам. Так вот - таких формул не существует, и таких цифр в природе не существуют. Конечно, у владельцев крупных поисковых систем существуют технологии оберегаемые как Священный Грааль воинами Приората, но и знание этих "тайн" полишинельных не даст ощутимых приимуществ в продвижении сайта, если попробовать применять эти таинственные формулы без ума, "дураком". Тут важно проникновение в базовые принципы ранжирования документов, а не в цифры понижающих, повышающих и корректирующих индексов, выраженных в сотых единицы и тысячных долях процента.

     Заблуждаются и те аватары, кто утверждает что точные алгоритмы поисковиков совершенно недоступны "плебеям". Разумеется, владельцы поисковых порталов никогда не будут открывать и выставлять на всеообщее обозрение тонкости технологии поиска, индексирования, сортировки, хранения, кластеризации массивов информации, определения первоисточников, выявления нечистоплотных ресурсов и разоблачения накруточных сетей низкопробных сайтов и продажных рекомендаций, формулы определения релевантности. И не только по коммерческим соображениям. А еще и по здравому смыслу. Ибо нужность, полезность и результативность такого "разоблачения" изначально нулевая. Слишком много желающих будет рвануть налегке в топ выдачи по все мало-мальски коммерчески привлекательным, то есть транзакционным, запросам, попутно являющимся еще и информационными и использовать это для такого запростецкого продвижения сайта. Как всегда, добрая идея будет моментально поругана негласным сообществом рвачей. Никто ничего не добъется. Проиграют все. И пользователи поиска, и владельцы сайтов, и даже оптимизаторы. Да что тут объяснять.
     И все же уже давно сообществу специалистов занимающихся раскруткой сайтов в Волгограде известны основополагающие принципы алгоритмов поисковых систем, некоторые базовые особенности их работы в конкретных сигнальных ситуациях. До начала рассказа об этих особенностях, принципах и факторах, влияющих на оценку соответствия веб-документа поисковому запросу, следует упомянуть об одной формуле, обобщающей базовые формулы ранжирования применяемые поисковиками, такими как Яша, Рама и Гоша. Следует сказать, что это не конкретная формула, по которой можно делать какие-либо рассчеты релевантности, или применяемая в недрах поисковиков. Это собирательная формула, приблизительно обозначающая "ход мыслей" поисковой системы в процессе различения документов в смысле релевантности его запросу.Итак:

Pd(y)=(o*Td(y)+s*Ld(y))* F(Ad), где
Pd(y) - соответствие страницы d запросу y в поисковой выдаче
Td(y) - соответствие HTML-кода текста страницы d запросу y,
Ld(y) - соответствие запросу y текстов совокупности входящих ссылок на страницу d,
Ad - значение авторитетности страницы d, постоянной относительно страницы y,
F(Ad) - некая монотонно неубывающая функция, где F(0)=1, поэтому предположительно F(Ad)=(1+e*Ad),
o, s, e - другие малозначимые коэффициенты.

     Формула эта, однако дает слишком обобщенное представление об алгоритмах распределения мест между сайтами в результирующей выдаче поисковых систем и не может рассматриваться как отправная точка для оптимизации ресурсов с целью раскрутки сайтов в Волгограде. Может возникнуть вопрос - почему если у всех поисковых систем подход к ранжированию столь одинаков, то результаты их работы в большинстве случаев совершенно различны? Как всегда, как любит говаривать наш Президент, дело в деталях. Вот мы и будет искать, где же собака порылась, а где другие дела делала. В принципе, каждый из указанных в формулепоказателей в свою очередь является целой функцией от группы других важных показателей. При этом любой из этих малых показателей имеет свою удельную значимость в общем влиянии, таким образом, что к каждой переменной формулы можно и нужно добавить еще один коэффициент (коэффициент выраженности фактора). Для каждого поисковика набор этих выраженностей будет совершенно различным.
     Об этом и других связанных с ранжированием документов факторах и пойдет речь в этой и последующих двух статьях. Сейчас скажу сразу, забегая немного вперед, что в результатирующей поисковой выдаче положение конкретного сайта относительно других будет расчитано любым хорошим поисковиком из трех главных параметров, а именно:

     1. Соответствие кода текста документа запросу Td(y);
     2. Соответствие поисковому запросу входящих ссылок на ранжируемую страницу с других ресурсов в сети, называемое также ссылочным ранжированием Ld(y);
     3. Индекс собственного "веса" или авторитетности документа - Pd, это коэффициент, который не зависит от запроса вводимого в строке поиска, но оказывает непосредственное влияние на действие двух предыдущих коэффициентов.
     Начинаем подробный разбор факторов влияющих на соответствие страниц поисковым запросам именно с этой последней группы факторов, индексов собственной авторитетности документа.

Статические детерминанты релевантности, т.е. не зависимые от запроса в поиске

     Правильнее говоря - это факторы имеющие в общем смысле значение измеряемой авторитетности страницы, документа или всего сайта, его ранг. В указанной выше обобщенной формуле это фактор Pd. В указанных выше поисковиках этот фактор обозначается по-разному, но во всех случаях при расчете этого, одного из главнейших, основополагающих, фактора применяются алгоритмы тем или иным образом учитывающие взаимные ссылки между отдельными страницами внутри сайта, между сайтами, и взаимосвязь между входящими и исходящими ссылками между сайтами и отдельными страницами на одном или разных корреспондирующих сатах - донорах и акцепторах ранговых рекомендаций. Алгоритмы эти в той или иной форме наследуют главную идею, заложенную двумя основателями ведущей на сегодняшний день поисковой системы в показатель PageRank.

PageRank от Гоши

     С общим увеличением количества документов в Интернете вообще и информации, учитываемой поисковыми системами, т.е.включаемой в индекс, так называемого "видимого Интернета", перед строителями поисковых систем возникла очень большая проблема - количество в равной степени соответствующих запросу страниц было большим, и правильно распределять их в результатах поиска, т.е. ранжировать документы, стало все труднее. Кроме того, сами алгоритмы ранжирования документов, изобретенные для неких заведомо известных массивов документов, так то университетские коллекции, оказались совершенно нестойкими даже к простым способам целенаправленного воздействия на них, манипулирования факторами ранжирования. В те времена для сносного результата и хорошей видимости было достаточно копировать, из документа уже хорошо ранжируемого по тому или иному поисковому запросу, в новый документ всю систему расположения ключевых слов и фраз текстовой части, в том числе служебных кладжей, и хороший результат новому документу тоже был обеспечен, до следующей подобной итерации. Возникла необходимость распределять элементы информации на достоверную в той или иной степени, важную с технической точки зрения, авторитетную с точки зрения того какие сайты ее предоставляют и какие "рекомендуют" к использованию своими исходящими ссылками. Какие возможности были осуществить все это? Вернее - на основании сведений о посещаемости ресурса или отдельной страницы, т.е. ее реальной популярности. Но в этом случае на каждой странице нужно установить некий специальный счетчик каждого из ведущих поисковиков. Для огромной всемирной паутины и ее глобального поиска такой подход нереален. Но, умниками математиками, была придуман фактор теоретической посещаемости страницы, как критерий замещающий реальную посещамость, которую отследить в глобальном разрезе крайне сложно.

     Создана некая математическая модель, показывающая путь воображаемого пользователя Интернета по страницам сайтов, путешествующего с помощью ссылочных переходов между документами сети. Модель имеет ввиду, что этот пользователь перейдет по любой из имеющихся исходящих ссылок с одинаковой вероятностью, т.е. одинаково вероятно "уйдет" на любой из рекомендуемых сайтов или страниц. Тогда получается, что вероятность сёрфера добраться до какой-то конкретной страницы в Интернете зависит от общего количества ссылок на эту страницу с других страниц в Интернете и, кроме того, от того какова вероятность присутствия сёрфера в настоящее время на одной из рекомендующих (донорских) страниц, и сколько исходящих рекомендаций несёт в себе эта страница помимо ссылки на выше указанного сайта-реципиента. Вот эта обобщенная вероятность возможной рекомендациии и была обозначена как ранг страницы PageRank, и принята за значение авторитета и мерило значимости каждой конкретной страницы в Интернете:

Pb = S*(Y (H1)/L1+...+Y (Mn)/Kn)-9
где Pb - PageRank изучаемого сайта,
S - параметр затухания (описывает вероятность того, что сёрфер, пришедший на страницу сайта, уйдет с неё следуя по одной из исходящихссылок, размещенных на данной странице, а не закончит свое блуждание в сети, принято считать этот коэффициент равным 0,85),
Yn - PageRank n-й страницы, которая ссылается на страницу b,
Kn - совокупное число исходящих ссылок на n-й странице.

     Одна из известных и очень живучих легенд в сообществе специалистов по раскрутке сайтов в Волгограде, что по выше описанной формуле для конкретной страницы в интернете можно вычислить значение PageRank, подставляя уже известные значения PageRank для страниц сайтов, с которых стоят ссылки на данную страницу. Так вот - этого сделать невозможно. Для того чтобы расчитать показатель ранга для каждой конкретной страницы, нужно составить систему N линейных уравнений вышеописанного типа для каждой из страниц содержащихся во всей базе поисковой системы, где N - это общее количество страниц всех сайтов, проиндексированных поисковиком и содержащися в активной базе, используемой для выдачи результатов поиска. При этом, система уравнений будет иметь в себе N неизвестных. Круто?! То-то же. Решив эту систему уравнений, можно получить значения PR для каждой из страниц, известных поисковику на данный момент.А в базе таких поисковиков как Гоша на сегодняшний день насчитываются сотни миллиардов страниц. Даже невзирая на тот факт, что матрицу решения данной системы уравнений для упрощения можно сильно разредить, решение этой системы потребует столь больших вычислительных мощностей, что представляется нереальным. Поэтому поисковики стараются минимизировать ресурсоемкий процесс настолько насколько это возможно, упрощая расчеты, нивелирую коэффициенты, сворачивая функции и принимая всевозможные условности и допущения. Но конкретные реализации классического алгоритма ранжирования в конкретный поисковых системах, разумеется, представляют коммерческую тайну за семью воротами охраняемыми четырьмя встадниками апокалипсиса и опечатанными двенадцатью печатями.
     Номинальное же значение, некий упрощенный публичный показатель PageRank, можно узнать для любой страницы известной Гоше через специальный сервис либо через специальную панель инструментов этого поисковика.

ВИЦ от Яши

     Взвешенный индекс цитирования, это показатель авторитетности ресурса сети, принятый в другом популярном поисковике - Яшке. Он совершенно аналогичен гошеному PageRank, был введен в эксплуатацию в первой половине две тысячи первого года.
     Вплоть до конца две тысячи второго года ВИЦ можно было увидеть через специальную иснтрументальную панель Яшки, при этом можно было посмотреть только ВИЦ главной страницы до сотых долей единицы. Затем ВИЦ спрятали от посторонних глаз, заменив его значением тематического индекса цитирования, тИЦ, который представляет собой некое логорифмическое значение ВИЦ, в точности наподобии публичного PR, который представляет собой логарифмическое значение индекса популярности Гоши, спрятанного от посторонних глаз и используемого для внутренних итерационных пересчетов. В тоже время существует мнение, что тИЦ отражает всего лишь популярность и весомость сатов исходя из позиций в каталоге Яши и не отражает настоящей популярности и авторитетности сайта, так как это делает логарифм от PageRank. Настоящее значение ВИЦ сайта или страницы в настоящее время узнать невозможно, так же как нельзя узнать алгоритм подсчета релевантности выдачи или то, сколько ортофосфорной кислоты пихают в известный напиток с засекреченной рецептурой - Соса-Солу.

ИЦ от А-Порта

     Самым первым из отечественных поисковиков, который начал использовать для ранжирования выдачи вариант известного алгоритма PageRank был уверенно хееющий в настоящее время вертикальный поисковик Апорт. Эта поисковая система ввела фактор внешней популярности страницы еще в 1999 году, назвав его просто - Индекс Цитирования, по полной аналогии с таковым значением у значения авторитетности научных трудов. Сами ребята из Апорта еще называют его между собой и в публикациях как PageRank'ом так и взвешенным индексом цитирования, что еще раз подчеркивает родственность всех этих алгоритмов. Главнейшее отличие апортовского ИЦ от ВИЦ и PR то, что для определения ИЦ страницы этим алгоритмом используется только одна, самая "хорошая" из данных ссылка, то есть та которая передает с собой наибольший вес. Притом учитываются только входящие ссылки со страниц на доменах второго уровня. ссылка со всех страниц домена второго уровня.
     Еще у Апорта есть индексом цитирования сайта, Site Rank. Он применяется для учета взаимного положения сайтов из каталога Апорта на страницах этого же каталога. При этом в расчете, опять же, учитывается только самый большой вес из всех значений страниц сайта, которым присвоены веса.

КП от Рамы

     Рама, некогда самый популярный российский поисковик, начал использовать коэффициент популярности страниц для расчета их ранга во второй половине две тысячи второго года. Как говорили представители Рамы, этот коэффициент, так же как и PageRank, учитывает взаимные ссылки между документами в Интернете, при этом "наше воплощение этого алгоритма учитывает дополнительно и информацию о реальной посещаемости каждой страницы, полученные с установленных на этих страницах счетчиков Top100. Обычные алгоритмы ссылочного ранжирования учитывают только мнение одной категории пользователей сети - веб-мастеров. Конечно, если многим веб-мастерам понравился тот или иной сайт, они ставят на своих сйтах ссылки на этот сайт. Простые сёрферы обычно не создают сайтов и посему мнение этой категории пользователей Интернета учесть таким образом невозможно. А вот счетчик Top100 решает этот вопрос и позволяет сделать коэффициент популярности более правильным, учитывающим мнение и более широкой аудитории потребителей контента, а не только его создателей." Но разумеется, этот критерий возможно только для ресурсов установивших на своих страницах этот хитроумный счетчик. А если нет?
     Анализируя лонгэтюдные наблюдения можно сделать вывод о том, что данные о посещаемости страниц, получаемые со счетчиков Top100, все меньше и меньше учитываются при расчете коэффициента популярности. Несмотря на все усилия, специалисты Рамы (да и других подобных систем, кстати говоря) так и не смогли эффективно противостоять всевозможным обходным маневрам нацеленным на массированную "накрутку" счетчиков, которая довольно часто применяется владельцами ресурсов с целью дополнительной раскрутки своих сайтов. И так же как в вышеописанных аналогах алгоритма ранжирования, все большее значение получает учет взаимных ссылок между страницами ресурсов сети.

     Следует обратить внимание, что отделные страницы и целые сайты в поисковых системах машинах могут исключаться из учета донорских ссылок, то есть ссылки с этих ресурсов не учитываются в процессе расчета весов других ресурсов, на которые они ссылаются. Причины этого могут быть разные как то нахождение сайта на бесплатном хостинге и при этом не участвующие в каталоге Яши, сайты где позволено свободное размещение ссылок (доски объявлений, форумы, конференции, гостевые книги), сайты размещающие скрытые ссылки. Это хорошо известный "непот" - гроза морей и океанов.
     Подводя итоги скажем, что для улучшения позиций сайта в поисковой выдачи, а конкретно для связанного с этим непосредственно повышения ранга страницы сайта нужно сделать так чтобы как можно больше сайтов в сети давало ссылки на данный сайт. Это делается самыми разными способами. Это и ссылки с различных каталогов, и получение ссылок с узкотематических аггрегационных ресурсов, и обмен ссылками с родственными по тематике другими сайтами. Лучшая возможность - это изначально создать свой таким интересным и привлекательным, уникальным и востребованным по информационной наполненности, чтобы другие веб-мастера, авторы других многочисленных сайтов будут сами охотно ставить ссылку на ваш сайт. И ссылка эта будет безвозмездная, прижизненно-постоянная и ценная в глазах нормальной поисковой системы, так как уникальна, реальна и в хорошем тематическом окружении. Так же не нужно забывать, что при расчете значимости страницы по той или иной фразе, слову и поисковому запросу учитываются не только внешние но и внутренние ссылки, т.е. ссылки на данную со страниц этого же ресурса. В этом поможет грамотная перелинковка страниц внутри самого сайта. Это позволяет повышать и вес самых главных, с позиции размещенной информации, страниц и разделов сайта. Таким образом наиболее существенных с точки зрения информационной важности и насыщенности страницы сайта должны иметь ссылку на себя с главной страницы этого же сайта. А эта ссылка обычно, при прочих равных, имеет наибольших вес среди страниц сайта из-за того, что на нее в подавляющем большинстве случаев проставлено больше всего входящих внешних ссылок с других ресурсов.

 
Перед покупкой авто предпродажная диагностика автомобиля поможет выявить все недочеты . Быстрая раскрутка интернет магазинов, b1e8 здесь!