Релевантность Поисковых Систем:
Многие люди думают, что у поисковых машин есть некий скрытый смысл, или им просто не нравится какой-то конкретный сайт. Это попросту неправда. Цель поисковой машины – предоставить содержание высокого качества людям, ищущим что-то в Интернете.
Проблемы с индексацией нового сайта:
Самая большая проблема, с которой сталкиваются новые сайты – это то, что поисковые машины не имеют представления о их существовании. Даже когда поисковая машина находит новый документ, ей не просто определить его качество. Поисковые машины полагаются на ссылки при определении качества документа.
Последующие разделы содержат несколько более продвинутые топики. Вам необязательно сразу же и полностью понимать их. Обычный Вебмастер не обязанto детально знать технологию поиска.
Жерар Сальтон:
Термин «Модель Векторного Пространства», на которую опираются многие поисковые алгоритмы и сегодня, уходит корнями в 1970-ые. Жерар Сальтон был известным экспертом в области получения информации, сформулировавшим многие современные методы.
Я рассмотрю некоторые части поисковых систем на базовом уровне. Вам необязательно полностью понимать все эти части, но и игнорировать их невозможно.
Если вы заинтересованы в более глубоком изучении ранних систем получения информации, вы можете прочесть «Теорию Индексации», 50-страничную книгу Сальтона, описывающую общие термины и концепции получения информации.
Книга Майка Грехана «Поисковый Маркетинг» также рассматривает некоторые технические детали получения информации в большей степени, чем данное пособие. Моя книга является активным пособием, в то время, как Книга Майка Грехана больше теоретическая.
Части Поисковых Систем:
Несмотря на различные подходы к организации Интернет-контента, у всех поисковых систем есть схожие базовые составляющие:
- Паук
- Индекс (или Каталог)
- Интерфейс Поиска
Паук:
Паук полностью соответствует своему названию. Он рыщет по Интернету, следуя ссылкам, обновляет страницы и добавляет новые страницы, когда находит их. У каждой поисковой системы есть периоды глубокой и мелкой индексации. Существует также механизм планирования, с тем, чтобы предотвращать перегрузку серверов и сообщать Пауку, какие документы индексировать и как часто возвращаться к ним.
Часто изменяемые или очень важные документы индексируются более регулярно. Частота посещений Пауком, как правило, не сильно влияет на релевантность поиска; она просто помогает поисковым машинам содержать свежую информацию в базе данных. Домашняя страница CNN.com может быть индексируема каждые 10 минут. Популярный, быстро растущий форум, может быть индексируем десятки раз в день. Статичный сайт с незначительным количеством ссылок на него и мало изменяемым содержанием, может быть индексируем один или два раза в месяц.
Самое главное преимущество часто индексируемой страницы заключается в том, что вы можете индексировать ваши новые сайты, страницы или проекты весьма динамично, помещая ссылку на них на часто индексируемую страницу.
Индекс:
Индекс- это место для хранения данных, собранных Пауком. Когда вы осуществляете поиск в поисковой машине, вы ищете не в Интернете, а в Каше Интернета, сохранённом в данной поисковой системе.
Обратный (реверсивный) Индекс: Поисковые системы организовывают свое содержание в так называемом “Обратном Индексе”. Он сортирует документы по словам. Когда вы ищете в Google, и он отображает 1-10 из 143,000 сайтов, он имеет в виду, что существует примерно 143,000 страниц, содержащих поисковое слово, или имеющих внешнюю ссылку по этому слову.
Поисковые машины не сохраняют пунктуацию, только слова.
Атрибуты хранения:
Так же, как позицию слова, поисковые машины могут сохранять и разметку текста. Например: находится ли слово таге Title? Является ли оно одним из заголовков? Отформатировано ли оно жирным шрифтом? Присутствует ли оно в списке? Является ли оно текстом ссылки?
Слова, присутствующие в заголовке или выделенные на фоне обычного текста могут приобрести дополнительный вес в большинстве поисковых алгоритмов. Однако, такого рода выделение может быть неестественным для данной структуры страницы.
Близость:
Сохраняя информацию о расположении слов в тексте, поисковые машины могут понять, насколько близко одно слово к другому по смыслу. Чем ближе слова друг к другу, тем скорее они будут рассматриваться как поисковая фраза.
Стоп Слова:
Самые общие слова не помогают машинам понять содержание страницы. Такие слова (предлоги, союзы и т. д.) называются стоп словами. Несмотря на то, что такие слова индексируются, они не используются для определения релевантности в поисковых алгоритмах.
Нормализация Индекса:
Каждая страница имеет стандарт размера. Это предотвращает преимущество длинных страниц перед более короткими страницами. Таким образом, отсутствует пресловутая волшебная «длина страницы».
Плотность, Частота и Вес поискового слова:
Термин Частота (TF) – это мера того, как часто термин встречается на странице. Термины, часто встречаемые в документе рассматриваются как наиболее значимые для этой страницы.
Если слово встречается в каждом или во многих документах, трудно определить различия между документами по данному слову.
Редкие термины, которые появляются лишь в некоторых документах, сигнализируют поисковым машинам в значительно большей степени. Они ощутимо более описательны для данного документа.
Реверсивная частотность (IDF) может быть использована для последующего выделения частных случаев поисковых терминов на странице. Термины, присутствующие в ограниченном количестве документов являются более описательными и представляют большую ценность.
Когда измеряется плотность ключевых слов, обычно упускаются из виду другие важные факторы получения информации, такие, как IDF, нормализация индекса, близость слов, текстовое форматирование.
Поисковые машины могут также использовать технологию латентного семантического индексирования для математического модулирования концепции соответствующей страницы. Если вы искусственно наполняете страницу каким-то ключевым словом, не заботясь об окружающем контенте, вы рискуете не попасть в поисковые результаты и стать менее релевантным для многих поисковых алгоритмов. Писать надо естественно (используя схожие по значению выражения), создавая при этом грамотную структуру страницы.
Множественные Реверсивные Индексы:
Поисковые машины могут использовать множественные реверсивные индексы для различного содержания. Наиболее современные поисковые алгоритмы имеют тенденцию большего приоритета тагу Title и тексту ссылок перед собственно содержанием страницы.
Для общих широких запросов поисковые машины могут подбирать подходящие документы, используя таг Title и текст ссылок. После выборки релевантных документов, они могут быть отсортированы по совокупности остальных факторов.
Около 50% поисковых запросов уникальны, и чем длиннее уникальные запросы, тем больше необходимость в рассмотрении и сортировке контента страницы.
Поисковый Интерфейс:
Поисковый алгоритм и поисковый интерфейс используются для определения наиболее подходящего документа. На первом этапе, поисковая машина пытается определить стремления пользователя, посредством анализа терминов, использованных при поиске.
Эти термины могут быть приведены к инфинитиву (игнорирование суффиксов и приставок) и сравнены с лексической базой данных для проверки относительного содержания. Термины, соответствующие семантическому ядру, помогут в продвижении выбранных ключевых слов.
Поисковые машины могут попытаться определить вектор ключевой фразы в каждом отдельном термине поисковой строки, или попытаться определить логически соответствующий контент, если слово или фраза в поиске являются частью большей логической концепции.
Реакция Пользователей:
Некоторые поисковые машины, такие, как Google и Yahoo! Обладают системами типа Google Search History и My Yahoo!, которые собирают информацию о пользователях. Поисковые машины могут учитывать недавние запросы или схожее поведение пользователей, с тем, чтобы определить общую концепцию поиска и наибольшую релевантность документов.
Построение такого рода Профиля Поисковой Истории занимает определённое время. Этот профиль может помочь в процессе персонификации поиска и определении эффективности алгоритма поиска.
По мере того, как накапливается Профиля Поисковой Истории, становится всё труднее опираться исключительно на внешние ссылки при ранжировании результатов поиска. Чем большее содержание вашего сайта удовлетворяет пользователей, тем лучше ваши позиции в процессе развития поисковых технологий.
Режим Реального Времени или Предпоисковые Вычисления:
В большинстве ведущих поисковых машин, понятие релевантности определяется и сохраняется заблаговременно, однако некоторые моменты вычисляются в режиме реального времени.
Некоторые вычисления, занимающие много времени и усилий, такие, как определение Google PageRank, производятся заранее.
Многие поисковые системы имеют несколько «центров данных», и во время обновления они блуждают от центра к центру. Центры данных размещены по всему миру, с целью минимизировать период отставания. В случае, если нет большой нагрузки, вы получаете информацию из центра, расположенного ближе всего к вам.
Сдвиги в Поисковых Алгоритмах:
Поисковые системы, такие, как Google и Yahoo! Зачастую обновляют свои алгоритмы по нескольку раз в месяц. Если вы видите внезапные изменения в позициях вашего сайта, это скорее всего, сдвиг в поисковом алгоритме, обновление индекса или ещё что-то неподконтрольное вам.
Обычно, если вы изменяете что-то на странице, это изменение не отражается в поисковых машинах немедленно. Данные о внешних ссылках также не обновляются моментально, поскольку поисковая система сначала должна обнаружить и оценить такую ссылку.
Соответствие определяет распределение!
Чем чаше поиск ведёт к желаемому содержанию, тем чаще пользователь будет возвращаться к данной поисковой машине. Если система работает хорошо, пользователь не просто вернётся, но и пригласит друзей, и, возможно будет использовать специфическое программное обеспечение, предоставляемое этой поисковой системой. Цель всех поисковых машин – быть релевантными.
Бизнес Модель Поисковой Машины:
Поисковые машины зарабатывают деньги, когда пользователи щёлкают по платным объявлениям.
Поэтому Google надеется затруднить поисковым оптимизаторам возможность манипулировать результатами поиска с тем, чтобы поддерживать высокую релевантность страниц и способствовать приобретению платных рекламных кампаний
В следующих главах мы рассмотрим как органическую оптимизацию, так и оптимизацию платных кампаний.