Индексация сайтов
Реферат, 20 Мая 2013, автор: пользователь скрыл имя
Краткое описание
Для начала давайте разберемся с терминологией. Индексация страницы – это посещение страницы поисковым роботом какой-либо поисковой системы и занесение ее в базу данных поисковика. Поисковой робот - это программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы.
Вложенные файлы: 1 файл
ИПСИС.docx
— 172.06 Кб (Скачать файл)Введение.
Для начала давайте разберемся с терминологией. Индексация страницы – это посещение страницы поисковым роботом какой-либо поисковой системы и занесение ее в базу данных поисковика. Поисковой робот - это программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы. Кроме того, робот подчиняется и автору или администратору веб-сайта. Для подчинения себе робота поисковика администратор сайта должен грамотно написать инструкции в файле robots.txt, который является инструкцией для робота, какие страницы не заносить в свой индекс и как часто посещать сайт.
Процесс индексации.
Для того чтобы сайт обнаруживался при
релевантном поисковом запросе, необходимо
сначала внести его в базу данных поисковика.
Каким же образом мы можем зарегистрировать
свой сайт в поисковой системе? Существуют
два решения этой проблемы:
- Индексация страницы через непосредственное принудительное добавление ее адреса в форму регистрации поисковой системы, но это не дает гарантий, что страница будет проиндексирована быстро. Такой вариант используется, когда страница абсолютно новая, и ее адрес еще не известен поисковым роботам. При добавлении страницы в поисковую систему достаточно указывать только основную страницу, снабдив ее внутренними ссылками на все остальные. Проводя индексацию страницы, поисковый робот найдет все остальные по ссылочному содержимому и впоследствии проиндексирует.
- Нахождение адреса страницы на уже проиндексированных ресурсах. Такой вариант индексации страницы наиболее предпочтителен, так как поисковый робот придет на Ваш сайт по ссылке с другого ресурса, на котором она расположена.
У поисковых систем есть ряд особенностей, связанных с индексацией ими документов в сети. Первой особенностью можно считать то, что кроме обратного индекса(При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.), который создается из оригинального документа, скачанного из сети, поисковая система сохраняет еще и копию этого самого документа, иначе говоря, кроме обратного индекса документа, поисковики хранят еще и прямой индекс документа, который используется для составления сниппетов для документа.
Однако далеко не всегда индексация сайта происходит правильно, что в результате приводит к занижению позиций сайта при поиске или к выпадению из релевантного поиска вообще. Для исключения подобной ситуации стоит помнить следующие особенности работы поисковых роботов:
- Поисковые системы индексируют не более 100-200 кб текста на странице и не более 100-150 тысяч страниц на одном сайте.
- Использование в дизайне сайта флеш и большого количества графических элементов затрудняет индексацию, так как поисковые системы попросту не видят на страницах флеш и графику.
- В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.
- Использование динамических страниц приводит к тому, что при посещении таких страниц роботы поисковых систем выявляют одну и ту же страницу с разными идентификаторами сессий и, как следствие, определяет их как разные. Примером может послужить печатная версия страницы сайта: рано или поздно поисковая система может «склеить» эту страницу с основной, которая отображается в браузере, и в последствии в результатах выдачи будет выводится именно печатная версия, а не основная страница.
- Установка в коде страниц скриптов различного предназначения не позволит роботу проиндексировать сайт, в том числе сюда относится использование выпадающего меню сайта. Поисковый робот не читает элементы сделанные на основе скриптов, и использование их также становится преградой для качественной индексации страницы.
- Индексация страницы не будет выполнена, если размер или вес страницы менее 1кб.
- Воровство текстового содержимого (плагиат контента) с другого ресурса может привести к "склейке" страниц из-за одинакового содержимого. От этого выйграет только первый владелец, так как получит дополнительную ссылку на свой сайт.
- Редиректы затрудняют анализ сайта поисковыми роботами. Не следует использовать редиректы, если для этого нет четких причин.
- Скрытый текст, равно как и однопиксельные картинки, является приемом "серой" оптимизации сайтов и может привести к бану сайта (иключение его из баз данных поисковика).
Улучшение индексации сайта.
Как уже упоминалось, роботу
можно помочь с индексацией сайта
для более быстрой регистрации
сайта и правильного его
- запрет в файле robots.txt на индексирование страниц, неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, страницы с результатами поиска, сайты-зеркала, документы на нераспространенных в рунете языках;
- создание файла Sitemap с дополнительной информацией о страницах сайта, подлежащих индексированию;
- создание карты сайта, то есть страницу или несколько страниц, которые содержат ссылки на все документы сайта;
- настройка сервера на выдачу корректных заголовков ответов (например, если страница не существует, выдавать ошибку 404, а если поступил запрос If-Modified-Since, то выдавать код 304, если страница с указанной в запросе даты не изменялась).
Более того, работой поискового
робота можно непосредственно
- Мета-теги позволяют вебмастерам указывать метаданные о странице сайта. Ряд мета-тегов также используется роботами поисковых систем (рассмотрим на примере Робота Яндкса):
- <meta name="Keywords" content="..."/> — может учитываться при определении соответствия страницы поисковым запросам,
- <meta name="Description" content="..."/> — содержание данного тега может использоваться в сниппетах (описаниях сайтов на странице результатов поиска),
- <meta http-equiv="Content-Type" content="type; charset=..."/> — робот может учитывать этот тег при определении типа документа и его кодировки,
- <meta http-equiv="refresh" content="N;url=_адрес цели перенаправления_"/> — перенаправление (редирект) пользователя на страницу с адресом url, после N секунд нахождения на данной странице.
Также робот Яндекса учитывает указания в тегах:
- <meta name="robots" content="all"/> — разрешено индексировать текст и ссылки на странице, аналогично <meta name="robots" content="index, follow"/>
- <meta name="robots" content="noindex"/> — не индексировать текст страницы,
- <meta name="robots" content="nofollow"/> — не переходить по ссылкам на странице,
- <meta name="robots" content="none"/> — запрещено индексировать текст и переходить по ссылкам на странице, аналогично <meta name="robots" content="noindex, nofollow"/>
- <meta name="robots" content="noarchive"/> — не показывать ссылку на сохраненную копию на странице результатов поиска.
- <meta name="robots" content="noyaca"/> — не использовать описание из Яндекс.Каталога для сниппета в результатах поиска.
- <meta name="robots" content="noodp"/> — не использовать описание из каталога DMOZ для сниппета в результатах поиска.
Робот не узнает о документах, если ссылки на них стоят со страницы, содержащей мета-тег со значением nofollow, тем не менее, они могут быть проиндексированы, если где-либо еще на них указаны ссылки без nofollow.
Если мета-теги не указаны, робот считает, что они имеют положительное значение (index, follow, archive). Если робот обнаруживает конфликт между тегами, выбирается именно положительное значение.
Пример:
<meta name="robots" content="all"/>
<meta name="robots" content="noindex, follow"/>
<!--Робот выберет значение all, текст и ссылки будут проиндексированы.-->
Исключение — атрибут all не влияет на noarchive:
<meta name="robots" content="all"/>
<meta name="robots" content="noarchive"/>
<!--Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки на сохраненную копию страницы.-->
- Для запрета индексирования служебных участков текста вы можете использовать тег <noindex>. Тег работает аналогично мета-тегу noindex, но распространяется только на контент, заключенный внутри тега в формате:
<noindex>текст, индексирование которого нужно запретить</noindex>
Тег noindex не чувствителен к вложенности (может находиться в любом месте html-кода страницы).
<!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->
- Атрибут rel="nofollow" используется в теге <a> в формате:
<a href="url" rel="nofollow">текст ссылки</a>
Атрибут работает аналогично мета-тегу со значением nofollow, но распространяется только на ссылку, для которой указан.
- Если на сайте присутствуют группы схожих по контенту страниц, вебмастер может указать для ка
ждой страницы группы предпочитаемый (канонический) адрес, который будет участвовать в по иске. Например, страница доступна по двум адресам:
www.examplesite.ru/pages?id=2
www.examplesite.ru/blog
Если предпочитаемый адрес — /blog, это нужно отразить в коде страницы /pages?id=2:
<link rel="canonical" href="http://www.examplesite.
Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом, который учитывается, но может быть проигнорирован.
Например, робот может не использовать указанный вами адрес, если:
- Документ по каноническому адресу недоступен для индексирования.
- В качестве канонического адреса указывается URL в другом домене или поддомене.
Вы указали несколько канонических адресов.
Итак, используя всю полученную информацию о действиях робота на страницах сайта и о том, как можно им управлять, стоит перечислить основные качества вебстраницы, которые позволят быстро и правильно проиндексировать сайт для более высоких позиций в релевантном поиске.
- Объем текста на странице. Поисковики ценят сайты, богатые информационным содержанием. В общем случае следует стремиться к увеличению текстового наполнения сайта. Оптимальными следует считать страницы, содержащие 500-3000 слов или 2-20 кб. текста (от 2 до 20 тыс. символов). Страница, состоящая всего лишь из нескольких предложений, имеет меньше шансов попасть в топ поисковых систем. Кроме того, большее количество текста на странице увеличивает видимость страницы в поисковых системах за счет редких или случайных поисковых фраз.
- Число ключевых слов на странице. Ключевые слова (фразы) должны встречаться в тексте как минимум 3-4 раза. Верхняя граница зависит от общего объема страницы – чем больше общий объем, тем больше повторений можно сделать. Отдельно следует рассмотреть ситуацию с поисковыми фразами, то есть словосочетаниями из нескольких ключевых слов. Наилучшие результаты наблюдаются, если фраза встречается в тексте несколько раз именно как фраза (т.е. все слова вместе в нужном порядке), а кроме того, слова из фразы попадаются в тексте несколько раз поодиночке.
- Плотность ключевого слова на странице показывает относительную частоту содержания слова в тексте. Плотность измеряется в процентах. Например, если заданное слово встретилось 5 раз на странице из 100 слов, то плотность этого слова равна 5%. Слишком низкая плотность приведет к тому, что поисковая система не придаст должного значения этому слову. Слишком высокая плотность способна включить спам-фильтр поисковой системы (то есть страница будет искусственно понижена в результатах поиска из-за чрезмерно частого употребления ключевой фразы). Оптимальной считается плотность ключевого текста 5-7%. В случае фраз, состоящих из нескольких слов, следует посчитать суммарную плотность всех ключевых слов, составляющих фразу и убедиться, что она укладывается в указанные пределы.
- Чем ближе ключевое слово или фраза к началу документа, тем больший вес они получают в глазах поисковой системы.
- Поисковые системы придают особое значение тексту, тем или иным способом выделенному на странице. Можно дать следующие рекомендации:
- используйте ключевые
слова в заголовках (текст, выделенный
тегами «H», в особенности «h1»
- выделяйте ключевые слова жирным шрифтом (не во всем тексте, конечно же, но сделать такое выделение 2-3 раза на странице не помешает). Для этого рекомендуется использовать тег «strong», вместо более традиционного тега «B» (bold).
- Тег TITLE является одним из наиболее важных тегов, так как ссылка на сайт в выдаче поисковой системы будет содержать текст из этого тега. Это визитная карточка страницы, поэтому он должен содержать не только ключевые слова, но и быть информативным и привлекательным.
- Использование ключевых слов в тексте исходящих ссылок с страниц сайта (как на другие внутренние страницы сайта, так и на другие ресурсы сети) может добавить вам небольшое преимущество при ранжировании.
- Любое изображение на странице имеет специальный атрибут «альтернативный текст», который задается в теге «ALT». Этот текст будет отображен на экране в том случае, если скачать изображение не удалось или же показ изображений заблокирован в браузере. Поисковые системы запоминают значение тега ALT при разборе (индексации) страницы, однако не используют его при ранжировании результатов поиска.На данный момент достоверно известно, что поисковая система Google учитывает текст в теге ALT тех изображений, которые являются ссылками на другие страницы, остальные же теги ALT игнорируются.
- Мета-тег Description специально предназначен для задания описания страницы. Этот тег никак не влияет на ранжирование, но, тем не менее, очень важен. Многие поисковые системы отображают информацию из этого тега в результатах поиска, если этот тег присутствует на странице и его содержимое соответствует содержимому страницы и поисковому запросу.
Поиск информации.
Настало время понять, для чего же нам нужны все эти сложности с написанием сайта. А связаны они с тем, что при поиске, первым делом, анализируется запрос, введенный пользователем (происходит препроцессинг запроса), в результате которого вычисляются веса для каждого из слов.
Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос. Другими словами, вычисляется схожесть документа запросу примерно по следующей формуле