Индексация сайтов

Автор работы: Пользователь скрыл имя, 20 Мая 2013 в 02:45, реферат

Краткое описание

Скачать в ZIP архиве (162.89 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

ИПСИС.docx

Введение.

Для начала давайте разберемся с терминологией. Индексация страницы – это посещение страницы поисковым роботом какой-либо поисковой системы и занесение ее в базу данных поисковика. Поисковой робот - это программа, встроенная в поисковую систему как её составная часть и подчиняющаяся алгоритмам этой поисковой системы. Кроме того, робот подчиняется и автору или администратору веб-сайта. Для подчинения себе робота поисковика администратор сайта должен грамотно написать инструкции в файле robots.txt, который является инструкцией для робота, какие страницы не заносить в свой индекс и как часто посещать сайт.

Процесс индексации.

Для того чтобы сайт обнаруживался при релевантном поисковом запросе, необходимо сначала внести его в базу данных поисковика. Каким же образом мы можем зарегистрировать свой сайт в поисковой системе? Существуют два решения этой проблемы:

Индексация страницы через непосредственное принудительное добавление ее адреса в форму регистрации поисковой системы, но это не дает гарантий, что страница будет проиндексирована быстро. Такой вариант используется, когда страница абсолютно новая, и ее адрес еще не известен поисковым роботам. При добавлении страницы в поисковую систему достаточно указывать только основную страницу, снабдив ее внутренними ссылками на все остальные. Проводя индексацию страницы, поисковый робот найдет все остальные по ссылочному содержимому и впоследствии проиндексирует.
Нахождение адреса страницы на уже проиндексированных ресурсах. Такой вариант индексации страницы наиболее предпочтителен, так как поисковый робот придет на Ваш сайт по ссылке с другого ресурса, на котором она расположена.

У поисковых систем есть ряд особенностей, связанных с индексацией ими документов в сети. Первой особенностью можно считать то, что кроме обратного индекса(При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.), который создается из оригинального документа, скачанного из сети, поисковая система сохраняет еще и копию этого самого документа, иначе говоря, кроме обратного индекса документа, поисковики хранят еще и прямой индекс документа, который используется для составления сниппетов для документа.

Однако далеко не всегда индексация сайта происходит правильно, что в результате приводит к занижению позиций сайта при поиске или к выпадению из релевантного поиска вообще. Для исключения подобной ситуации стоит помнить следующие особенности работы поисковых роботов:

Поисковые системы индексируют не более 100-200 кб текста на странице и не более 100-150 тысяч страниц на одном сайте.
Использование в дизайне сайта флеш и большого количества графических элементов затрудняет индексацию, так как поисковые системы попросту не видят на страницах флеш и графику.
В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.
Использование динамических страниц приводит к тому, что при посещении таких страниц роботы поисковых систем выявляют одну и ту же страницу с разными идентификаторами сессий и, как следствие, определяет их как разные. Примером может послужить печатная версия страницы сайта: рано или поздно поисковая система может «склеить» эту страницу с основной, которая отображается в браузере, и в последствии в результатах выдачи будет выводится именно печатная версия, а не основная страница.
Установка в коде страниц скриптов различного предназначения не позволит роботу проиндексировать сайт, в том числе сюда относится использование выпадающего меню сайта. Поисковый робот не читает элементы сделанные на основе скриптов, и использование их также становится преградой для качественной индексации страницы.
Индексация страницы не будет выполнена, если размер или вес страницы менее 1кб.
Воровство текстового содержимого (плагиат контента) с другого ресурса может привести к "склейке" страниц из-за одинакового содержимого. От этого выйграет только первый владелец, так как получит дополнительную ссылку на свой сайт.
Редиректы затрудняют анализ сайта поисковыми роботами. Не следует использовать редиректы, если для этого нет четких причин.
Скрытый текст, равно как и однопиксельные картинки, является приемом "серой" оптимизации сайтов и может привести к бану сайта (иключение его из баз данных поисковика).

Улучшение индексации сайта.

Как уже упоминалось, роботу можно помочь с индексацией сайта для более быстрой регистрации сайта и правильного его отображения в поиске. Для этого стоит позаботиться о следующем:

запрет в файле robots.txt на индексирование страниц, неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, страницы с результатами поиска, сайты-зеркала, документы на нераспространенных в рунете языках;
создание файла Sitemap с дополнительной информацией о страницах сайта, подлежащих индексированию;
создание карты сайта, то есть страницу или несколько страниц, которые содержат ссылки на все документы сайта;
настройка сервера на выдачу корректных заголовков ответов (например, если страница не существует, выдавать ошибку 404, а если поступил запрос If-Modified-Since, то выдавать код 304, если страница с указанной в запросе даты не изменялась).

Более того, работой поискового робота можно непосредственно управлять при написании сайта при помощи ряда методов:

Мета-теги позволяют вебмастерам указывать метаданные о странице сайта. Ряд мета-тегов также используется роботами поисковых систем (рассмотрим на примере Робота Яндкса):

<meta name="Keywords" content="..."/> — может учитываться при определении соответствия страницы поисковым запросам,

<meta name="Description" content="..."/> — содержание данного тега может использоваться в сниппетах (описаниях сайтов на странице результатов поиска),
<meta http-equiv="Content-Type" content="type; charset=..."/> — робот может учитывать этот тег при определении типа документа и его кодировки,
<meta http-equiv="refresh" content="N;url=_адрес цели перенаправления_"/> — перенаправление (редирект) пользователя на страницу с адресом url, после N секунд нахождения на данной странице.

Также робот Яндекса учитывает указания в тегах:

<meta name="robots" content="all"/> — разрешено индексировать текст и ссылки на странице, аналогично <meta name="robots" content="index, follow"/>
<meta name="robots" content="noindex"/> — не индексировать текст страницы,
<meta name="robots" content="nofollow"/> — не переходить по ссылкам на странице,
<meta name="robots" content="none"/> — запрещено индексировать текст и переходить по ссылкам на странице, аналогично <meta name="robots" content="noindex, nofollow"/>
<meta name="robots" content="noarchive"/> — не показывать ссылку на сохраненную копию на странице результатов поиска.
<meta name="robots" content="noyaca"/> — не использовать описание из Яндекс.Каталога для сниппета в результатах поиска.
<meta name="robots" content="noodp"/> — не использовать описание из каталога DMOZ для сниппета в результатах поиска.

Робот не узнает о документах, если ссылки на них стоят со страницы, содержащей мета-тег со значением nofollow, тем не менее, они могут быть проиндексированы, если где-либо еще на них указаны ссылки без nofollow.

Если мета-теги не указаны, робот считает, что они имеют положительное значение (index, follow, archive). Если робот обнаруживает конфликт между тегами, выбирается именно положительное значение.

Пример:

Исключение — атрибут all не влияет на noarchive:

Для запрета индексирования служебных участков текста вы можете использовать тег <noindex>. Тег работает аналогично мета-тегу noindex, но распространяется только на контент, заключенный внутри тега в формате:

<noindex>текст, индексирование которого нужно запретить</noindex>

Тег noindex не чувствителен к вложенности (может находиться в любом месте html-кода страницы).

текст, индексирование которого нужно запретить

Атрибут rel="nofollow" используется в теге <a> в формате:

<a href="url" rel="nofollow">текст ссылки</a>

Атрибут работает аналогично мета-тегу со значением nofollow, но распространяется только на ссылку, для которой указан.

Если на сайте присутствуют группы схожих по контенту страниц, вебмастер может указать для каждой страницы группы предпочитаемый (канонический) адрес, который будет участвовать в поиске. Например, страница доступна по двум адресам:

www.examplesite.ru/pages?id=2

www.examplesite.ru/blog

Если предпочитаемый адрес — /blog, это нужно отразить в коде страницы /pages?id=2:

Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом, который учитывается, но может быть проигнорирован.

Например, робот может не использовать указанный вами адрес, если:

Документ по каноническому адресу недоступен для индексирования.
В качестве канонического адреса указывается URL в другом домене или поддомене.

Вы указали несколько канонических адресов.

Итак, используя всю полученную информацию о действиях робота на страницах сайта и о том, как можно им управлять, стоит перечислить основные качества вебстраницы, которые позволят быстро и правильно проиндексировать сайт для более высоких позиций в релевантном поиске.

Объем текста на странице. Поисковики ценят сайты, богатые информационным содержанием. В общем случае следует стремиться к увеличению текстового наполнения сайта. Оптимальными следует считать страницы, содержащие 500-3000 слов или 2-20 кб. текста (от 2 до 20 тыс. символов). Страница, состоящая всего лишь из нескольких предложений, имеет меньше шансов попасть в топ поисковых систем. Кроме того, большее количество текста на странице увеличивает видимость страницы в поисковых системах за счет редких или случайных поисковых фраз.
Число ключевых слов на странице. Ключевые слова (фразы) должны встречаться в тексте как минимум 3-4 раза. Верхняя граница зависит от общего объема страницы – чем больше общий объем, тем больше повторений можно сделать. Отдельно следует рассмотреть ситуацию с поисковыми фразами, то есть словосочетаниями из нескольких ключевых слов. Наилучшие результаты наблюдаются, если фраза встречается в тексте несколько раз именно как фраза (т.е. все слова вместе в нужном порядке), а кроме того, слова из фразы попадаются в тексте несколько раз поодиночке.
Плотность ключевого слова на странице показывает относительную частоту содержания слова в тексте. Плотность измеряется в процентах. Например, если заданное слово встретилось 5 раз на странице из 100 слов, то плотность этого слова равна 5%. Слишком низкая плотность приведет к тому, что поисковая система не придаст должного значения этому слову. Слишком высокая плотность способна включить спам-фильтр поисковой системы (то есть страница будет искусственно понижена в результатах поиска из-за чрезмерно частого употребления ключевой фразы). Оптимальной считается плотность ключевого текста 5-7%. В случае фраз, состоящих из нескольких слов, следует посчитать суммарную плотность всех ключевых слов, составляющих фразу и убедиться, что она укладывается в указанные пределы.
Чем ближе ключевое слово или фраза к началу документа, тем больший вес они получают в глазах поисковой системы.
Поисковые системы придают особое значение тексту, тем или иным способом выделенному на странице. Можно дать следующие рекомендации:

- используйте ключевые слова в заголовках (текст, выделенный тегами «H», в особенности «h1» и «h2»). В настоящее время использование css позволяет переопределить вид текста, выделенного этими тегами, поэтому использование тегов «H» имеет меньшее значение, чем раньше, однако, пренебрегать ими ни в коем случае не стоит;

- выделяйте ключевые слова жирным шрифтом (не во всем тексте, конечно же, но сделать такое выделение 2-3 раза на странице не помешает). Для этого рекомендуется использовать тег «strong», вместо более традиционного тега «B» (bold).

Тег TITLE является одним из наиболее важных тегов, так как ссылка на сайт в выдаче поисковой системы будет содержать текст из этого тега. Это визитная карточка страницы, поэтому он должен содержать не только ключевые слова, но и быть информативным и привлекательным.
Использование ключевых слов в тексте исходящих ссылок с страниц сайта (как на другие внутренние страницы сайта, так и на другие ресурсы сети) может добавить вам небольшое преимущество при ранжировании.
Любое изображение на странице имеет специальный атрибут «альтернативный текст», который задается в теге «ALT». Этот текст будет отображен на экране в том случае, если скачать изображение не удалось или же показ изображений заблокирован в браузере. Поисковые системы запоминают значение тега ALT при разборе (индексации) страницы, однако не используют его при ранжировании результатов поиска.На данный момент достоверно известно, что поисковая система Google учитывает текст в теге ALT тех изображений, которые являются ссылками на другие страницы, остальные же теги ALT игнорируются.
Мета-тег Description специально предназначен для задания описания страницы. Этот тег никак не влияет на ранжирование, но, тем не менее, очень важен. Многие поисковые системы отображают информацию из этого тега в результатах поиска, если этот тег присутствует на странице и его содержимое соответствует содержимому страницы и поисковому запросу.

Поиск информации.

Настало время понять, для чего же нам нужны все эти сложности с написанием сайта. А связаны они с тем, что при поиске, первым делом, анализируется запрос, введенный пользователем (происходит препроцессинг запроса), в результате которого вычисляются веса для каждого из слов.

Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос. Другими словами, вычисляется схожесть документа запросу примерно по следующей формуле

Информация о работе Индексация сайтов