Работа поисковых систем

Автор работы: Пользователь скрыл имя, 17 Декабря 2012 в 18:17, реферат

Краткое описание

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Содержание

1. Понятия и функции поисковых систем......................2
1.1. Краткая история развития поисковых систем........7
2. Компоненты поисковых систем……………………..9
2.1. Основные характеристики поисковой системы…11
3. Особенности различных поисковых систем………14
4. Заключение………………………………………….17
5. Список использованной литературы………………18

Вложенные файлы: 1 файл

поисковые системы.doc

— 88.50 Кб (Скачать файл)

Государственное образовательное учреждение

Высшего профессионального  образования

САНКТ-ПЕТЕРБУРГСКИЙ  УНИВЕРСИТЕТ

 

 

 

 

Кафедра

Информационных  систем

 

 

 

 

 

 

Реферат

 

по дисциплине: Сетевая экономика

на тему: «Работа  поисковых систем»

 

 

 

Выполнила

студентка гр.

.

Проверила

Преп

 

___________________

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Санкт-Петербург, 2012

Содержание

1. Понятия и функции поисковых систем......................2

1.1. Краткая история развития поисковых систем........7

2. Компоненты поисковых систем……………………..9

2.1. Основные характеристики поисковой системы…11

3. Особенности различных поисковых систем………14

4. Заключение………………………………………….17

5. Список использованной литературы………………18

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.Понятие  и функции поисковых систем.

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Рассмотрим подробнее  понятие поискового запроса на примере  поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов).

Первоочередная  задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все  эти вопросы, разработчики поисковых  машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

Задача любой поисковой системы выводит в результатах выдачи максимально релевантный результат, то есть максимально соответствующий запросу пользователя. Более того, алгоритмы так же учитывают авторитет ресурса, информативность сайта и страницы.

Каждая поисковая система  стремится очистить ряды поисковой  выдачи от искусственно накрученных, малоинформативных  и неинтересных проектов. Не смотря на то, что поисковый алгоритм представляет собой череду математических формул, за ними стоит кропотливая работа многих человеческих умов.

Таким образом, поисковые машины борются за своего пользователя, конкурируя между собой, ведут непрекращающуюся борьбу с мастерами накрутки сайтов. Как только алгоритм становится известен и достаточно точно просчитан, в ТОПе выдач появляются сайты, которых там быть не должно. Для борьбы с такими явлениями у Яндекса например существуют случайные составляющие алгоритма.

Как правило, все поисковики стремятся приблизить работу алгоритма  к работе живого человека. Поэтому  при оптимизации страниц сайта можно дать общую рекомендацию для всех случаев – писать тексты не для поисковых роботов, а для людей.

Существуют специальные  сервисы, собирающие данные о наиболее часто встречающихся запросах и о часто просматриваемых страницах. Совокупность данной информации так же используется при выдаче результатов. Алгоритмы так же оценивают тематику сайтов ссылающиеся на другие сайты, сравнивают содержимое сайтов, которые ссылаются, с теми, на которые они ссылаются, определяя в итоге максимально релевантные страницы. Поэтому тематические ссылки, с авторитетных, ценятся выше.

Многие алгоритмы поисковых  систем исследуют и внутреннее строение  сайтов, оценивая ссылочную структуру, простоту навигации и соотношение страниц, плотность ключевых слов и т.д. 
Полученная информация  формируются в базы данных, на основании которых и производится ранжирование сайтов и страниц в поисковой выдаче. Причем, во многих случаях, существует ручная модерация.

 
Вот общий список параметров, которые учитывают поисковые  системы и на основании которых  регулируется поисковая выдача: 
1.    Количество ключевых слов или запросов на странице и на сайте. 
2.    Отношение числа слов на сайте к их количеству на сайте. 
3.    Отношение числа слов на странице к их количеству на странице. 
4.   Индекс цитирования.  
5.    Тематика и ее популярность. 
6.    Количество запросов по ключевому запросу за период времени. 
7.    Общее количество проиндексированных страниц сайта. 
8.    Применение стиля к страницам ресурса. 
9.    Объём текста всего сайта. 
10.  Общий размер сайта. 
11.   Размер каждой страницы сайта. 
12.   Объём текста на каждой странице сайта. 
13.   Возраст домена и время существования сайта. 
14.   Домен и URL сайта и его страниц, наличие в нем ключевых слов . 
15.   Частота обновления информации на сайте. 
16.   Последнее обновление сайта и его страниц. 
17.   Общее число картинок (рисунков, фотографий) на сайте и на странице. 
18.   Количество мультимедийных файлов. 
19.   Наличие описаний (замещающих надписей) на картинках. 
20.   Количество символов (длина) в описании картинок. 
21.   Использование фреймов . 
22.   Язык сайта. 
23.   Географическое положение сайта. 
24.   Шрифты и теги, которыми оформлены ключевые слова и фразы. 
25.   Где на странице располагаются ключевые слова. 
26.   Стиль заголовков. 
27.   Наличие и анализ мета-тегов «title» «dеscription» «keywords». 
28.   Параметры файла «robot.txt». 
29.   Программный код сайта. 
30.   Присутствие в составе сайта flash модулей. 
31.   Наличие дублей страниц или контента . 
32.   Соответствие содержания сайта разделу каталога поисковика. 
33.   Наличие «стоп слов» . 
34.   Количество внутренних ссылок сайта. 
35.   Количество внешних входящих и исходящих ссылок . 
36.   Использование java скриптов . 
37.   Другие параметры.

1.2.Краткая история развития поисковых систем.

В начальный  период развития Интернет, число его  пользователей было невелико, а объем  доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации  доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой  системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые  системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри  Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном  Интернете.

В настоящее  время существуют три основные международные  поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы  поиска. Большинство остальных поисковых  систем (коих насчитывается большое  количество) использует в том или  ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.Компоненты поисковых систем.

Во всех поисковых  системах программные компоненты можно  разделить на пять основных групп:

  • spider «паук»
  • crowler «путешествующий паук»
  • indexer индексатор
  • database базы данных
  • search engine results engine системa выдачи результатов

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы. Spider скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Crawler выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Indexer разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database (база данных) – хранилище скачанных и обработанных страниц. Database - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных. Search Engine Results Engine занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы рассмотрим отдельные факторы, влияющие на ранжирование результатов.

 

 

 

 

 

 

 

 

 

2.1. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

Информация о работе Работа поисковых систем