Сравнительный анализ поисковых систем

Автор работы: Пользователь скрыл имя, 05 Мая 2014 в 10:03, курсовая работа

Краткое описание


Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.
Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

Содержание


Введение………………………………………………………………..3
Глава 1. Поисковые технологии в сети……………………….……..4
1.1 История развития поисковых систем………………………..……4
1.2 Классификация поисковых систем…………………………..……7
Глава 2 . Сравнительный анализ поисковых систем…………...…..15
2.1 Яндекс………………………………………………………..…….15
2.2 Гугл…………………………………………………………………20
2.3 Нигма………………………………………………………………..23
2.4 Практическая часть…………………………………………………25
Заключение………………………………………………………..……28
Список использованной литературы………………………….………30

Вложенные файлы: 1 файл

КУРСОВАЯ.doc

— 1.53 Мб (Скачать файл)

Хотя корпорация была основана 2 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года, поисковик (с 2000 года) иногда отмечает свой день рождения и в другой день: как 7, так и 27 сентября.

Название Google произошло от слова Гугол (Googol) намеренно искажённого Сергеем Брином, которое означает десять в сотой степени —  .

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» выведет все статьи Википедии на всех языках, в заголовке которых встречается слово Google. Мощный язык запросов в руках хакеров может быть использован для исследования веб-сайтов на уязвимости.

Поиск в найденном

Для результатов поиска Google ранее предоставлял возможность повторного поиска, что позволяло производить поиск более детально. Для более детального поиска пользователям необходимо было указывать дополнительные параметры по которым происходил отбор результатов, что позволяло сразу отобразить не только запрос, но и контекст где он применяется. Данная возможность упрощала процедуру поиска исключив необходимость в открытии каждого результата.

Вики поиск

Поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. В настоящий момент (4 мая 2010 года), в настройках поиска осталась настройка для включения «Википоиска», но в выдаче соответствующие элементы управления отсутствуют. Другие поисковые системы подобной функциональности пока не предоставляли.

Голосовой поиск

22 сентября 2010 года компания  запустила голосовой поиск в  России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

Google Doodle

По случаю праздника или круглой даты какой-нибудь широко известной личности, стандартный логотип Google у некоторых или, реже, — у всех региональных доменов может меняться на праздничный, имеющий определённую тематику, смысл, но в стиле Google (англ. Holiday and Events — Google style!). Например, по случаю дня рождения Наполеона Орды 11 февраля 2010 года на логотипе белорусского домена Google появились акварели этого известного художника, 6 июля поздравляли со 121- летием Марка Шагала (логотип был в виде коллажа из фрагментов его работ)[26]. После десятилетнего ожидания 22 марта 2011 года Google выиграл патент на «Google Doodle».

Российские:


  • 12 июля 2011 появился логотип с изображением Собора Василия Блаженного, в честь 450-летия этого памятника культуры.
  • 27 августа 2011 появился логотип с изображением Фаины Раневской.
  • 1 сентября 2011 появился логотип к празднику День знаний.
  • 11 ноября появился логотип с изображением Фёдора Достоевского в честь 190-летия со дня рождения великого русского писателя.
  • 19 ноября 2011 года показывался логотип к 300-летию со дня рождения величайшего русского ученого мирового значения, Михаила Васильевича Ломоносова, с его изображением.
  • 18 декабря 2011 года показывался логотип к 90-летию со дня рождения Юрия Никулина.
  • 25 января 2012 года показывался логотип к 74-летию со дня рождения Владимира Высоцкого.
  • 17 февраля 2012 показывался логотип к 106-летию со дня рождения Агнии Барто.

Интерактивные:

  • Игра Pac-Man (включение/выключение звука, управление передвижением мышкой или клавишами со стрелками клавиатуры)
  • 9 июня 2011 появился интерактивный логотип, посвящённый 96-й годовщине со дня рождения Леса Пола. Лого предоставляет возможность генерировать звуки (с изображением колеблющейся гитарной струны), записывать и проигрывать мелодии, передавать записанное (как URL).
  • 15 июня 2011 года (к лунному затмению) был выпущен очередной интерактивный логотип, демонстрирующий (с возможностью прокрутки) фазы затмения.
  • 5 сентября 2011 года ко дню рождения Фредди Меркьюри был выпущён логотип, в котором показан мульт-клип на песню Queen — Don’t Stop Me Now, созданный компанией Google.
  • 23 ноября 2011 года — к 60-летию первой публикации Станислава Лема (по мотивам иллюстраций польского художника Даниэля Мроза к Кибериаде).
  • 9 апреля 2012 года — к 182-летию со дня рождения Эдварда Мейбриджа. Логотип представляет из себя 21 сектор разного цвета, в каждом из которых бежит скаковая лошадь

 

2.3 Нигма

Нигма.РФ —российская интеллектуальная метапоисковая система, первая кластеризующая поисковая система в Рунете. Проект создан при поддержке факультетов ВМиК и психологии МГУ, а также Стэнфордского университета. Название «Nigma» (один из родов пауков семейства Dictynidae, en:Nigma) было выбрано по ассоциации со Всемирной паутиной.

На момент появления Нигма.РФ в проекте участвовало 2 человека, а именно Виктор Лавренко и Владимир Чернышов. На начало 2009 года в проекте работает более 25 человек.


Nigma осуществляет поиск как по  своему индексу, так и по индексам Google, Yahoo, Bing, Яндекс, Rambler, AltaVista, Aport.

По состоянию на 28 февраля 2009 года в суммарном индексе всех этих поисковых систем находилось более 7,16 млрд русскоязычных документов.

Кластеризация

На основе введённого пользовательского запроса Нигма формирует список документов, разделённых на несколько множеств (кластеров). Пользователь может уточнить, в каком множестве продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему множества сайтов, например, документы, пришедшие синтернет-магазинов (для них формируется специальный кластер).

Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.

Примеры запросов:

  • музыка
  • курсы
  • каникулы

Морфология

Nigma поддерживает русскую морфологию. Используется морфологический модуль для русского языка собственной разработки.

Ранее в Нигме поддержка морфологии была реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены распространённые морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращал, а увеличивал количество найденных документов, так как морфологически изменённый запрос объединяется с исходным. Релевантность также увеличивалась, так как использовались специальные алгоритмы объединения результатов.

Таким образом, через Nigma, например, можно было искать документы в индексе Google с учётом русской морфологии даже в то время, когда Google не поддерживал русскую морфологию. Сейчас надобность в данной технологии отпала, так как все ведущие поисковые системы поддерживают русскую морфологию.

Nigma позволяет производить простейшие  арифметические преобразования  и решать математические задачи, с учётом различных единиц  измерения и распознаванием математических  и физических констант. Также  поддерживаются запросы на конвертацию валют, решение систем уравнений и построение графиков функций.

Математическая система была запущена в октябре 2008 года.

В декабре 2008 года появилась поддержка запросов по неорганическим химическим реакциям, как по исходным, так и по конечным веществам реакции. Впоследствии были добавлены поиск химических реакций и поддержка органической химии.

На 2011 год система позволяет производить поиск по более чем 12 000 неорганических реакций. Вещества можно задавать как в виде названий («хлорид натрия», «каменная соль»), так и в виде формул («NaCl»).

Практическая часть

На примере Яндекса покажем, как работают поисковые системы.

Например, в поисковой системе Яндекс будет искать музыку. Для этого откроем любой браузер. Я использую браузер Гугл Хром. В поисковую строку набираем слово «музыка» и нажимаем на значок поиск или жмем Enter.

В данном случае Яндекс нашел около 268 млн. результатов.

Дальше поводим курсор мыши на тот сайт, который вам нужен и нажимаем на левую кнопку мыши. Например, откроем сайт «тут зайцев нет». Здесь можно скачивать или слушать музыку. Так же можно просмотреть новости, видео или картинки.

 Для этого нужно  нажать левой кнопкой мыши  на слово. Например попробуем  картинки.

Для сравнения можно осуществить поиск в поисковой системе Гугл. Повторим ту же процедуру. Введем слово музыка и нажмем поиск.

В поисковой системе Гугл нашлось 499 млн. результатов. Это почти в два раза больше результата Яндекс. Так же в поисковой системе Гугл указывается скорость нахождения этого результата. Гугл нашел искомый запрос за 0,11 секунду.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Заключение

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда ``релевантная запросу информация'' и ``нужная пользователю информация'' - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время.  
       Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект – насколько хорошо система способна найти релевантную данному запросу  информацию. Можно подобрать оптимальный запрос, когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Список использованной литературы

1. Абрамзон Михаил. Яндекс для всех. — СПб.: БХВ-Петербург, 2007. — 544 с. — ISBN 978-5-9775-0144-6

2. . Ашманов И. С., Иванов А. А. Продвижение сайта в поисковых системах. — М.: Вильямс, 2007. — 304 с. — ISBN 978-5-8459-1155-1

3. Байков Владимир Дмитриевич Интернет. Поиск информации. Продвижение сайтов. — СПб.: БХВ-Петербург, 2000. — 288 с. — ISBN 5-8206-0095-9

4. Гусев Владимир Сергеевич. Яндекс: эффективный поиск информации в Интернет. Краткое руководство. — М.: Диалектика, 2007. — 224 с. — ISBN 978-5-8459-1230-5

5. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. — М.: Диалектика, 2007. — 272 с. — ISBN 978-5-8459-1269-5

6. Кормен Т, Ч. Лейзерсон, Р.Ривест Алгоритмы: построение и анализ. МЦНМО, 2007. – 143 с.

7. Ландэ Д. В. Поиск знаний в Internet. — М.: Диалектика, 2005. — 272 с. — ISBN 5-8459-0764-0

8. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5

9. Симонович С.В. «Информатика. Базовый курс»- издательство "Питер", 2000. — 640 с.

10. Курносов А.П. « Практикум по информатике» Воронеж: ВГАУ, 2001.- 173с.

11. http://ru.wikipedia.org/

 

 


 

 

 

 

 


 



Информация о работе Сравнительный анализ поисковых систем