Сравнительный анализ поисковых систем
Автор работы: Пользователь скрыл имя, 05 Мая 2014 в 10:03, курсовая работа
Краткое описание
Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.
Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.
Содержание
Введение………………………………………………………………..3
Глава 1. Поисковые технологии в сети……………………….……..4
1.1 История развития поисковых систем………………………..……4
1.2 Классификация поисковых систем…………………………..……7
Глава 2 . Сравнительный анализ поисковых систем…………...…..15
2.1 Яндекс………………………………………………………..…….15
2.2 Гугл…………………………………………………………………20
2.3 Нигма………………………………………………………………..23
2.4 Практическая часть…………………………………………………25
Заключение………………………………………………………..……28
Список использованной литературы………………………….………30
Вложенные файлы: 1 файл
КУРСОВАЯ.doc
— 1.53 Мб (Скачать файл)Содержание
Введение…………………………………………………………
Глава 1. Поисковые технологии в сети……………………….……..4
1.1 История развития поисковых систем………………………..……4
1.2 Классификация поисковых систем…………………………..……7
Глава 2 . Сравнительный анализ поисковых систем…………...…..15
2.1 Яндекс………………………………………………………..…
2.2 Гугл…………………………………………………………………
2.3 Нигма……………………………………………………………….
2.4 Практическая часть………………………………
Заключение……………………………………………………
Список использованной литературы………………………….………30
Введение
Большинство пользователей
Интернет сообщества начинают свой рабочий
день с поисковых систем, где пытаются
найти столь необходимую им информацию
и решить свои проблемы. К сожалению, поисковые
системы часто не способны точно и справедливо интерпретировать ресурсы.
Как результат, на первых позициях поиска
зачастую оказываются сайты "далекие"
от решаемого вопроса. При этом ресурсы
представляющие реальную пользу оказываются
"за бортом" поиска.
Причина такого положения проста и кроется
в технологии получения и представления
результатов поисковыми системами. При
этом надо понимать, что главная проблема
заключается в отсутствии четких правил,
доступных и открытых для всех желающих.
Чем больше неопределенности в алгоритмах
формирования поисковых индексов (некий
черный ящик), тем меньше поисковые системы
отражают процесс формирования реальной
информации. И соответственно, тем меньше
будет уровень доверия к результатам поиска
поисковых систем.
Как это не парадоксально, но это вина
не поисковых систем, поскольку они обязаны
скрывать правила построения поисковых
индексов. Это вина самой технологии при
организации поиска. По своей сути технология
поисковых систем направлена на пассивного
пользователя. Необходимо зарегистрировать
только сайт, дальше все сделает поисковый
робот. Он просканирует ресурс страницу
за страницей, пытаясь проанализировать
содержание каждой из них. Трудоемкость
пользователя минимальна, что позволяет
использовать разные методики по "обману"
поисковых роботов при низких затратах
сил и средств. В такой схеме работы поисковым
системам необходимо изменять алгоритмы
и правила индексирования ресурсов и построения
поискового индекса.
Конечно, большинство пользователей пользовались,
пользуются, и будут пользоваться классическими
поисковиками. Это просто, удобно и распространено.
Это, как привычка, пользоваться поисковиками.
Глава 1. Поисковые технологии в сети.
Поисковая система - это программное
обеспечение, предоставляющее доступ
к коллекции слабоструктурированной информации.
Ориентация на слабоструктурированные
данные, т.е. данные, которые нельзя представить
в виде реляционной таблицы, отличает
поисковую систему от СУБД.
В данном определении поисковой
системы подразумевается информация различного
рода, т.е. текст, аудио, видео, изображения
и т.п. Однако следует отметить, что именно
текстовые данные идеально подходят для
описания полной функциональности поисковой
системы, т.к. алгоритмы поиска мультимедийной
информации, прежде всего, основываются
на алгоритмах поиска текста.
Поисковые системы при
использовании Интернет играют очень
важную роль. В Интернете сосредоточено
такое количество информации, что ее поиск
уже превращается в отдельную задачу и
отнимает очень много времени. Поисковые
серверы выдают на запрос тысячи ссылок
вместо нескольких страниц, где действительно
имеется нужная информация. Пользователи
всемирной сети Интернет, осознав преимущества,
предоставляемые возможностью анализа
пространственных данных, нуждаются в
инструменте, позволяющем осуществлять
быстрый и удобный поиск и доступ к цифровым
снимкам местности и другой пространственной
информации, сосредоточенной во многих
правительственных, коммерческих и академических
организациях.
- История развития поисковых систем
Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google самая популярная поисковая система в мире.23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет. В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.Поисковая система состоит из следующих основных компонентов:Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.Database (база данных) – хранилище скачанных и обработанных страниц.Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов. Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.Яндекс это самая известная современная поисковая система в России. Ее посещает около трех миллионов человек в день. В данной поисковой системе есть возможность размещать платные объявления в результатах поиска. Раскрутка сайта в Яндексе является приоритетной задачей для большинства сайтов, ориентированных на российскую аудиторию. Одним из критериев при определении позиции сайта в результатах поиска является индекс цитирования. Рамблер это первая российская поисковая система. Ее посещаемость в полтора раза меньше, чем посещаемость Яндекса. В поисковой системе есть рейтинг TOP100, участие в котором может быть полезно для раскрутки сайта. Гугл это крупнейшая мировая поисковая система. У данной поисковой системы самые современные алгоритмы определения соответствия сайта запросу пользователя, а значит самые качественные результаты поиска. Для определения цитируемости сайта используется PageRank. От чего зависит прибыль сайта? Если представить себе два сайта с примерно одинаковым ассортиментом, то у более посещаемого сайта прибыль будет больше . От чего же зависит посещаемость сайта? Посещаемость сайта зависит от количества денег вложенных в раскрутку сайта. Ведь без правильной раскрутки сайта сегодня нереально попасть не то что на первую страницу результатов поиска товаров и услуг, а даже и на вторую-третью. Правильная раскрутка сайта зачастую приносит больше пользы и обходится в десятки раз дешевле, чем все остальные виды рекламы вместе взятые.
- Классификация поисковых систем
Все поисковые системы условно можно разбить на три больших класса:
1) Поисковые машины (анг. - search engines).
Иначе их еще называют
2) Веб-каталоги или поисковые порталы (directories). Информация в них организуется в виде древовидной структуры, обычно по тематическому признаку и в соответствии с рейтингом. Адреса и описания веб-сайтов заносятся в каталог по заявке. Записи редактируются вручную web-мастером, модератором. Во многие каталоги попасть трудно, некоторые эту услугу делают платной. стремление хозяев сайтов попасть в любой каталог (чем больше, тем лучше) вызвано желанием разместить свою ссылку на чужом сайте и следовательно повысить рейтинг в метапоисковых системах о чем будет сказано ниже. Если вы стремитесь увеличить количество посетителей на своем сайте, то выбирайте такой каталог в котором вас будет видно. Эффект от размещения ссылки в небольшом каталоге и при наличии интересного контента может оказаться довольно высоким, т.к. с таких сайтов посетители уходят в основном по какой-нибудь ссылке. Тем не менее регистрация в таких каталогах как Yahoo! и Open Directory желательна, т.к. их базы данных используются метапоисковыми системами при определении рейтинга.
3) Метапоисковые системы - это поисковые системы у которых отсутствует своя база данных с адресами и описанием ресурсов. Они используют базы данных каталогов. В собственной базе данных хранятся только адреса ресурсов. Поиск с помощью этих систем в настоящее время наиболее популярен. О способах повышения рейтинга в этих системах на примере поисковой системы Google см. в нашей статье "О повышении индекса цитируемости"
1) Поисковые машины (от анг. search engines).
AltaVista (вид сверху) - торговая марка популярной поисковой машины. Сегодня база данных AltaVista является самой крупной в Интернете. Помимо разветвленных средств поиска текстовой информации содержит такие инструменты, как Photo Finder - поиск изображений, технологию онлайнового перевода документов и возможность индексирования на нескольких языках. В сотрудничестве с компанией AskJeeves. AltaVista разработала базу данных, управляемую при помощи команд на поддерживаемых языках.
Excite - поисковая машина. Технология Excite лицензирована компанией Netscape Communications для использования на портале NetCenter, а также корпорацией America Online (с правом собственного дополнения БД). Имеет интеллектуальные алгоритмы поиска по технологии ICE (Intelligent Concept Extraction), которые позволяют работать не только с отдельными ключевыми словами, но и с объединяющими их понятиями. Если, допустим, вы введете словосочетание "система обучения", то поисковая машина просмотрит также страницы, содержащие слова "школа", "учебник" и т.д. Таким образом, Excite очень эффективна для поиска материалов по смежным понятиям.
Goto - Компания начала свою деятельность с приобретения старой и довольно известной поисковой машины WWW Worm. Затем решено было подобрать ссылки на самые популярные темы поиска и даже расположить соответствующие ключевые слова на заглавной странице. Результаты поиска часто получаются такие же, что и в HotBot, Snap и Yahoo!, а иногда даже и лучше.
HotBot (Wired Digital) - с 1998 года поисковая машина принадлежит компании Lycos. Здесь используется оригинальная технология Inktomi, позволяющая совершать полноценный текстовый поиск по произвольному ключевому слову. Основные посетители ее поискового сервера - компьютерщики-профессионалы, которые используют HotBot для поиска необходимого программного обеспечения и данных, связанных с информационными технологиями. Однако компьютерной тематикой данная поисковая система, безусловно, не ограничивается. Постоянно ведется работа, направленная на дальнейшее ее развитие: пополняется база данных Inktomi, выпускаются новые версии алгоритмов.
InfoSeek - Поисковая машина которая когда-то входила в десятку лучших. В настоящее время она больше занимается электронной коммерцией. После создания в 1999 году совместного с компанией Walt Disney нового суперпортала под названием Go Network - этот сайт входит в первую десятку по посещаемости.
Northern Light - поисковая машина создавалась в целях увеличения информативности поиска в Интернете. Ее основная идея - контекстный поиск. Спайдер компании ежедневно индексирует тысячи сайтов, в число которых входят электронные издания, периодика, службы новостей, академические библиотеки и электронные архивы текстов. Еще одной особенностью поисковой машины Northern Light, выгодно отличающей ее других, является возможность сортирования полученной информации по адресам сайтов и тематикам. Желающие могут подписаться на всевозможные тематические подборки, например на материалы определенных рубрик из любимых газет и журналов, а затем в течение года получать специально подготовленную и отсортированную информацию. Проект Northern Light является одним из самых масштабных в Интернете.
SearchKing - поисковая система с упором на повышение достоверности информации (релевантности документов). При построении рейтинга поисковая машина учитывает количество "кликов" (щелчков) на ссылках, посещаемых в результате поиска. Поэтому каждый пользователь невольно "голосует" за самый популярный сайт.
WebCrawler - С 1996 года проект принадлежит компании Excite, поэтому на его заглавной странице находится логотип этой фирмы, а поисковая машина WebCrawler является составной частью Excite Network. Ее создатели обращают внимание на то, что многие более поздние технологии, включая Lycos и InfoSeek, были разработаны уже после появления WebCrawler. База данных проекта продолжает регулярно пополняться, но использовать эту систему рекомендуется в случаях, если нужен поиск по одному или двум ключевым словам.
2) Веб-каталоги и поисковые порталы:
LookSmart - Каталог ссылок, который редактируется вручную, усилен одной из самых мощных поисковых машин AltaVista - это позволило создать один из самых информативных порталов. гигантская база данных AltaVista поможет отыскать нужный сайт по ключевым словам, а рубрики LookSmart позволят точнее определиться с предметом поиска.
Lycos - Поисковая система специализируется в сфере Интернет-торговли. База данных регулярно пополняется. этот портал обладает мощнейшим специализированным каталогом WhoWhere, содержащим персональную информацию о зарегистрированных пользователях Интернета, а также развитыми средствами по предоставлению услуг электронной почты с ведением адресных книг и возможностью создания иерархической структуры подкаталогов для хранения персональной корреспонденции. Всем посетителям в качестве ответов на запрос вначале предлогаются сайты Open Directory Project, а затем ссылки из базы данных поискового механизма Lycos.
PlanetSearch Networks - портала нового типа, основанный на онлайновых сообществах, в которые люди смогли бы объединяться по интересам и увлечениям, а затем пользоваться не только механизмом поиска, но и тематическими досками объявлений, а также чатами. В результате прекрасный набор тематических сайтов и соответствующих поисковых систем.
Yahoo - один из самых известных порталов Сети. Каталог содержит ссылки, которые наиболее полно отвечают указанной в запросе тематике. Имеются интеллектуальные средства "отсечения" пустых, находящихся в разработке или чисто рекламных сайтов, далеких от искомой тематики. При поиске на Yahoo! большое внимание уделяется предварительному предложению отсортированной информации в каталогах, и только если найденная там информация не удовлетворяет пользователя, то запрос передается метапоисковым машинам.