Сравнительный анализ поисковых систем
Автор работы: Пользователь скрыл имя, 05 Мая 2014 в 10:03, курсовая работа
Краткое описание
Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.
Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.
Содержание
Введение………………………………………………………………..3
Глава 1. Поисковые технологии в сети……………………….……..4
1.1 История развития поисковых систем………………………..……4
1.2 Классификация поисковых систем…………………………..……7
Глава 2 . Сравнительный анализ поисковых систем…………...…..15
2.1 Яндекс………………………………………………………..…….15
2.2 Гугл…………………………………………………………………20
2.3 Нигма………………………………………………………………..23
2.4 Практическая часть…………………………………………………25
Заключение………………………………………………………..……28
Список использованной литературы………………………….………30
Вложенные файлы: 1 файл
КУРСОВАЯ.doc
— 1.53 Мб (Скачать файл)3) Метапоисковые системы:
All4One (все-в-одном) - предоставляет посетителям возможность получать результаты поиска непосредственно из поддерживаемых поисковых систем, то есть с привычным интерфейсом. После ввода запроса окно браузера разбивается на несколько фреймов. В каждом из них выводится список ссылок, найденных конкретной поисковой машиной, в число которых входят и AltaVista, и Lycos, и Excite. Надо сказать, что такой интерфейс имеет и свои недостатки: страницы со ссылками в узких фреймах очень неудобно просматривать. Однако тем, кому нужен быстрый и широкомасштабный поиск с использованием известных поисковых машин, All4One предоставит весь спектр необходимых услуг.
Debriefing - эта метапоисковая система имеет две различные версии пользовательского интерфейса: интернациональный - на английском языке и национальный - на французском. При работе с ключевыми словами на английском языке сервер использует стандартный набор популярных поисковых систем, а вот запросы на французском языке обслуживают пять поисковых систем и каталогов Франции.
Dogpile - Мощная метапоисковая система Dogpile использует для поиска не только поисковые машины, но и FTP-серверы, а также сайты, на которых собираются последние новости, фондовые котировки и "желтые страницы" Интернета. Среди дополнительных услуг, предоставляемых этим сервером, возможность получения подробных прогнозов погоды и географических карт интересующей пользователя местности.
Google - одна из самых популярных метапоисковых машин в Cети. Корректное отображение запрашиваемой информации. Представление информации согласно рейтинга в основу которого положен индекс цитируемости страниц. Рейтинг страницы определяется по количеству ссылок на нее с популярных внешних сайтов и по упоминанию данного адреса в авторитетных источниках информации.
Mamma Systems - Канадская метапоисковая система предоставляет стандартный комплекс услуг, принятый в таких случаях: используя базы данных популярных поисковых машин, она делает свою работу весьма качественно.
MetaCrawler - метапоисковая система принадлежит американской компании Go2Net. MetaCrawler вначале производит поиск необходимой информации по базам данных других систем, а затем, используя собственный алгоритм, анализирует и сортирует полученные ссылки, ищет похожие, определяет рейтинг и выдает результат клиенту. Среди других услуг, предоставляемых MetaCrawler, следует отметить возможность расширенного поиска, довольно интересное приложение MiniCrawler для поиска информации в Сети в обход сайта компании и программу MetaSpy, позволяющую вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в Сети.
OneSeek - метапоисковая система предназначена для тех, кто знает, что именно ищет. При использовании OneSeek требуется предварительно выбрать необходимую категорию, поскольку поиск интересующей информации будет производиться именно по этой тематике. Для того чтобы определиться с целями, предлагается довольно удобный интерфейс, который позволит оптимизировать поиск, сэкономит время и позволит избежать ненужных результатов.
ProFusion - Метапоисковую систему ProFusion отличает от других подобных систем наличие функции автоматического выбора трех наиболее подходящих для данного запроса поисковых машин. Это означает, что после ввода ключевого слова ProFusion пытается сузить область поиска, определить тематику, к которой относится запрос, и выбрать три оптимальные для данного случая поисковые машины.
Кроме того, ProFusion предоставляет персональный сервис по сохранению ключевых слов запроса, а затем регулярно автоматически сканирует выбранные поисковые машины, а если находит новую информацию по интересующей теме, то сообщает об этом пользователю (или создает для него "теневую" базу данных). Разрабатываются и другие вспомогательные функции системы.
Proteus - представляет собой скорее даже не метапоисковую систему, а средство переадресации запросов на другие поисковые машины. Здесь нет никакого алгоритма сортировки полученных ссылок - просто на одной странице находится окошко для ввода ключевых слов и множество кнопок для поиска во внешних поисковых системах.
SavvySearch - система предоставляет услуги расширенного поиска в Сети с 1998 года. При запросе клиента исследуются 200 внешних баз данных, сборники прайс-листов и целый ряд специальных электронных справочников и библиотек. SavvySearch имеет простой и продуманный интерфейс, удобные функции поиска. Кроме того, система предоставляет множество дополнительных услуг, количество которых постоянно растет.
Глава 2. Сравнительный анализ поисковых систем
Сегодня самым мощным и оперативным
источником информации является Интернет. Собственный
сайт в сети имеет практически каждая
крупная организация, фирма или компания.
В Интернет расположены электронные варианты
многих газет и журналов, через Интернет
вещают сотни радиостанций и телекомпаний.
В современном обществе практически нет
области человеческой деятельности, которая
не была бы представлена в сети. Умение
быстро находить необходимую информацию
сегодня так же необходимо как умение
читать и писать.
Одной из первых проблем, с которыми сталкивается
пользователь подключаясь к сети, является
проблема выбора поисковой системы. Каталоги
(общие и специальные), поисковые системы,
каталоги поисковых систем, тематические
коллекции ссылок, рейтинги и т.п., могут
стать помощником для эффективного поиска
информации, а могут помочь заблудиться
в дебрях Интернета.
Конкретные рекомендации по выбору поискового
указателя очень быстро стареют. Ситуация
в Интернете меняется буквально на глазах.
Не проходит и полугода, чтобы что-нибудь
не изменилось и в поисковых системах.
Та система, которая была наилучшей вчера,
может быть не самой лучшей сегодня и очень
плохой завтра.
1.1 Яндекс
«Я́ндекс» — российская ИТ-
Основным и приоритетным направлением
компании является разработка поискового
механизма, но за годы работы «Яндекс»
стал мультипорталом. В 2011 году «Яндекс»
предоставляет более 30 сервисов. Самыми
популярными являются: Яндекс.Картинки,Янде
Язык поисковых запросов
Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б — документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && — во всём документе.
Оператор ! позволяет отключить морфологию для конкретного слова, а !! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы, связанные с омонимией. Например запрос !!Иванов будет находить Иванова и Ивано́вых, но не Ивана.
Результаты поиска
По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.
Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска — по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.
Качество поиска
Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Такие изменения, официально объявленные, происходили, например, в марте 2004 года, августе 2005 года и январе 2007 года; по неофициальным сведениям, их значительно больше (например, в августе-сентябре 2007 года). Крупное изменение произошло в ноябре 2009 года, когда была выложена обновлённая версия поисковой программы «Снежинск». Последнее подобное изменение произошло в декабре 2010-го, когда Яндекс внедрил новую поисковую технологию «Спектр» (версия «Краснодар»). Она позволяет учитывать потребности пользователей, которые не были явно сформулированы в запросе. Например, по запросу [бетховен] пользователям покажут результаты и про биографию композитора, и его произведения, и фильм «Бетховен».
В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже — по целым семействам запросов).
Сайты, которые «Яндекс» не индексирует или ограничивает ранжирование:
- Копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.
- Единственной целью которых является перенаправление пользователя на другой ресурс, автоматически (редирект) или добровольно.
- С автоматически сгенерированным (бессмысленным) текстом.
- С каталогами (статей, программ, предприятий и т. п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.
- С невидимым или слабовидимым текстом или ссылками.
- Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).
- Предоставляющие товары или информацию по партнёрским программам, но не представляющие никакой ценности для пользователя.
- Использующие обманные техники (например, вредоносный код, скрипты, настройки серверов), перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.
- Содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы и манипулирования результатами её работы, в том числе использование элементов страниц, скрывающих ключевые слова, например, посредством скроллинга или других технических приёмов.
- Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.
- Немодерируемые форумы, доски объявлений, содержащие большое количество ссылочного спама.
- Ставящие внешние ссылки исключительно для обмана поисковых систем и «накачивания» релевантности и не являющиеся рекомендацией автора посетить ресурс.
- Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).
- Страницы сайта с результатами поиска.
Образовательная деятельность Яндекса.
В 2004—2005 и 2006—2007 годах компания финансировала гранты на исследования молодых учёных по тематике информационного поиска в виде конкурса «Интернет-математика». На конкурс 2006—2007 года поступило 156 заявок, из которых 31 отобранным заявкам было выделено финансирование на общую сумму 5 млн рублей.
Конкурс «Интернет-математика» проводился в третий раз в 2009 году, но в существенно изменённом формате и с урезанным финансированием. Все участники решали одну общую задачу, поставленную Яндексом. По выданным наборам данных, состоящих из оценок релевантности некоторых документов поисковым запросам, требовалось построить ранжирующую формулу методами машинного обучения ранжированию.
В четвёртый раз конкурс «Интернет-математика» проводился в 2010 году. К 16 мая предлагалось предсказать замеры скорости на дорогах Москвы в период с 18 до 22 часов, исходя из данных замеров с 16 до 18 часов и из статистики 30 предшествующих дней.
С октября 2009 года Яндекс совместно с Microsoft Research проводит в своём московском офисе цикл научных семинаров по информационному поиску и анализу данных для всех желающих.
1 апреля 2010 года состоялся
первый так называемый СтуДень
24 сентября 2010 года состоялся
второй СтуДень, он прошел в
Новосибирске и собрал
Школа анализа данных
В сентябре 2007 году была открыта Школа анализа данных Яндекса — двухгодичные очные вечерние курсы для подготовки специалистов в прикладных областях, связанных с обработкой больших массивов данных (в частности, полученных из интернета).
С 2008 года работа школы была разделена на два отделения — отделение анализа данных и отделение computer science (информатики). Основной контингент школы — студенты старших курсов, аспиранты московских вузов и недавние выпускники.
Школа сотрудничает с магистратурой Высшей школы экономики и МФТИ, в которой при содействии Яндекса была открыта новая базовая кафедра «Анализ данных» и кафедра Дискретной математики. Занятия проводятся в Московском корпусе МФТИ (Климентовский переулок, 1, стр. 18). Среди лекторов школы — известные учёные, такие как Альберт Ширяев и Алексей Червоненкис.
2.2 Гугл
Поисковая система Google была создана в качестве учебного проекта студентов Стэнфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали новую поисковую систему Google.