Информационные системы: Общие характеристики информационных систем

Автор работы: Пользователь скрыл имя, 05 Ноября 2012 в 20:38, курс лекций

Краткое описание

Лекция 1. Введение. Основные понятия, связанные с информационными системами 3
Лекция 2. Общая функциональность информационных систем 9
Лекция 4. Архитектуры и администрирование информационных систем 19
Лекция 5. Резервное копирование 24
Лекция 7. Основы теории информационного поиска 29
Лекция 8. Предкоординированные ИПС 34
Лекция 9. Словарные ИПС 39
Лекция 10. Стратегия поиска: использование нескольких источников 43

Вложенные файлы: 1 файл

инфосистемы.doc

— 1.77 Мб (Скачать файл)

Документальные информационные системы

Документальные информационные системы  хранят слабо структурированную  информацию. Запись документальной информационной системы обычно соответствует привычному текстовому документу, хотя может содержать и некоторое количество полей типа тех, которые используются в объектографической ИС, например, дату  создания документа или его тип (статья, закон, стихи ...). Такие поля соответствуют формальным атрибутам документа. Примеры документальных информационных систем: библиотечный каталог с аннотациями; полнотекстовая ИС типа Yandex или Google.

Поиск в документальных информационных системах так же, как и в объектографических ИС, осуществляется по сочетаниям локальных критериев, однако эти критерии применяются не к документу, как к целому, а к некоторой функции документа, называемой поисковым образом документа (ПОД). Документальные информационные системы, как правило, отличаются непредсказуемым разнообразием поисковых задач, для которых, как мы увидим в дальнейшем, полнота («найти все документы») и точность («найти только требуемые документы») недостижимы и/или несовместимы.

В качестве среды хранения документальные информационные системы используют информационно-поисковые среды с индексами в виде инвертированных файлов, о строении которых мы поговорим в следующих лекциях.

  1. Основы теории информационного поиска

Документальные информационные системы тесно связаны с процессами поиска слабо структурированной информации. Поэтому нам предстоит познакомиться с этими процессами и понять, как они влияют на архитектуры документальных информационных систем. Поскольку в подсистемы хранения и поиска в документальных информационных системах — наиболее сложные и важные из подсистем, и реализованы они с применением документальных информационно-поисковых систем, я буду использовать оба термина (документальные информационные системы и информационно-поисковые системы) как эквивалентные. Это не совсем строго, но позволяет сосредоточиться на основных проблемах архитектуры документальных информационных систем.

Несколько слов об истории

Поиск информации — задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Сначала эти средства совершенствовались в каталогах и информационных отделах крупных библиотек. В 70-е годы XX века появились базы данных, доступ к которым сначала обеспечивался через модемное подключение, а затем по протоколу telnet через Интернет. Стоимость работы с такими базами данных весьма велика. Например, одна минута работы с базой данных DIALOG (www.dialog.com) может стоить доллар (в зависимости от раздела базы), а вывод на экран одного элемента найденной записи (из, например, 70) — 20 центов. Такая высокая стоимость поиска информации потребовала создания эффективных приемов поиска.

Исследования по методам поиска информации публикуются в научных  журналах. В нашей стране — в журнале "Научная и техническая информация" (НТИ), в США — в Journal of American Society of Information Systems (JASIS).

Все найденные за много лет средства и приемы поиска информации реализованы  в документальных поисковых системах, применяемых для поиска информации в Интернете, таких, как Yahoo!, Google, Апорт, Яндекс или Рамблер, которые мы для краткости будем называть ИПС Интернета.

Библиотеки используют, в основном, три вида каталогов: алфавитные, систематические  и предметные. ИПС Интернета, при  всем их внешнем разнообразии, также попадают в один из этих классов. Причина этого — общие законы, управляющие поиском информации. Поэтому познакомимся сначала с тем, как устроены абстрактные алфавитные (словарные), систематические и предметные ИПС. А для этого придется познакомиться еще и с некоторыми терминами из теории информационного поиска.

Информационная потребность. Понятие  пертинентного документа

Итак, автор(ы) создает(ют) документ(ы). А у нас (у вас) возникает информационная потребность — отыскать документ (или документы), содержащие какие-то необходимые нам сведения. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами — говорят, что информационная потребность, вообще говоря, невербализуема. Информационная потребность выражается только в оценке просматриваемых документов — подходит или не подходит. В теории информационного поиска вместо слова «подходит» используют термин пертинентный документ, а вместо «не подходит» — непертинентный. Слово «пертинентный» происходит от английского “pertinent”, что значит «относящийся к делу, подходящий по сути».

Рис. 16. Информационная потребность существует только в мыслях пользователя

Субъективно понимаемая цель информационного  поиска — найти все пертинентные и только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше», такой поиск называется исчерпывающим). Для сколько-нибудь больших документальных информационных систем эта цель недостижима.

Действительно, для того, чтобы  решить, является ли документ пертинентным, необходимо просмотреть этот документ и сделать его оценку. Известно, что специалист в состоянии просмотреть с оценкой за один сеанс просмотра не более 50—100 документов, что явно намного порядков меньше, чем то количество документов, которое содержится в любой из современных ИПС.

Информационный поиск и взаимодействие культур

Информационная потребность выражается только в оценке просматриваемых документов. Но деятельность человека, связанная с выработкой оценок, всегда происходит в рамках той культуры (культур), с которыми связан человек. Для информационного поиска наличие таких «культурных» ограничений означает присутствие препятствий, связанных с различием культур автора и пользователя, ищущего документ. Наиболее ярко такое различие проявляется в отличии языка текста документа от родного языка пользователя. Этим, однако, подобные различия не ограничиваются. Поскольку, например, профессиональные сообщества зачастую порождают специфическую терминологию, то незнание такой терминологии может служить непреодолимым препятствием в оценке найденных документов.

Рассмотрение поиска в документальных информационно-поисковых системах как межкультурной коммуникации является весьма плодотворным и помогает находить ответы на многие вопросы, связанные с поиском.

Информационный шум

Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами (конечно, если цель нашего поиска — редактор для Quake, а попался документ с кулинарным рецептом, то он явно непертинентен, но принять решение о пертинентности документа так просто удается далеко не всегда). Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются — «шум» (или информационный шум). Слишком большой шум затрудняет выделение пертинентных документов, слишком малый — не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов — удовлетворительно.

Информационно-поисковые системы — ИПС

Поскольку задача исчерпывающего поиска неразрешима, то человечество задумалось над «средствами механизации» поиска, которые позволяли бы решать поисковые  задачи в удовлетворительном приближении. Такие «средства механизации» вынуждены работать с тем «материалом», который присутствует в слабо структурированной информации — словами естественного языка. Использование слов в том виде, в котором они присутствуют в документах, неэффективно — ведь в таком случае информационно-поисковая система вынуждена была бы просматривать документы один за другим — почти так же, как это делает человек. Хотя ИПС может просматривать документы очень быстро, но в тех случаях, когда количество документов достигает сотен тысяч (как в юридических ИПС) или миллиардов (как в ИПС Интернета), прямой «механический» просмотр всех документов требует значительного времени. Поэтому ИПС почти никогда не работают непосредственно с исходными документами. Вместо исходных документов ИПС используют их представления — т.н. поисковые образы документов (ПОД). Преобразование документа в его ПОД в различных ИПС происходит по-разному. Ниже при обсуждении различных типов документальных ИС мы рассмотрим процессы формирования ПОД для них.

С другой стороны, и общение пользователя (пытающегося с помощью ИПС удовлетворить свою информационную потребность) с ИПС также не является простым процессом. Обращение к ИПС с запросом на поиск обычно не может быть реализовано с помощью экрана (бланка) запроса, содержащего набор простых локальных критериев. Ведь слов в документах много, и лобовой подход, объявляющий каждое слово объектом такого локального критерия потребовал бы столько полей ввода в экране запроса, сколько присутствует отдельных слов в самом большом документе, хранимом документальной ИС.

 Рис. 17. Запрос к ИПС и ответ ИПС

Запрос к ИПС

Зачастую вместо экранов запросов (и/или вместе с экранами запросов) документальные информационные системы  используют языки запросов (информационно-поисковые языки, ИПЯ), и для общения с ИПС информационная потребность должна быть выражена средствами, которые эта ИПС «понимает» — должен быть сформулирован запрос на формальном входном языке запросов ИПС.

В ответ на запрос ИПС передает отчет — список найденных документов, так или иначе идентифицирующий эти документы.

Понятие релевантного документа

Запрос редко может точно  выразить информационную потребность  — ведь информационная потребность невербализуема, а запрос, как правило, требуется писать на формальном языке.

Однако многие ИПС по разным причинам не могут определить, соответствует  ли тот или иной документ запросу  — ведь они работают не с самими документами, а с их ПОДами. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот.

Пример

Известна (американская) ИПС, которая  на запрос, состоящий из единственного  слова “Russia” (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово “Gagarin”. Этот документ нерелевантен, но пертинентен для массовой американской аудитории.

В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова «кошка», почти в любой ИПС даст массу релевантных, но непертинентных документов.

Полнота и точность информационного  поиска

Введем некоторые формальные определения. Пусть

Δ — множество документов, ПОДы которых представлены в документальной ИС;

π — общее количество пертинентных документов в Δ; обычно π много меньше, чем D — общее количество документов, ПОДы которых представлены в документальной ИС;

F — количество найденных по определенному запросу документов;

P — количество найденных пертинентных документов, P<F; P≤π;

Полнота (recall) задается отношением

Точность (precision) информационного поиска задается отношением

Шум (noise) — это величина, дополнительная к точности:

Для широкого класса ИПС и запросов к ним имеет место (полученное по результатам многочисленных экспериментов) соотношение дополнительности:

Таким образом, если по каким-то причинам требуется произвести более или  менее исчерпывающий поиск (обеспечить его высокую полноту), то придется мириться с высоким шумом (низкой точностью поиска).

Сказанное можно проиллюстрировать  двумя модельными ситуациями поиска. В первой ситуации найден один-единственный пертинентный документ. В этом случае точность p=1, а шум n=0. Но и полнота r, видимо, близка к нулю, поскольку многие из присутствующих в ИС пертинентных документов не найдены. В качестве другой модельной ситуации будем рассматривать все множество Δ как результат поиска. Тогда, напротив, шум, как правило, велик (в этом случае точность p=π/D почти равна 0), а полнота равна 1.

Реальные ситуации документального  поиска располагаются между приведенными модельными ситуациями, давая или высокий шум, или высокую полноту поиска.

Координация терминов

Почти очевидно, что слова в документах, создаваемых людьми, встречаются вовсе не в случайном порядке, и этот факт, видимо, можно использовать при разработке информационно-поисковых систем. Слова (строго говоря, лексические единицы) текста документа образуют друг с другом устойчивые сочетания, имеющие определенное смысловое содержание. Такие сочетания лексических единиц называют терминами. Термин обычно означает некоторое понятие. Одно и то же понятие может быть обозначено различными терминами («компьютер» ~ «электронная вычислительная машина»); в таком случае говорят о синонимии терминов.

Пространственные (текстуальные) связи  лексических единиц, образующие термин, называются отношением координации. Термины, в свою очередь, также могут находиться друг с другом в отношениях координации, образуя новые термины, обозначающие более общие понятия.

В процессе информационного поиска человек явно или неявно осуществляет координацию лексических единиц и терминов оцениваемых документов. Поэтому уже в начале XX века возникла идея использовать предварительную (до поиска) координацию терминов (тогда бумажных) документов, осуществляемую обученными специалистами. Результаты такой координации — поисковые образы документов, состоящие только из терминов. В результате в библиотеках возникли сначала предметные, а затем и систематические каталоги. Аналоги этих типов каталогов встречаются в Интернете и других документальных информационных системах. Такого рода документальные информационно-поисковые системы называются ИПС с предкоординацией терминов (или просто ИПС с предкоординацией — ИПС с предкоординированными ИПЯ — предкоординированные ИПС).

Можно, однако, возложить всю работу по координации на того, кто ищет, предоставив ей/ему возможность  непосредственно работать с лексическими единицами текста документов. Такой подход к осуществлению информационного поиска называется посткоординацией терминов. В бумажную эру это было непросто, и далее алфавитных авторских каталогов (в которых присутствовали только лексические единицы одного-единственного типа — фамилии авторов документов) дело заходило редко. Однако с появлением компьютеров создание посткоординированных ИПС стало реальностью. Такие ИПС широко используются, например, для реализации юридических документальных информационных систем и для поиска во Всемирной паутине.

Рассмотрению особенностей пред- и  посткоординированных ИПС посвящены  следующие лекции.

  1. Предкоординированные ИПС

Информация о работе Информационные системы: Общие характеристики информационных систем