Понятие естественно-языкового интерфейса

Автор работы: Пользователь скрыл имя, 21 Июня 2014 в 12:50, курсовая работа

Краткое описание

Проблема взаимодействия человека с компьютером существует с момента появления вычислительной техники. На начальном этапе непосредственное взаимодействие с ЭВМ осуществляли только программисты, а специалисты других областей – потребители результатов, полученных на компьютере, выступали в роли косвенных конечных пользователей, т. е. общались с компьютером через программистов. По мере расширения сферы использования компьютера и увеличения масштабов их применения конечные пользователи стали вовлекаться в процесс непосредственного взаимодействия с компьютером, что привело к появлению массовой категории пользователей – прямых конечных пользователей, работающих в диалоговом режиме.

Вложенные файлы: 1 файл

Курсовая.doc

— 1.55 Мб (Скачать файл)

 Логико-алгоритмические  подходы синтаксического анализа. В настоящее время можно говорить  о существовании трех основных  логико-алгоритмических подходов  СА: недетерминированный «сначала  в ширину», недетерминированный «сначала в глубину» и детерминированный.

Недетерминированный «сначала в ширину». Недетерминированный подход «сначала в ширину» характеризуется тем, что процедура синтаксического анализа на первом этапе порождает заведомо избыточный набор синтаксических связей, из числа которых на втором этапе с помощью серии фильтров отбираются такие, которые в совокупности давали бы правильную синтаксическую структуру входного предложения (или несколько правильных синтаксических структур). Этот подход был впервые теоретически обоснован и экспериментально проверен О.С.Кулагиной. В настоящее время эта стратегия имеет варианты, которые различаются:

1) степенью ослабления  контекстуальных условий на этапе  порождения связей;  

2) статусом синтаксических структур, подвергающихся фильтрации (синтаксическая структура входного предложения, синтаксическая структура фрагмента входного предложения) и другими чертами.

Недетерминированный «сначала в глубину». Во многих системах, ориентированных на промышленную эксплуатацию, используется другая стратегия СА. Она встречается под разными названиями: стратегия, опирающаяся на механизм возвратов backtracking, стратегия depth-first («сначала в глубину»); в некоторых работах эта стратегия объединяется с предыдущей под одним названием «недетерминированный анализ». Отличие его от концепции псевдопараллелизма состоит в том, что алгоритм на каждом шаге выбирает одну из возможных интерпретаций, но при этом сохраняется принципиальная возможность порождения альтернативных интерпретаций в случае той или иной неудачи с первой (например, если полученная синтаксическая структура входного предложения или его фрагмент не удовлетворяет требованиям проективности, связности, не проходит семантический фильтр и т.п.). Если первый вариант разбора признается неудовлетворительным, нет необходимости начинать анализ сначала. Процедуре анализа достаточно вернуться в ближайшее из состояний, при котором возможен был альтернативный путь, и попытаться довести до конца этот вариант. Если же и он окажется неприемлемым, процедура снова использует механизм возвратов и перейдет к следующему варианту и так далее, пока не будет порожден первый приемлемый вариант разбора входного предложения. Поиск других вариантов после этого прекращается. Скорость работы системы с механизмом возвратов зависит от того, удается ли ей в подавляющем большинстве случаев получать приемлемый вариант синтаксического анализа с минимальным количеством возвратов – в идеале без них. Если алгоритм не позволяет этого, он не является оптимальным с точки зрения быстродействия, так как прежде, чем приемлемый вариант будет найден, алгоритм затратит время на порождение и фильтрацию неверных вариантов анализа входного предложения или его фрагментов. Это общий недостаток двух рассмотренных стратегий. Однако скорость анализатора, опирающегося на механизм возвратов, по-видимому, выше. Алгоритм, опирающийся на механизм возвратов, может располагать эффективным способом обработки простых и стандартных по структуре предложений, практически не порождая избыточных синтаксических структур. В то же время использование механизма возвратов позволит ему найти приемлемую интерпретацию для менее стандартного по структуре предложения. Чтобы избежать указанного недостатка, в ряде систем упор делается на развитые эвристические методы, управляющие процессом анализа, которые позволили бы получать предпочтительный вариант разбора первым.

 Детерминированный подход. Третья стратегия – стратегия  детерминированного анализа –  базируется на следующем принципе: ни одна синтаксическая связь, установленная в процессе анализа предложения, не может быть отвергнута, иными словами, если связь порождена, она должна присутствовать в синтаксической структуре, являющейся результатом работы синтаксического анализатора.

Стратегии, о которых шла речь выше, на этапе порождения связей используют лишь часть информации, к которой имеет доступ синтаксический анализатор. Неполнота касается, прежде всего, сведений о контексте, которые учитываются в полной мере после того, как связи порождены: при фильтрации связей или оценке приемлемости построенной синтаксической структуры. Стратегия детерминированного анализа не использует подобного деления на этапы: вся информация, которая в построенном синтаксическом анализаторе может повлиять на установление связи между конкретными текстовыми единицами, привлекается одномоментно. Укажем еще одну отличительную характеристику стратегии детерминизма: при установлении каждой связи должны соблюдаться такие условия, которые гарантировали бы получение связной синтаксической структуры предложения на выходе.

Для окончательного вывода о наличии связи определенного вида между двумя текстовыми единицами (ТЕ) необходимо проверить, помимо условий на сочетаемость, соблюдение некоторого количества контекстуальных условий (наличие или отсутствие в фиксированной позиции других ТЕ с заданными характеристиками, наличие или отсутствие в фиксированной позиции тех или иных знаков препинания и т.п.). В основе стратегии детерминированного анализа лежит инвентарь синтаксических ситуаций, которые учитываются данной моделью синтаксического анализа. Описание ситуации может быть задано в декларативном или процедурном виде – это зависит от языка программирования. Синтаксические ситуации привязаны к тому или иному грамматическому явлению: поиск и установление связей однородных членов, поиск подлежащего, выявление определительного номинатива и поиск его хозяина и прочее. Каждому грамматическому явлению сопоставлен набор синтаксических ситуаций. Алгоритм проверяет, какая из предусмотренных ситуаций реализована в анализируемом предложении, и в соответствии с этим устанавливает синтаксические связи. Так как стратегия в принципе ориентирована на построение одного варианта грамматического разбора, описание синтаксической ситуации задано с той степенью подробности, которая позволяет разработчикам принимать решение об однозначной расстановке связей. Однако не исключены ситуации, в которых синтаксический анализатор не имеет достаточной информации для однозначного выбора, а статистические наблюдения не позволяют уверенно предпочесть одно решение другому. По сравнению с другими стратегиями стратегия детерминированного анализа оказывается, более экономной в том смысле, что она не затрачивает время на порождение и фильтрацию избыточных связей.

 

    1. Семантический анализ ЕЯ-текстов

На данный момент разработано множество моделей лингвистического анализатора, которые способны в той или иной степени выполнять анализ естественно-языкового текста, определять смысл и генерировать высказывания. При этом подходы к моделированию процесса общения весьма разнообразны. Основные отличия этих подходов заключаются в методах реализации компонента понимания смысла, используемых средствах анализа, а также в объеме и способах представления знаний, поскольку именно знания, представленные в различной форме, являются базой, от которой зависит процесс общения, глубина проникновения в смысл и, соответственно, качество самой модели лингвистического анализатора. От выполнения отдельных функциональных компонент зависит практическая реализация моделей в различных системах общения (системы общения с базами данных, системы машинного перевода и др.). Некоторые из них легли в основу конкретных систем формирования семантического представления на основе обработки текстов (например, модель Смысл-текст в системе «Поэт»).

В задачу анализа входит выделение смысла входного текста (под смыслом будем понимать семантику – информацию, которую пользователь хотел передать системе) и выражения этого смысла на внутреннем языке системы. Интерпретация заключается в отображении входного текста на знания системы. Одним из основных параметров анализа текста является понимание смысла входного предложения, включающее в себя описание сущностей входного текста, определение их свойств и отношений между ними. От этого параметра часто зависит глубина проникновения в смысл входного текста.  В существующих моделях лингвистического анализатора можно выделить следующие способы выделения и представления смысла: компонентный анализ; сеть концептуализаций; идентификация смысла по образцу; интегральный подход.

Одна из первых попыток формализации входного текста принадлежит компонентному анализу, который исходит из предпосылки, что семантика естественных языков может быть выражена в терминах конечного неструктурированного набора семантических множителей (атомов смысла). В процессе рассмотрения слов выделяются признаки (одушевленность, неодушевленность и т.п.), которые разбивают слова на отдельные группы. При кажущейся естественности данный метод связан с существенными трудностями при реализации и не лишен слабостей. Он становится сложным при выражении смысла целого предложения и громоздким при анализе многозначных слов, при этом нет достаточного объяснения слова, что может привести к неправильному его употреблению. В дальнейшем идея описания входного текста с помощью компонентного анализа нашла свое продолжение в модели «Семантические падежи (роли)» Ч. Филмора. Но в отличие от предыдущей модели в предикатах указывается не только аргументная структура и  количество, но и их семантическое содержание (роли). Филмор выделяет следующие семантические роли: агент, контрагент, объект, адресат, пациенс, результат, инструмент, источник. В модели предложена более детальная концепция смысла высказывания. Каждое понятие расщепляется на две сущности: значение и пресуппозицию. Различия между пресуппозицией и значением в собственном смысле слова проявляются, например, в различном влиянии на них отрицания. В область действия отрицания попадает только значение, а не пресуппозиция. В результате исследований была разработана классификация семантических элементов, что привело к пересмотру обычной схемы словарной статьи в толковом словаре (словарь стал основным средством задания семантических структур и правил их перевода в поверхностные структуры).

Продолжением данной теории явился метод падежной грамматики (Филмор). При этом для записи содержания входного высказывания используются специальный синтаксический язык, словари и правила, устанавливающие соответствие между естественно-языковыми выражениями и их семантическим представлением.

Ко второму классу относятся модели, в которых смысл текста представляется в виде сети концептуализаций. В таких моделях явления рассматриваются только на одном уровне детальности, что не позволяет как описывать сложные события в терминах более простых подсобытий, так и дробить при необходимости примитивные действия (атомы). Чаще всего эти модели являются моделью языка, а не моделью общения, что приводит к нечеткому выделению языковых средств и средств для описания моделируемого окружения. Среди моделей данного класса наибольший интерес представляет модель «Концептуальной зависимости».

Другая модель - «Семантик предпочтения» относится к классу моделей, идентификация смысла в которых осуществляется по образцам. Отличительной чертой таких моделей является то, что в них отсутствуют блоки морфологического и синтаксического анализов, что является принципиальным их недостатком, так как не обеспечивается глубина анализа значений слов, необходимая для точного установления семантической связности текста.

В этой модели (Уилкс) текст характеризуется следующими сущностями: смыслами слов, сообщениями, фрагментами текста и семантической совместимостью. Сообщение рассматривается как теоретический конструкт, посредством которого для каждого слова, входящего во фрагмент текста, может быть выбран один из смыслов слова, посредством чего снимается многозначность. Слову назначается тот из его многих смыслов, который образует «сообщение», согласующееся, в конце концов, с рассматриваемым фрагментом текста. Если слово может подойти к нескольким сообщениям, то выбирается такое, которое согласуется с рассматриваемым текстом.

Анализ фрагмента текста протекает по следующей схеме. С помощью специальных слов-маркеров выполняется фрагментация текста, затем словам приписывают из словаря все их значения. Далее на анализируемый фрагмент текста поочередно накладываются простые шаблоны, известные системе. С помощью специальных правил расширения простой образец преобразуется в полный образец путем добавления слов из текста, которые не вошли в образец. Указанная процедура осложнена тем, что может подойти не один простой образец. Используя процедуры установления семантической близости полученных образцов, формируется окончательное представление обрабатываемого текста. К недостаткам анализа следует отнести то, что анализ текста осуществляется с помощью словаря шаблонов, которые способны различать только класс событий, а не сами конкретные события.

Другой подход к способу анализа по образцу представлен в моделях, использующих табличный метод. Он основан на анализе ключевых слов, встречающихся в предложениях.

Суть табличного метода состоит в идентификации смысла всего предложения на основании нескольких ключевых слов или их групп. После процесса идентификации слова предложения заменяются на их каноническую форму - коды. Замена осуществляется с помощью словаря словоформ. При этом также выделяются некоторые группы слов, несущие тематическую нагрузку. Далее производится распознавание и замена стандартных словосочетаний. Данный метод обладает рядом недостатков, преимуществом является его простота для однозначных естественно-языковых предложений, в которых не требуется полного понимания смысла предложения (например, запросы к базе данных).

Модели, в которых достаточно глубоко продуманы процедуры морфологического, синтаксического и проблемного анализов, можно отнести к моделям, основанным на интегральном подходе описания языка. Это модель «Смысл-текст» и модель контекстного фрагментирования.

Модель «Смысл-текст» (И.А. Мельчук) представляет собой многоуровневый транслятор текстов в смыслы и наоборот. Выделяются четыре основных уровня – фонетический, морфологический, синтаксический и проблемный. Каждый из них, за исключением проблемного, подразделяется на два других уровня – поверхностный и глубинный. Данная модель может быть применима в системах, где необходимо понимание текста в полном смысле (например, вопросно-ответные системы, системы принятия решений). Но для реализации полной схемы анализа и синтеза модели «Смысл-текст» придется учесть индивидуальные свойства сотен тысяч словарных, морфологических и лексических единиц и индивидуальные свойства громадного числа пар единиц. Их полное формальное описание представляет собой громадную и объемную теоретическую работу, поставленную в лингвистике в последнее время и еще далекую от решения.

Модель контекстного фрагментирования разрабатывалась для анализа и синтеза естественно-языкового предложения, но ее проработка касается в основном анализа. Задача лингвистической трансляции естественно-языкового текста рассматривается отдельно от других задач общения на естественном языке и от задач самой вычислительной системы. Анализ и трансляция текста осуществляются при наличии достаточно мощных средств описания и фрагментации лингвистических знаний. Основу модели контекстного фрагментирования составляет трехуровневая система: лингвистическая модель, базовые механизмы обработки предложений и ассоциированные процедуры.

Лингвистическая модель содержит информацию о морфологии, синтаксисе и семантике подмножества естественного языка. В модели выполняется очень глубокий синтаксический анализ с одновременным преобразованием распознаваемых синтаксических отношений в семантические. Достоинством данного метода является то, что существует возможность динамически изменять стратегию обработки естественно-языкового текста в зависимости от необходимой глубины и последовательности этапов трансляции и расширять метод при включении новых конструкций естественного языка и редуцировать его для упрощенных подмножеств естественного языка и проблемных областей.

Информация о работе Понятие естественно-языкового интерфейса