Алгоритм качества оценки кластеризации

Автор работы: Пользователь скрыл имя, 09 Ноября 2014 в 09:50, доклад

Краткое описание

Целью данной исследовательской работы является разработка приложения определяющего качество кластеризации с использованием алгоритма качества.
Для начала в своей работе хотим дать определение что такое кластеризация? Кластеризация – автоматическое разбиение элементов некоторого множества на группы в зависимости от их схожести (имеющие одинаковые элементы). Слово «кластеризация» имеет множество синонимов основными являются «таксономия», «автоматическая классификация», «обучение без учителя».

Вложенные файлы: 1 файл

12.docx

— 117.42 Кб (Скачать файл)

Алгоритм качества оценки кластеризации

А.В. Быков, М.В. Холманский.

Национальный Исследовательский Томский Политехнический Университет, г. Томск

E-mail: bykov_alexander@bk.ru 

 

Введение

Объектом исследования является алгоритм качества оценки кластеризации.

Целью данной исследовательской работы является разработка приложения определяющего качество кластеризации с использованием алгоритма качества.

Для начала в своей работе хотим дать определение что такое кластеризация? Кластеризация – автоматическое разбиение элементов некоторого множества на группы в зависимости от их схожести (имеющие одинаковые элементы). Слово «кластеризация» имеет множество синонимов основными являются «таксономия», «автоматическая классификация», «обучение без учителя».

Весь процесс кластеризации зависит только от выбранного метода который всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов, правильных построенных методов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Однако эксперименты не должны быть самоцелью - ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. А именно получение результатов требующиеся для дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.

Также хотим отметить, что в результате применения разных методов кластерного анализа могут быть получены кластеры различной формы. Например, возможны кластеры "цепочного" типа, когда кластеры представлены длинными "цепочками", кластеры удлиненной формы, а некоторые методы могут создавать кластеры произвольной формы. Различные методы могут стремиться создавать кластеры определенных размеров (например, малых или крупных), либо предполагать в наборе данных наличие кластеров различного размера. Разные методы кластерного анализа особенно чувствительны к шумам или выбросам, другие - менее. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма.

Проектирование алгоритма оценки качества.

В своей статье хотим рассмотреть алгоритм оценки качества – это алгоритм Кохонена.

Сеть Кохонена - это наверное одна из основных разновидностей нейронных сетей, которые используют неконтролируемое обучение. При таком обучении обучающее множество состоит лишь из значений входных переменных, в процессе обучения нет сравнивания выходов нейронов с эталонными значениями. Можно сказать, что такая сеть учится понимать структуру данных.

Сеть Кохонена использует следующую модель (рис. 1): сеть состоит из М нейронов, образующих прямоугольную решетку на плоскости — слой.

 

Рис. 1 - Модель сети Кохонена

Слой Кохонена состоит из некоторого количества   параллельно действующих линейных элементов. Все они имеют одинаковое число входов   и получают на свои входы один и тот же вектор входных сигналов  На выходе  го линейного элемента получаем сигнал

где   — весовой коэффициент  го входа  го нейрона,   — пороговой коэффициент.

После прохождения слоя линейных элементов сигналы посылаются на обработку по правилу «победитель забирает всё»: среди выходных сигналов   ищется максимальный; его номер  . Окончательно, на выходе сигнал с номером   равен единице, остальные — нулю. Если максимум одновременно достигается для нескольких  , то либо принимают все соответствующие сигналы равными единице, либо только первый в списке (по соглашению). «Нейроны Кохонена можно воспринимать как набор электрических лампочек, так что для любого входного вектора загорается одна из них.»

В данной работе рассмотрено только вкратце два решение из поставленных задач, которые будут рассмотрены в полной исследовательской работе:

  1. Сравнение индексов оценки качества кластеризации.
  2. Разработка модели качества кластеризации.

Также хочется сказать, что было рассмотрен основной и очень распространённый алгоритм качества который и будет основным алгоритмом лежащий в проектирование предметной области и написание программы для определения качества кластеризации с использованием разных алгоритмов качества.

 

 

 

 

Список использованной литературы:

1. Руденко О.Г., Бодянский Е.В. Искусственные нейронные сети – Харьков, 2005.

2. Котов А., Красильников Н. Кластеризация данных. 2006.

3. Jain A., Murty M.N., Flynn P.J. Data Clusterng: A Review "(http://www/csee/umbc/edu/nicolas/clustering/p264-jain.pdf)

 

 


Информация о работе Алгоритм качества оценки кластеризации