Толчком к развитию методов кластеризации послужила книга «Принципы числовой таксономии», изданная в 1963 году двумя биологами – Робертом Сокалом и Питером Снитом. Авторы этой книги исходят из того, что для создания эффективных биологических классификаций процедура группировки должна обеспечивать использование всех возможных показателей, характеризующих изучаемые организмы, оценивать степень сходства между этими организмами и обеспечивать размещение таких организмов. При этом формируемые группы должны быть достаточно «локальными», т.е. сходство предметов (организмов) в группах должно превышать сходство групп между собой. Последующий анализ выделенных групп, по мнению авторов, может прояснить, соответствуют ли эти группы разным видам. Так, Сокал и Снит предположили, что выявление структуры распределения предметов по группам помогает установить процесс образования этих структур. А различие и сходство организмов из разных скоплений (групп) может служить основой для понимания происходящего эволюционного процесса и выяснения его механизма [1].
В эти же годы многие алгоритмы были предложены такими авторами, как Дж. Маккин, Г. Болл, Д. Холл, с использованием методов k-средних; Г. Лэнс и В. Уильямс, Н. Джардин и др. – для иерархических методов. Значительный вклад в развитие методов кластерного анализа внесли отечественные ученые – Е.М. Браверман, А.А. Дорофеюк И.Б. Мучник, Л.А. Растригин, Ю.И. Особенно в 60-х и 70-х годах. Многочисленные алгоритмы, разработаны новосибирскими математиками Н.Г. Загоруйко В.Н. Большой популярностью пользовались также алгоритмы Елкина и Г.С. Лбов. Это известные алгоритмы, такие как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и другие. На основе этих пакетов создан специализированный программный комплекс OTEX. Не менее интересные программные продукты PPSA и Class-Master были созданы московскими математиками С.А. Айвазян, И.С. Енюков и Б.Г. Миркин.
В той или иной степени методы кластерного анализа доступны в большинстве наиболее известных отечественных и зарубежных статистических пакетов: SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS. , GENSTAT , S-PLUS и других. Конечно, за 10 лет после публикации этого обзора многое изменилось, появились новые версии многих статистических программ, появились совершенно новые программы, использующие как новые алгоритмы, так и значительно возросшие вычислительные мощности. Однако в большинстве статистических пакетов используются алгоритмы, предложенные и разработанные в 1960-х и 1970-х годах [4].
По приблизительным оценкам экспертов, количество публикаций по кластерному анализу и его приложениям в различных областях знаний удваивается каждые три года. В чем причины столь сильного интереса к этому виду анализа? Объективно можно выделить три основные причины этого явления. Это появление мощных вычислительных технологий, без которых кластерный анализ реальных данных практически невозможен. Вторая причина заключается в том, что современная наука все больше опирается в своих построениях на классификацию. Кроме того, этот процесс углубляется по мере увеличения специализации знаний, что невозможно без достаточно объективной классификации [2].
Третья причина заключается в том, что углубление специальных знаний неизбежно ведет к увеличению числа переменных, учитываемых при анализе тех или иных объектов и явлений. В результате субъективная классификация, ранее опиравшаяся на относительно небольшое число учитываемых признаков, часто оказывалась ненадежной. А объективная классификация при постоянно растущем наборе характеристик объектов требует применения сложных алгоритмов кластеризации, которые могут быть реализованы только на базе современных компьютеров. Именно эти причины привели к «кластерному буму». Однако, к примеру среди медиков и биологов кластерный анализ еще не стал достаточно популярным и распространенным методом исследования.
На практике у кластерного анализа есть преимущества перед другими методами анализа. В частности минимальные требования к данным. Они, безусловно, должны быть «чистыми» и «опрятными», однако, на кластерный анализ не накладываются ограничения других статистических методов, таких как однородность и объем выборки. При помощи кластерного анализа можно анализировать любые данные, о любых объектах, и если связь есть – то пользователь ее обязательно найдет.
При иерархическом кластерном анализе вначале каждое наблюдение представляет собой отдельный кластер. На первоначальном этапе соседние (по характеристикам) кластеры объединяются. Этот процесс повторяется до тех пор, пока не останутся только два кластера. Расстояние между кластерами определяется как среднее значение между всеми возможными парами точек из каждого кластера.
Далее приведем пример кластерного анализа в среде R методом k-средних.
Кластерный анализ методом k-средних подразумевает разбиение объектов (наблюдений) на k кластеров, расположенных (опять же, по характеристикам) на максимальном удалении друг от друга [3].
Теперь перейдем непосредственно к кластерному анализу. В данном примере мы будем анализировать данные о характеристиках моделей автомобилей из базового набора данных R mtcars [6]. Возьмем для анализа первые 30 записей из набора и первые 4 характеристики (Листинг 1, таблица 1).
Листинг 1 – Выборка 30 записей и первых 4 характеристик
cars<-mtcars[1:30, 1:4]
head(cars)
♦
Воронцов, К.В. Алгоритмы кластеризации и многомерного шкалирования. Курс лекций. МГУ, 2007. Заде, Л.А. Кластеризация и кластер / Л.А. Заде, С. Рао и др. Москва: Мир, 1980. 383 с. Роберт И. R в действии. Анализ и визуализация данных на языке R (перевод с английского, ISBN: 978-1-93518-239-9, 978-5-94074-912-7, 978-5-97060-077-1). Чубукова, И.А. Курс лекций «Data Mining , Методы кластерного анализа // Интернет-университет информационных технологий. [Электронный ресурс]. Режим доступа: https://www.intuit.ru/studies/courses/6/6/lecture/182?page=2. Шипунов А.Б., Балдин, Е.М., Волкова П.А.: Наглядная статистика. Используем R! (ISBN: 978-5-97060-094-8). Bourabai Research: методы и средства анализа данных. [Электронный ресурс]. Режим доступа: https://bourabai.ru/tpoi/analysis6.htm.

