Иерархическая и секционная кластеризация

Кластеризация - это метод машинного обучения для анализа данных и разделения на группы схожих данных. Эти группы или наборы похожих данных известны как кластеры. Кластерный анализ рассматривает алгоритмы кластеризации, которые могут автоматически идентифицировать кластеры. Иерархический и Разделительный - два таких класса алгоритмов кластеризации. Алгоритмы иерархической кластеризации разбивают данные на иерархию кластеров. Алгоритмы разбиения делят набор данных на взаимно непересекающиеся разбиения.

Что такое иерархическая кластеризация?

Алгоритмы иерархической кластеризации повторяют цикл либо объединения меньших кластеров в более крупные, либо деления более крупных кластеров на более мелкие. В любом случае, он создает иерархию кластеров, называемую дендограммой. Стратегия агломерационной кластеризации использует восходящий подход к объединению кластеров в более крупные, в то время как стратегия разделяющей кластеризации использует нисходящий подход к разделению на более мелкие. Как правило, жадный подход используется при принятии решения, какие кластеры большего или меньшего размера используются для слияния / разделения. Евклидово расстояние, манхэттенское расстояние и косинусное сходство являются одними из наиболее часто используемых метрик подобия для числовых данных. Для нечисловых данных используются такие метрики, как расстояние Хэмминга. Важно отметить, что фактические наблюдения (экземпляры) не нужны для иерархической кластеризации, потому что достаточно только матрицы расстояний. Дендограмма - это визуальное представление кластеров, которое очень четко отображает иерархию. Пользователь может получить различную кластеризацию в зависимости от уровня, на котором вырезана дендограмма.

Что такое секционирование кластеров?

Алгоритмы кластеризации разделов генерируют различные разделы, а затем оценивают их по некоторому критерию. Они также называются неиерархическими, поскольку каждый экземпляр размещается ровно в одном из k взаимоисключающих кластеров. Поскольку только один набор кластеров является выходом типичного алгоритма разбиения на кластеры, пользователь должен ввести желаемое количество кластеров (обычно называемых k). Одним из наиболее часто используемых алгоритмов секционной кластеризации является алгоритм кластеризации k-средних. Пользователь должен указать количество кластеров (k) перед запуском, и алгоритм сначала инициирует центры (или центроиды) k разделов. Короче говоря, алгоритм кластеризации k-средних затем назначает элементы на основе текущих центров и переоценивает центры на основе текущих членов. Эти два шага повторяются до тех пор, пока не будут оптимизированы определенная целевая функция сходства внутри кластера и целевая функция межкластерного различия. Поэтому разумная инициализация центров является очень важным фактором в получении качественных результатов из алгоритмов секционной кластеризации.

В чем разница между иерархической и секционированной кластеризацией?

Иерархическая и секционная кластеризация имеют ключевые различия во времени выполнения, допущениях, входных параметрах и результирующих кластерах. Как правило, кластеризация по разделам происходит быстрее, чем иерархическая кластеризация. Иерархическая кластеризация требует только меры сходства, в то время как секционная кластеризация требует более строгих предположений, таких как количество кластеров и начальные центры. Иерархическая кластеризация не требует никаких входных параметров, в то время как алгоритмы секционированной кластеризации требуют количества кластеров для запуска. Иерархическая кластеризация возвращает гораздо более осмысленное и субъективное деление кластеров, но разбиение кластеров дает ровно k кластеров. Алгоритмы иерархической кластеризации больше подходят для категориальных данных, если соответственно можно определить меру сходства.