- Все о Process Mining от ProcessMi
- Все о технологии Process Mining — кейсы, термины, решения и аналитика. Российский и зарубежный опыт от группы экспертов ProcessMi
- Data Mining (дата майнинг)
- История возникновения Data Mining
- Свойства Data Mining
- Задачи Data Mining
- Методы Data Mining
- Сферы применения Data Mining
- Практическое применение Data Mining
- Что такое Data Mining?
- Сравнение статистики, машинного обучения и Data Mining
- Развитие технологии баз данных
- Понятие Data Mining
- Дата майнинг это процесс цель которого
- Свойства обнаруживаемых знаний
- Задачи DataMining
- Классификация (Classification)
- Кластеризация (Clustering)
- Ассоциация (Associations)
- Последовательность (Sequence) или последовательная ассоциация (sequentialassociation)
- Регрессия, прогнозирование (Forecasting)
- Дополнительные задачи
- Сравнение кластеризации и классификации
- Сферы применения DataMining
- Методы
- Классификация методов
- Кластерный анализ
- Алгоритм k-средних (k-means)
- Байесовские сети
- Искусственные нейронные сети
- Инструменты DataMining
Все о Process Mining от ProcessMi
Все о технологии Process Mining — кейсы, термины, решения и аналитика. Российский и зарубежный опыт от группы экспертов ProcessMi
Data Mining (дата майнинг)
Data Mining – это процедура поиска и обнаружения в «сырых» данных скрытых полезных, ранее неизвестных и неопределенных.
Существует несколько определений термина, дополняющих классическое. Среди них:
- нахождение полезных и применимых на практике трендов в БД, которые могут быть применимы для повышения конкурентоспособности бизнеса;
- процесс, который ориентирован на поиск новых зависимостей и корреляций в результате фильтрации сверхбольшого объема данных с использованием математики.
У термина нет дословного перевода на русский, поэтому DM расшифровывают как: извлечение данных, фильтрация новых знаний из данных, интеллектуальный анализ данных, обнаружение новых знаний в БД.
История возникновения Data Mining
Началом существования DM считается мероприятие Григория Пятецкого-Шапиро в 1989 году. Спустя 4 года вышла первая рассылка «Knowledge Discovery Nuggets», еще через год открыты первые интернет-ресурсы по DM.
Свойства Data Mining
Если традиционные методы анализа (например, при помощи статистики и OLAP) направлены на проверку ранее полученных, сформулированных гипотез и предположений, то основное отличие Data Mining – именно в неочевидности полученных трендов и закономерностей.
Знания, извлекаемые при помощи DM, должны обладать определенными свойствами, среди которых:
- Новизна
Полученные в результате применения DM знания должны быть неизвестными, поскольку несут деловую важность и ценность для бизнеса.
- Нетривиальность
Результаты применения DM не могут быть очевидными, например, полученными экспертным путем или наблюдениями. Выявленные закономерности и тенденции должны быть неожиданными и отражать неявные сведения.
- Полезность
Получаемые знания обязаны быть полезными и способными применяться практически.
- Доступность
Знания должны быть объяснимы, иначе есть высокая доля вероятности их случайности, а не закономерности. Вместе с тем, сведения обязаны быть представлены в понятном для восприятия человеком виде.
Задачи Data Mining
- Классификация
Отнесение полученного объекта/наблюдения/события (ОНС) к одному из классов;
- Кластеризация
Разделение большого количества ОНС на кластеры по степени соответствия друг другу;
- Сокращение
Для сжатия информации;
- Ассоциация
Поиск повторений. Самый простой пример – поиск наличия связей в продуктовом наборе покупателя крупного супермаркета;
- Прогнозирование
Предположение относительно будущих состояний объекта, опирающееся на устойчивое основание, полученное из исторических данных;
- Визуализация
Наглядная интерпретация.
Методы Data Mining
Выделяют две основные группы методов DM:
- статистические,
которые используют «средний накопленный опыт»;
- кибернетические
на основе различных математических подходов.
Сферы применения Data Mining
Нет ограничений по возможностям применения DM, главное условие – наличие данных. Хотя самыми первыми оценили перспективы использования подобных новшеств крупные коммерческие компании, которые ведут проекты на основе Data Warehousing. СМИ анонсируют крупные кейсы, где расписан экономический эффект от применения DM, который превысил первоначальные затраты среднем в 50 раз.
Практическое применение Data Mining
Поскольку именно применение полученных знаний на практике и получение экономической выгоды стоит в основе DM, то среди наиболее частых бизнес-задач:
- анализ клиентской базы, выявление наиболее перспективных покупателей (потребителей);
- оптимизация бюджета и поставщиков;
- повышение эффективности HR-службы (функции подбора персонала);
- оценка кредитоспособности потенциальных заемщиков;
- прогноз продаж.
Источник
Что такое Data Mining?
Сравнение статистики, машинного обучения и Data Mining
- Статистика
- Более, чем Data Mining , базируется на теории.
- Более сосредотачивается на проверке гипотез.
Понятие Data Mining тесно связано с технологиями баз данных и понятием данные , которые будут подробно рассмотрены в следующей лекции.
Развитие технологии баз данных
В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM .
В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных — Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных , которые до сих пор являются основополагающими для сетевой модели данных . В дальнейшее развитие теории баз данных большой вклад был сделан американским математиком Э.Ф. Коддом, который является создателем реляционной модели данных .
В течение этого периода многие исследователи экспериментировали с новым подходом в направлениях структуризации баз данных и обеспечения к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого моделирования данных . В результате, в 1985 году был создан язык, названный SQL . На сегодняшний день практически все СУБД обеспечивают данный интерфейс .
Появились специфичные типы данных — «графический образ», «документ», «звук», «карта». Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL . Появились технологии DataMining, хранилища данных , мультимедийные базы данных и web-базы данных .
Возникновение и развитие Data Mining обусловлено различными факторами, основными среди которых являются следующие [2]:
- совершенствование аппаратного и программного обеспечения;
- совершенствование технологий хранения и записи данных ;
- накопление большого количества ретроспективных данных ;
- совершенствование алгоритмов обработки информации.
Понятие Data Mining
Data Mining — это процесс поддержки принятия решений , основанный на поиске в данных скрытых закономерностей ( шаблонов информации) [3].
Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) — один из основателей этого направления:
Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей .
Неочевидных — это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.
Объективных — это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.
Практически полезных — это значит, что выводы имеют конкретное значение , которому можно найти практическое применение.
Знания — совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.
Использование знаний ( knowledge deployment ) означает действительное применение найденных знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок).
Приведем еще несколько определений понятия Data Mining .
Data Mining — это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.
Data Mining — это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе ( определение SAS Institute).
Data Mining — это процесс, цель которого — обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов ( определение Gartner Group ).
В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности , свойственные подвыборкам данных , кои могут быть выражены в форме, понятной человеку.
«Mining» по-английски означает «добыча полезных ископаемых», а поиск закономерностей в огромном количестве данных действительно сродни этому процессу.
Цель поиска закономерностей — представление данных в виде, отражающем искомые процессы. Построение моделей прогнозирования также является целью поиска закономерностей .
Источник
Дата майнинг это процесс цель которого
OLAP-системы предоставляют аналитику средства проверки гипотез при анализе данных, то есть основной задачей аналитика является генерация гипотез, которую он решает ее, основываясь на своих знаниях и опыте. Однако знания есть не только у человека, но и у накопленных данных, которые подвергаются анализу. Такие знания содержатся в огромной объеме информации, которую человек не в силах исследовать самостоятельно. В связи с этим существует вероятность пропустить гипотезы, которые могут принести значительную выгоду.
Для обнаружения «скрытых» знаний применяется специальные методы автоматического анализа, при помощи которых приходиться практически добывать знания из «завалов» информации. За этим направлением закрепился термин «добыча данных (DataMining)» или «интеллектуальный анализ данных».
Существует множество определений DataMining , которые друг друга дополняют. Вот некоторые из них.
DataMining – это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей. (BaseGroup)
DataMining – это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур(patters) с целью достижения преимуществ в бизнесе(SAS Institute)
DataMining – это процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов( GartnerGroup)
DataMining – это исследование и обнаружение «машиной»(алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний ,котор ые ранее не были известны, нетривиальны, практически полезны, доступны для интерпрета ции человеком.(А.Баргесян «Технологии анализа данных»)
DataMining – это процесс обнаружения полезных знаний о бизнесе.(Н.М.Абдикеев «КБА»)
Свойства обнаруживаемых знаний
Рассмотрим свойства обнаруживаемых знаний.
- Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
- Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов DataMining.
- Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
- Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.
В DataMining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции.
Задачи DataMining
Напомним, что в основу технологии DataMining положена концепция шаблонов, представляющих собой закономерности. В результате обнаружения этих, скрытых от невооруженного глаза закономерностей решаются задачи DataMining. Различным типам закономерностей, которые могут быть выражены в форме, понятной человеку, соответствуют определенные задачи DataMining.
Единого мнения относительно того, какие задачи следует относить к DataMining, нет. Большинство авторитетных источников перечисляют следующие: классификация,
кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение
отклонений, оценивание, анализ связей, подведение итогов.
Цель описания, которое следует ниже, — дать общее представление о задачах DataMining, сравнить некоторые из них, а также представить некоторые методы, с помощью которых эти задачи решаются. Наиболее распространенные задачи DataMining — классификация,кластеризация, ассоциация, прогнозирование и визуализация. Таким образом, задачи подразделяются по типам производимой информации, это наиболее общая классификация задач DataMining.
Классификация (Classification)
Задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).
Классификация является одной из важнейших задач DataMining . Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов , медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.
Если число классов ограничено двумя, то имеет место бинарная классификация , к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две — «Выдать» или «Отказать».
Для классификации в DataMining используется множество различных моделей: нейронные сети , деревья решений , машины опорных векторов, метод k-ближайших соседей, алгоритмы покрытия и др., при построении которых применяется обучение с учителем, когда выходная переменная ( метка класса ) задана для каждого наблюдения. Формально классификация производится на основе разбиения пространства признаков на области, в пределах каждой из которых многомерные векторы рассматриваются как идентичные. Иными словами, если объект попал в область пространства, ассоциированную с определенным классом, он к нему и относится.
Кластеризация (Clustering)
Краткое описание. Кластеризация является логическим продолжением идеи
классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.
Пример метода решения задачи кластеризации: обучение «без учителя» особого вида нейронных сетей — самоорганизующихся карт Кохонена.
Ассоциация (Associations)
Краткое описание. В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных.
Отличие ассоциации от двух предыдущих задач DataMining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori.
Последовательность (Sequence) или последовательная ассоциация (sequentialassociation)
Краткое описание. Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю. Эту задачу DataMining также называют задачей нахождения последовательных шаблонов (sequentialpattern).
Правило последовательности: после события X через определенное время произойдет событие Y.
Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (CustomerLifecycleManagement).
Регрессия, прогнозирование (Forecasting)
Краткое описание. В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.
Дополнительные задачи
Определение отклонений или выбросов (DeviationDetection) , анализ отклонений или выбросов
Краткое описание. Цель решения данной задачи — обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
Задача оценивания сводится к предсказанию непрерывных значений признака.
Анализ связей (LinkAnalysis)
Задача нахождения зависимостей в наборе данных.
Визуализация (Visualization, GraphMining)
В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.
Пример методов визуализации — представление данных в 2-D и 3-D измерениях.
Подведение итогов (Summarization)
Задача, цель которой — описание конкретных групп объектов из анализируемого набора данных.
Достаточно близким к вышеупомянутой классификации является подразделение задач DataMining на следующие: исследования и открытия, прогнозирования и классификации, объяснения и описания.
Автоматическое исследование и открытие (свободный поиск)
Пример задачи: обнаружение новых сегментов рынка.
Для решения данного класса задач используются методы кластерного анализа.
Прогнозирование и классификация
Пример задачи: предсказание роста объемов продаж на основе текущих значений.
Методы: регрессия, нейронные сети, генетические алгоритмы, деревья решений.
Задачи классификации и прогнозирования составляют группу так называемого индуктивного моделирования, в результате которого обеспечивается изучение анализируемого объекта или системы. В процессе решения этих задач на основе набора данных разрабатывается общая модель или гипотеза.
Объяснение и описание
Пример задачи: характеристика клиентов по демографическим данным и историям покупок.
Методы: деревья решения, системы правил, правила ассоциации, анализ связей.
Если доход клиента больше, чем 50 условных единиц, и его возраст — более 30 лет, тогда класс клиента — первый.
Сравнение кластеризации и классификации
Обучение с учителем
Обучение без учителя
Наличие метки класса
сопровождается меткой, указывающей
класс, к которому относится
Метки класса обучающего
Основание для классификации
Новые данные классифицируются на основании обучающего множества
Дано множество данных с целью
классов или кластеров данных
Сферы применения DataMining
Следует отметить, что на сегодняшний день наибольшее распространение технология DataMining получила при решении бизнес-задач. Возможно, причина в том, что именно в этом направлении отдача от использования инструментов DataMining может составлять, по некоторым источникам, до 1000% и затраты на ее внедрение могут достаточно быстро окупиться.
Применение DataMining для решения задач государственного уровня. Основныенаправления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.
Применение DataMining для научных исследований. Основные направления: медицина,биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия,прикладная химия, исследования, касающиеся наркотической зависимости, и другие.
Применение DataMining для решения Web-задач. Основные направления: поисковыемашины (searchengines), счетчики и другие.
В сфере электронной коммерции DataMining применяется для формирования
рекомендательных систем и решения задач классификации посетителей Web-сайтов.
Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов. Технология DataMining для электронной коммерции тесно связана с технологией WebMining.
Основные задачи DataMining в промышленном производстве:
· комплексный системный анализ производственных ситуаций;
· краткосрочный и долгосрочный прогноз развития производственных ситуаций;
· выработка вариантов оптимизационных решений;
· прогнозирование качества изделия в зависимости от некоторых параметров
· обнаружение скрытых тенденций и закономерностей развития производственных
· прогнозирование закономерностей развития производственных процессов;
· обнаружение скрытых факторов влияния;
· обнаружение и идентификация ранее неизвестных взаимосвязей между
производственными параметрами и факторами влияния;
· анализ среды взаимодействия производственных процессов и прогнозирование
изменения ее характеристик;
· выработку оптимизационных рекомендаций по управлению производственными
· визуализацию результатов анализа, подготовку предварительных отчетов и проектов
допустимых решений с оценками достоверности и эффективности возможных реализаций.
В сфере маркетинга DataMining находит очень широкое применение.
Основные вопросы маркетинга «Что продается?», «Как продается?», «Кто является
В лекции, посвященной задачам классификации и кластеризации, подробно описано использование кластерного анализа для решения задач маркетинга, как, например, сегментация потребителей.
Другой распространенный набор методов для решения задач маркетинга — методы и алгоритмы поиска ассоциативных правил.
Также успешно здесь используется поиск временных закономерностей.
В сфере розничной торговли, как и в маркетинге, применяются:
· алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов
товаров, которые покупатели покупают одновременно). Выявление таких правил помогает
размещать товары на прилавках торговых залов, вырабатывать стратегии закупки товаров
и их размещения на складах и т.д.
· использование временных последовательностей, например, для определения
необходимых объемов запасов товаров на складе.
· методы классификации и кластеризации для определения групп или категорий клиентов,
знание которых способствует успешному продвижению товаров.
Вот список задач фондового рынка, которые можно решать при помощи технологии Data
Mining :· прогнозирование будущих значений финансовых инструментов и индикаторов поих
· прогноз тренда (будущего направления движения — рост, падение, флэт) финансового
инструмента и его силы (сильный, умеренно сильный и т.д.);
· выделение кластерной структуры рынка, отрасли, сектора по некоторому набору
· динамическое управление портфелем;
· предсказание наступления кризиса и прогноз его развития;
· выбор активов и др.
Кроме описанных выше сфер деятельности, технология DataMining может применяться в самых разнообразных областях бизнеса, где есть необходимость в анализе данных и накоплен некоторый объем ретроспективной информации.
Применение DataMining в CRM
Одно из наиболее перспективных направлений применения DataMining – использование данной технологии в аналитическом CRM.
CRM (CustomerRelationshipManagement) — управление отношениями с клиентами.
При совместном использовании этих технологий добыча знаний совмещается с «добычей денег» из данных о клиентах.
Важным аспектом в работе отделов маркетинга и отдела продаж является составление целостного представления о клиентах, информация об их особенностях, характеристиках, структуре клиентской базы. В CRM используется так называемое профилирование клиентов, дающее полное представление всей необходимой информации о клиентах.
Профилирование клиентов включает следующие компоненты: сегментация клиентов, прибыльность клиентов, удержание клиентов, анализ реакции клиентов. Каждый из этих компонентов может исследоваться при помощи DataMining, а анализ их в совокупности, как компонентов профилирования, в результате может дать те знания, которые из каждой отдельной характеристики получить невозможно.
WebMining можно перевести как «добыча данных в Web». WebIntelligence или Web.
Интеллект готов «открыть новую главу» в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.
Системы WebMining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.
Методы
Классификация методов
- статистические методы , основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных;
- кибернетические методы , включающие множество разнородных математических подходов.
Недостаток такой классификации: и статистические, и кибернетические алгоритмы тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации.
Преимуществом такой классификации является ее удобство для интерпретации — она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т.е. в задачах Data Mining.
Рассмотрим подробнее представленные выше группы.
Статистические методы Data mining
В эти методы представляют собой четыре взаимосвязанных раздела:
- предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);
- выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);
- многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);
- динамические модели и прогноз на основе временных рядов.
Арсенал статистических методов Data Mining классифицирован на четыре группы методов :
- Дескриптивный анализ и описание исходных данных.
- Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ).
- Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
- Анализ временных рядов (динамические модели и прогнозирование).
Кибернетические методы Data Mining
Второе направление Data Mining — это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.
К этой группе относятся такие методы :
- искусственные нейронные сети (распознавание, кластеризация, прогноз);
- эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);
- генетические алгоритмы (оптимизация);
- ассоциативная память (поиск аналогов, прототипов);
- нечеткая логика;
- деревья решений;
- системы обработки экспертных знаний.
Далее рассмотрим некоторые из представленных методов.
Кластерный анализ
Цель кластеризации — поиск существующих структур.
Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить «структуру данных».
Само понятие «кластер» определено неоднозначно: в каждом исследовании свои «кластеры». Переводится понятие кластер (cluster) как «скопление», «гроздь». Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.
Характеристиками кластера можно назвать два признака:
- внутренняя однородность;
- внешняя изолированность.
Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping) [22].
Следует отметить, что в результате применения различных методов кластерного анализа могут быть получены кластеры различной формы. Например, возможны кластеры «цепочного» типа, когда кластеры представлены длинными «цепочками», кластеры удлиненной формы и т.д., а некоторые методы могут создавать кластеры произвольной формы.
Различные методы могут стремиться создавать кластеры определенных размеров (например, малых или крупных) либо предполагать в наборе данных наличие кластеров различного размера. Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие — менее. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма. Данные особенности следует учитывать при выборе метода кластеризации.
Приведем краткую характеристику подходов к кластеризации.
Алгоритмы, основанные на разделении данных (Partitioningalgorithms), в т.ч. итеративные:
- разделение объектов на k кластеров;
- итеративное перераспределение объектов для улучшения кластеризации.
- Иерархические алгоритмы (Hierarchyalgorithms):
- агломерация: каждый объект первоначально является кластером, кластеры,
- соединяясь друг с другом, формируют больший кластер и т.д.
Методы, основанные на концентрации объектов (Density-basedmethods):
- основаны на возможности соединения объектов;
- игнорируют шумы, нахождение кластеров произвольной формы.
Грид — методы (Grid-based methods):
- квантование объектов в грид-структуры.
Модельные методы (Model-based):
- использование модели для нахождения кластеров, наиболее соответствующих данным.
Методы кластерного анализа. Итеративные методы.
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.
Такая неиерархическая кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое «сгущение точек». Второй подход заключается в минимизации меры различия объектов
Алгоритм k-средних (k-means)
Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти в работе Хартигана и Вонга (HartiganandWong, 1978). В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.
Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, — наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.
1. Первоначальное распределение объектов по кластерам.
- Выбирается число k, и на первом шаге эти точки считаются «центрами» кластеров.
- Каждому кластеру соответствует один центр.
Выбор начальныхцентроидов может осуществляться следующим образом:
- выбор k-наблюдений для максимизации начального расстояния;
- случайный выбор k-наблюдений;
- выбор первых k-наблюдений.
В результате каждый объект назначен определенному кластеру.
2. Итеративный процесс.
Вычисляются центры кластеров, которыми затем и далее считаются покоординатные средние кластеров. Объекты опять перераспределяются.
Процесс вычисления центров и перераспределения объектов продолжается до тех пор, пока не выполнено одно из условий:
- кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации;
- число итераций равно максимальному числу итераций.
На рисунке приведен пример работы алгоритма k-средних для k, равного двум.
Пример работы алгоритма k-средних (k=2)
Выбор числа кластеров является сложным вопросом. Если нет предположений относительно этого числа, рекомендуют создать 2 кластера, затем 3, 4, 5 и т.д., сравнивая полученные результаты.
Проверка качества кластеризации
После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга).
Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.
Достоинства алгоритма k-средних:
- простота использования;
- быстрота использования;
- понятность и прозрачность алгоритма.
Недостатки алгоритма k-средних:
- алгоритм слишком чувствителен к выбросам, которые могут искажать среднее.
Возможным решением этой проблемы является использование модификации алгоритма -алгоритм k-медианы;
- алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.
Байесовские сети
В теории вероятности понятие информационной зависимости моделируется посредством условной зависимости (или строго: отсутствием условной независимости), которая описывает, как наша уверенность в исходе некоего события меняется при получении нового знания о фактах, при условии, что нам был уже известен некоторый набор других фактов.
Удобно и интуитивно понятно представлять зависимости между элементами посредством направленного пути, соединяющего эти элементы в графе. Если зависимость между элементами x и y не является непосредственной и осуществляется посредством третьего элемента z, то логично ожидать, что на пути между x и y будет находиться элемент z. Такие узлы-посредники будут «отсекать» зависимость между x и y, т.е. моделировать ситуацию условной независимости между ними при известном значении непосредственных факторов влияния. Такими языками моделирования являются байесовские сети, которые служат для описания условных зависимостей между понятиями некой предметной области.
Байесовские сети — это графические структуры для представления вероятностных отношений между большим количеством переменных и для осуществления вероятностного вывода на основе этих переменных. «Наивная» (байесовская) классификация — достаточно прозрачный и понятный метод классификации.»Наивной» она называется потому, что исходит из предположения о взаимной независимости признаков.
1. Использование всех переменных и определение всех зависимостей между ними.
2. Наличие двух предположений относительно переменных:
- все переменные являются одинаково важными;
- все переменные являются статистически независимыми, т.е. значение однойпеременной ничего не говорит о значении другой.
Различают два основных сценария применения байесовских сетей:
1. Описательный анализ. Предметная область отображается в виде графа, узлы которого представляют понятия, а направленные дуги, отображаемые стрелками, иллюстрируют непосредственные зависимости между этими понятиями. Связь между понятиями x и y означает: знание значения x помогает сделать более обоснованное предположение о значении y. Отсутствие непосредственной связи между понятиями моделирует условную независимость между ними при известных значениях некоторого набора «разделяющих» понятий. Например, размер обуви ребенка, очевидно, связан с умением ребенка читать через возраст. Так, больший размер обуви дает большую уверенность, что ребенок уже читает, но если нам уже известен возраст, то знание размера обуви уже не даст нам дополнительной информации о способности ребенка к чтению.
В качестве другого, противоположного, примера рассмотрим такие изначально несвязанные факторы как курение и простуда. Но если нам известен симптом, например, что человек страдает по утрам кашлем, то знание того, что человек не курит, повышает нашу уверенность того, что человек простужен.
2. Классификация и прогнозирование. Байесовская сеть, допуская условную независимость ряда понятий, позволяет уменьшить число параметров совместного распределения, делая возможным их доверительную оценку на имеющихся объемах данных. Так, при 10 переменных, каждая из которых может принимать 10 значений, число параметров совместного распределения – 10 миллиардов — 1. Если допустить, что между этими переменными друг от друга зависят только 2 переменные, то число параметров становится 8*(10-1) + (10*10-1) = 171. Имея реалистичную по вычислительным ресурсам модель совместного распределения, неизвестное значение какого-либо понятия мы можем прогнозировать как, например, наиболее вероятное значение этого понятия при известных значениях других понятий.
Отмечают такие достоинства байесовских сетей как метода DataMining:
• в модели определяются зависимости между всеми переменными, это позволяет легко обрабатывать ситуации, в которых значения некоторых переменных неизвестны;
• байесовские сети достаточно просто интерпретируются и позволяют на этапе прогностического моделирования легко проводить анализ по сценарию «что, если»;
• байесовский метод позволяет естественным образом совмещать закономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде;
• использование байесовских сетей позволяет избежать проблемы переучивания (overfitting), то есть избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей).
Наивно-байесовский подход имеет следующие недостатки:
• перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы; хотя часто данный метод показывает достаточно хорошие результаты при несоблюдении условия статистической независимости, но теоретически такая ситуация должна обрабатываться более сложными методами, основанными на обучении байесовских сетей;
• невозможна непосредственная обработка непрерывных переменных — требуется их преобразование к интервальной шкале, чтобы атрибуты были дискретными; однако такие преобразования иногда могут приводить к потере значимых закономерностей;
• на результат классификации в наивно-байесовском подходе влияют только индивидуальные значения входных переменных, комбинированное влияние пар или троек значений разных атрибутов здесь не учитывается. Это могло бы улучшить качество классификационной модели с точки зрения ее прогнозирующей точности, однако,увеличило бы количество проверяемых вариантов.
Искусственные нейронные сети
Искуственные нейронные сети(далее нейронные сети) могут быть синхронные и асинхронные. В синхронных нейронных сетях в каждый момент времени свое состояние меняет лишь один нейрон. В асинхронных — состояние меняется сразу у целой группы нейронов, как правило, у всего слоя. Можно выделить две базовые архитектуры — слоистые и полносвязные сети. Ключевым в слоистых сетях является понятие слоя. Слой — один или несколько нейронов, на входы которых подается один и тот же общий сигнал. Слоистые нейронные сети — нейронные сети, в которых нейроны разбиты на отдельные группы (слои) так, что обработка информации осуществляется послойно. В слоистых сетях нейроны i-го слоя получают входные сигналы, преобразуют их и через точки ветвления передают нейронам (i+1) слоя. И так до k-го слоя, который выдает выходные сигналы для интерпретатора и пользователя. Число нейронов в каждом слое не связано с количеством нейронов в других слоях, может быть произвольным. В рамках одного слоя данные обрабатываются параллельно, а в масштабах всей сети обработка ведется последовательно — от слоя к слою. К слоистым нейронным сетям относятся, например, многослойные персептроны, сети радиальных базисных функций, когнитрон, некогнитрон, сети ассоциативной памяти. Однако сигнал не всегда подается на все нейроны слоя. В когнитроне, например, каждый нейрон текущего слоя получает сигналы только от близких ему нейронов предыдущего слоя.
Слоистые сети, в свою очередь, могут быть однослойными и многослойными.
Однослойная сеть — сеть, состоящая из одного слоя.
Многослойная сеть — сеть, имеющая несколько слоев.
В многослойной сети первый слой называется входным, последующие — внутренними или скрытыми, последний слой — выходным. Таким образом, промежуточные слои — это все слои в многослойной нейронной сети, кроме входного и выходного. Входной слой сети реализует связь с входными данными, выходной — с выходными. Таким образом, нейроны могут быть входными, выходными и скрытыми. Входной слой организован из входных нейронов (inputneuron), которые получают данные и распространяют их на входы нейронов скрытого слоя сети. Скрытый нейрон (hiddenneuron) — это нейрон, находящийся в скрытом слое нейронной сети. Выходные нейроны (outputneuron), из которых организован выходной слой сети, выдает результаты работы нейронной сети.
В полносвязных сетях каждый нейрон передает свой выходной сигнал остальным нейронам, включая самого себя. Выходными сигналами сети могут быть все или некоторые выходные сигналы нейронов после нескольких тактов функционирования сети.
Все входные сигналы подаются всем нейронам.
Обучение нейронных сетей
Перед использованием нейронной сети ее необходимо обучить. Процесс обучения нейронной сети заключается в подстройке ее внутренних параметров под конкретную задачу. Алгоритм работы нейронной сети является итеративным, его шаги называют эпохами или циклами. Эпоха — одна итерация в процессе обучения, включающая предъявление всех примеров из обучающего множества и, возможно, проверку качества обучения на контрольном множестве. Процесс обучения осуществляется на обучающей выборке. Обучающая выборка включает входные значения и соответствующие им выходные значения набора данных. В ходе обучения нейронная сеть находит некие зависимости выходных полей от входных. Таким образом, перед нами ставится вопрос — какие входные поля (признаки) нам необходимо использовать. Первоначально выбор осуществляется эвристически, далее количество входов может быть изменено.
Сложность может вызвать вопрос о количестве наблюдений в наборе данных. И хотя существуют некие правила, описывающие связь между необходимым количеством наблюдений и размером сети, их верность не доказана. Количество необходимых наблюдений зависит от сложности решаемой задачи. При увеличении количества признаков количество наблюдений возрастает нелинейно, эта проблема носит название «проклятие размерности». При недостаточном количестве данных рекомендуется использовать линейную модель.
Аналитик должен определить количество слоев в сети и количество нейронов в каждом слое. Далее необходимо назначить такие значения весов и смещений, которые смогут минимизировать ошибку решения. Веса и смещения автоматически настраиваются таким образом, чтобы минимизировать разность между желаемым и полученным на выходе сигналами, которая называется ошибка обучения. Ошибка обучения для построенной нейронной сети вычисляется путем сравнения выходных и целевых (желаемых) значений. Из полученных разностей формируется функция ошибок.
Функция ошибок — это целевая функция, требующая минимизации в процессе управляемого обучения нейронной сети. С помощью функции ошибок можно оценить качество работы нейронной сети во время обучения. Например, часто используется сумма квадратов ошибок. От качества обучения нейронной сети зависит ее способность решать поставленные передтней задачи.
Переобучение нейронной сети
При обучении нейронных сетей часто возникает серьезная трудность, называемая проблемой переобучения (overfitting). Переобучение, или чрезмерно близкая подгонка — излишне точное соответствие нейронной сети конкретному набору обучающих примеров, при котором сеть теряет способность к обобщению. Переобучение возникает в случае слишком долгого обучения, недостаточного числа обучающих примеров или переусложненной структуры нейронной сети. Переобучение связано с тем, что выбор обучающего (тренировочного) множества является случайным. С первых шагов обучения происходит уменьшение ошибки. На последующих шагах с целью уменьшения ошибки (целевой функции) параметры подстраиваются под особенности обучающего множества. Однако при этом происходит «подстройка» не под общие закономерности ряда, а под особенности его части — обучающего подмножества. При этом точность прогноза уменьшается. Один из вариантов борьбы с переобучением сети — деление обучающей выборки на два множества (обучающее и тестовое). На обучающем множестве происходит обучение нейронной сети. На тестовом множестве осуществляется проверка построенной модели. Эти множества не должны пересекаться. С каждым шагом параметры модели изменяются, однако постоянное уменьшение значения целевой функции происходит именно на обучающем множестве. При разбиении множества на два мы можем наблюдать изменение ошибки прогноза на тестовом множестве параллельно с наблюдениями над обучающим множеством. Какое-то количество шагов ошибки прогноза уменьшается на обоих множествах. Однако на определенном шаге ошибка на тестовом множестве начинает возрастать, при этом ошибка на обучающем множестве продолжает уменьшаться. Этот момент считается началом переобучения
Инструменты DataMining
Разработкой в секторе DataMining всемирного рынка программного обеспечения заняты как всемирно известные лидеры, так и новые развивающиеся компании. Инструменты DataMining могут быть представлены либо как самостоятельное приложение, либо как дополнения к основному продукту. Последний вариант реализуется многими лидерами рынка программного обеспечения. Так, уже стало традицией, что разработчики универсальных статистических пакетов, вдополнение к традиционным методам статистического анализа, включают в пакет определенный набор методов DataMining. Этотакиепакетыкак SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Некоторые разработчики OLAP- решений также предлагают набор методов DataMining, например, семейство продуктов Cognos. Есть поставщики, включающие DataMining решения в функциональность СУБД: это Microsoft ( MicrosoftSQLServer ), Oracle , IBM ( IBMIntelligentMinerforData ).
Источник