Техническая библиотека CITForum.ru CITKIT.ru - все об Open Source Форумы Курилка
Все новости / Все статьи Деловая газета - шквал(!) IT-новостей :: CITCITY.RU
Первая полоса ИТ-Инфраструктура Телекоммуникации Безопасность BI Интеграционные платформы КИС IT-бизнес Ширпотреб Точка зрения

28.04.2017

Новости:


Все новости

Business Intelligence

Как начать внедрение технологии data mining, не теряя ее ценных возможностей

Технология data mining (DM) заняла свои позиции в последнее десятилетие, получив центральную роль во многих сферах бизнеса. Что и говорить, ведь все мы, фактически, являемся объектами data mining десятки раз в день — начиная от получения почтовых рассылок и заканчивая применением алгоритмов выявления мошенничества, анализирующих любую покупку по кредитной карте.

Причина широкого распространения методов data mining проста: они дают хорошие результаты. Эта технология позволяет существенно повысить возможности организации в достижении целей. Ее популярность растет все больше, поскольку инструменты совершенствуются, получают все более широкое применение, дешевеют и становятся проще в использовании.

Многие команды разработчиков Хранилищ данных (ХД) и инструментов Business Intelligence (BI) не знают, как начать разработку data mining. В этой статье рассматривается подход, основанный на бизнес-принципах, который позволит успешно внедрить DM в уже существующую систему ХД/BI.

Процесс data mining должен начинаться с выявления бизнес-возможностей. На диаграмме показаны три фазы процесса DM, а также основные задачи этих фаз и их пересечения.

 

Бизнес-фаза

Эта первая фаза представляет собой более детальный вариант общего процесса сбора требований для системы BI/ХД. Важно выявить список возможностей, которые могут оказать существенное влияние на бизнес, и проранжировать их. Бизнес-возможности и задачи понимания данных на диаграмме соединяются: чтобы выявить возможности, их надо соотнести с реалиями мира данных. Кроме того, данные сами по себе могут дать информацию о бизнес-возможностях.

Как обычно, самый важный шаг в успешном внедрении BI связан не с технологией, а с пониманием бизнеса. Стоит побеседовать со специалистами, чтобы узнать о потенциальных возможностях и соответствующих отношениях и связях внутри данных. Целью таких встреч должно стать выявление и тщательное изучение нескольких важных возможностей.

В первую очередь, надо описать бизнес-цели так, чтобы можно было дать их количественную оценку. Если, к примеру, понятие «повышение продаж» — слишком общее, то вот «сокращение ежемесячного уровня ухода клиентов» — уже более удобный параметр. Далее нужно обдумать, какие факторы влияют на цели. Что подсказывает возможный уход клиента? Как можно понять, что кто-то заинтересуется данным продуктом? Обсуждая эти факторы, нужно постараться преобразовать их в специальные атрибуты и свойства, представимые в доступной и удобной форме.

Проведя несколько встреч по идентификации и классификации возможностей, следует выбрать самую приоритетную из них, сделать соответствующий список потенциальных переменных и передать его в Хранилище для дальнейшего рассмотрения. Не стоит жалеть времени на исследование наборов данных, которые могут быть связаны с обсуждаемыми возможностями. На этом этапе цель состоит в проверке того, что данные, необходимые для поддержки бизнес-возможности, доступны и не содержат ошибок, а, следовательно, их можно использовать.

Множество проблем, касающихся содержания, взаимоотношений и качества данных, можно обнаружить с помощью их профилирования, т.е. используя инструменты отчетов и запросов для понимания исследуемого содержимого. Профилирование данных может быть простым — на уровне написания запросов SQL SELECT с параметрами COUNT и DISTINCT.

 

Однако некоторые инструменты профилирования могут обеспечить и более сложный анализ, выходящий за рамки простых запросов. Выявив четкую и реальную возможность, нужно документально зафиксировать следующие аспекты:

  • описание бизнес-возможности;
  • ожидаемые проблемы данных;
  • описание процесса моделирования;
  • план внедрения;
  • план поддержки.

Наконец, нужно обсудить бизнес-возможность и документацию с бизнес-пользователями и убедиться, что их потребности понятны и они четко знают, как будут решаться их задачи.

Стадия Data mining

Теперь необходимо построить несколько моделей data mining. Три основные задачи этой стадии включают:

  • подготовку данных;
  • разработку альтернативных моделей и сравнение их точности;
  • оценку конечной модели.

На диаграмме проиллюстрирован этот итеративный процесс.



Рис.1. Процесс data mining

Первая задача на этом этапе состоит в построении ситуативных выборок (data mining case sets).Ситуативная выборка включает одну строку для каждого элемента или события. Для многих моделей data mining под ситуативной выборкой подразумевается набор данных, где каждому клиенту соответствует одна строка. Модели, где рассматриваются простые атрибуты, такие как пол и семейный статус, содержат в выборке по одной строке на клиента. Модели, где изучается повторяющийся характер поведения, например закупки, содержат в выборке по одной строке на событие.

Хорошо спроектированное и разработанное многомерное Хранилище данных — прекрасный источник ситуативных данных (case data). В идеале, многие переменные, выявленные на этапе поиска бизнес-возможности, уже существуют в виде атрибутов ХД. Это часто касается таких полей, как customer_type (тип клиента) или product_color (цвет продукта). Условия для data mining становятся более благоприятными, когда демографические и прочие внешние данные уже загружены в Хранилище и организованы по измерениям.

Описательные данные имеют большое значение, но самые важные переменные в модели data mining, как правило, относятся к разряду поведенческих.

 

Поведение клиента обычно описывается в Хранилище в виде фактов, отражающих:

  • что делал клиент;
  • как часто;
  • как много;
  • когда.

Процесс построения ситуативных выборок обычно включает запросы и преобразования, которые генерируют структуру данных, состоящую из отдельных наблюдений, или ситуаций (cases), часто с повторяющимися вложенными структурами, которые затем передаются в приложение data mining. Задача эта чаще всего похожа на обычное извлечение, преобразование и загрузку (ETL), которые применяются для построения самого Хранилища. Если сохранить data mining case sets в отдельной базе (или на отдельном компьютере), то можно управлять этими таблицами независимо от Хранилища.

ETL-инструменты хорошо подходят для создания ситуативных выборок, так как все задачи поиска и очистки компонентов можно объединить в одной ETL-операции. Кроме того, одновременно проводится множество преобразований.

В зависимости от выбранной бизнес-возможности и используемых DM-алгоритмов, подготовка исходных наборов данных чаще всего включает создание отдельных подмножеств для различных целей. В таблице показаны три стандартных выборки. ETL-инструмент выполняет простые преобразования, которые позволяют взять произвольную выборку размером в 10 тысяч строк из крупного набора данных, а затем 80% этих строк передать в обучаемую выборку, а 20% — в тестовую выборку.

Таблица 1. Первичные выборки data mining

 

Выборка
Назначение
Обучающая
Используется в качестве входных данных алгоритма для разработки исходной модели.
Оценочная
Используется для того, чтобы убедиться, что алгоритм создал модель, которая имеет широкое применение, а не привязана к обучающей выборке. Применяется только в определенных обстоятельствах.
Тестовая
Данные, не включенные в обучающую выборку. Часто их называют скрытыми. Применяются для проверки точности и эффективности модели.

 

После разработки наборов данных начинается процесс создания моделей. Нужно стараться, насколько позволяет время, разработать как можно больше различных моделей и версий. Необходимо использовать различные алгоритмы, параметры и переменные, выясняя, что оказывает максимальное влияние или дает лучшую точность. Кроме того, можно вернуться к задаче подготовки данных, добавляя новые переменные или переопределяя существующие преобразования. Чем больше вариантов будет протестировано, тем лучше окажется конечная модель.

Создание лучшей модели data mining — это процесс триангуляции. Необходимо применять к данным несколько алгоритмов: деревья решений, нейронные сети и выводы путем сопоставления (memory-based reasoning). Если несколько моделей приводят к одинаковым результатам, значит, найден наилучший сценарий. Это особенно полезно, когда инструмент выдает ответ, но не предлагает интуитивного объяснения (наиболее часто встречающаяся проблема нейронных сетей). Триангуляция дает всем пользователям (особенно бизнес-пользователям и менеджерам) уверенность в том, что за прогнозами реально что-то стоит.

В data mining существует два типа оценки моделей. Технический подход состоит в сравнении главных моделей, которое показывает, какая из них наиболее эффективная в плане прогнозирования целевых переменных. Инструмент DM должен обеспечивать средства для сравнения эффективности определенных типов моделей. Примером могут служить диаграммы роста (lift charts) и матрицы классификации(classification matrices). Эти средства используют тестовые выборки данных для прогона моделей и сравнения прогнозируемых и фактических (известных) результатов.

Необходимо задокументировать содержимое «лучшей» модели, а также провести оценку ее осмысленности и эффективности. Выбор модели — это всегда бизнес-решение. Следующий шаг состоит в том, чтобы использовать модель в реальной жизни.

Операционная фаза

Операционная фаза — это этап, когда сделаны все приготовления и можно приступать к практическому использованию модели. Лучшая модель (с учетом временных, технологических и информационных ограничений) уже найдена и одобрена бизнес-пользователями.

Операционная фаза включает три основные задачи: внедрение, оценку результатов работы и поддержку.

Модель профилирования клиентов, которая запускается раз в квартал, требует участия только специалиста по исследованию данных и ETL-разработчика. С другой стороны, для выполнения оперативных рекомендаций необходимо привлечь разработчиков приложений и сотрудников производственной сферы, что потребует немалых усилий. Если ведется работа над крупным проектом, то этих людей надо пригласить как можно раньше, лучше всего — на бизнес-стадии. Тогда они смогут определить соответствующие временные рамки и ресурсы. Целесообразно разбить внедрение модели data mining на фазы, начиная с тестовой версии. Это гарантирует, что сервер data mining не будет влиять на процесс выполнения транзакций.

Оценка влияния модели data mining может стать сложной задачей. В некоторых областях, например, в почтовой рассылке, процесс настройки и тестирования маркетинговых предложений, списков целевых и второстепенных потенциальных покупателей — серьезная работа для большой команды сотрудников. Обычно такая группа проводит тестирование на небольших подмножествах, прежде чем проводить массовые рассылки. Даже при выполнении маркетинговых кампаний процесс, как правило, выполняется в несколько этапов с различными версиями и контрольными подмножествами. Результаты каждого этапа используются для оптимального проведения последующих. Необходимо максимально следовать именно такому подходу тщательной оценки.

Важно помнить, что по мере изменения ситуации во внешнем мире поведения и связи, отражаемые в модели, устаревают. Почти все модели data mining необходимо переобучать или полностью перепроектировать на каком-то этапе. Например, механизм рекомендаций, который не включает последних продуктов, окажется абсолютно бесполезен.

Метаданные

Конечная модель data mining должна быть детально задокументирована. Специалист по data mining обязан точно знать, как была создана модель, чтобы объяснить ее ценность, избежать повторения ошибок и при необходимости воссоздать ее.

Современное программное обеспечение для data mining настолько прозрачно в использовании, что часто на документирование каждой итерации уходит больше времени, чем на ее выполнение. Тем не менее, важно отслеживать то, что происходит, и откуда что берется. Необходимо хранить базовый набор метаданных, чтобы проверять содержимое и источник всех преобразованных наборов данных, а также результирующие модели. В идеале, инструмент data mining обеспечивает средства проверки этих изменений. В самом простом случае можно использовать электронные таблицы.

 

Для каждой модели data mining необходимо хранить электронную таблицу, в которой содержатся следующие параметры:

  • название модели;
  • версия и дата создания;
  • обучающие и тестовые выборки;
  • алгоритмы;
  • настройки параметров;
  • входные и прогнозируемые переменные;
  • результаты.

 

Электронная таблица должна содержать определения входящих наборов данных, указания на источники данных и названия ETL-модулей, применявшихся для создания входящих наборов.

Такой подход позволит успешно интегрировать data mining с системой ХД/BI. Важно помнить, что самый простой путь к успеху начинается с понимания бизнес-требований и заканчивается получением бизнес-результатов.

 

Краткое обобщение

Оптимальные методы ХД/BI в Kimball University 1

Data mining становится более эффективным, доступным и менее дорогим средством. Нижеследующий бизнес-подход, состоящий из трех фаз, позволит успешно внедрить data mining в среду ХД/BI.

 

Фаза 1 — Бизнес-фаза. Выделяются бизнес-возможности и проводится их оценка с учетом доступных данных.

Фаза 2 — Фаза data mining. Подготовка данных для data mining, построение моделей, сравнение моделей для оценки прогнозов и выбор лучшей модели.

Фаза 3 — Операционная фаза. Запуск модели data mining в действие, оценка ее влияния на бизнес и поддержка.

 

Итерации разработки и тестирования различных моделей нужно отслеживать в структуре метаданных, даже если это простая электронная таблица.


[1]Kimball University (KU) – университет Ральфа Кимболла (одного из основателей концепции Хранилища данных). Университет занимается образовательной и просветительской деятельностью в области ХД.

Оригинальный текст статьи можно посмотреть здесь:
Get Started With Data Mining Now



Intersoft Lab

Последние комментарии:

Самое интересное:


© 2004–2009 Проект CITCITY.ru