Техническая библиотека CITForum.ru CITKIT.ru - все об Open Source Форумы Курилка
Все новости / Все статьи Деловая газета - шквал(!) IT-новостей :: CITCITY.RU
Первая полоса ИТ-Инфраструктура Телекоммуникации Безопасность BI Интеграционные платформы КИС IT-бизнес Ширпотреб Точка зрения

21.11.2017

Новости:


Все новости

Business Intelligence

Стратегии консолидации разрозненных аналитических данных и приложений. основные понятия, постановка проблемы

Сегодня вопросы консолидации аналитических структур являются одной из "горячих" тем. Несмотря на кажущуюся простоту, проблема консолидации имеет множество подводных камней и поэтому заслуживает особого внимания.

Приятно, когда серьезной задачей занимаются профессионалы - предлагаем читателю познакомиться с работой международной организации TDWI (The Data Warehousing Institute - Институт Хранилищ данных) "В поисках самой точной информации: походы к консолидированию аналитических данных" (In Search of a Single Version of the Truth: Strategies for Consolidating Analytic Silos).

Основные понятия

Прежде чем перейти к рассмотрению проблемы консолидации аналитических данных, будет нелишним привести список основных терминов и их определений. Разумеется, многие из них, если не все, могут быть знакомы читателю. Однако, их присутствие в данной статье позволит исключить возможную двусмысленность и может оказаться полезным для тех, кто только приобщается к технологиям Хранилищ данных и Business Intelligence. Кроме того, несомненный интерес представляет и то, как эти понятия определяют аналитики TDWI.

Хранилище данных (Data Warehouse). Совместно используемая, аналитическая структура данных, которая поддерживает множество предметных областей, приложений или отделов. Существуют три типа Хранилищ данных - централизованное, с архитектурой "звезда" и операционные склады данных.

Централизованное Хранилище данных (Centralized Data Warehouse). Хранилище данных, в основе которого лежит одна база данных, к которой пользователи могут напрямую обращаться с запросами.

Хранилище данных с архитектурой "звезда" (Hub-and-Spoke Data Warehouse). Хранилище данных, в котором данные хранятся и подготавливаются для передачи в витрины данных нижнего уровня (т.е. в зависимые витрины данных). Большинство пользователей обращаются с запросами к зависимым витринам данных, а не к Хранилищу данных.

Операционный склад данных (Operational Data Store, сокр. ODS). "Хранилище данных", содержащее ограниченный объем исторических данных, которые используются для поддержки одного или нескольких операционных приложений, к которым предъявляются высокие требования по быстродействию (время ответа менее секунды). Операционные склады данных обновляются непосредственно из операционных приложений.

Витрина данных (Data Mart). Совместно используемая, аналитическая структура данных, которая поддерживает одну предметную область, приложение или отдел. Как правило, витрина данных является кластером схемы "звезда", который описывает одну предметную область.

Зависимая витрина данных (Dependent Data Mart). Витрина данных, которая извлекает данные из Хранилища данных с архитектурой "звезда" и использует определения и модель данных, соответствующие этому Хранилищу данных.

Независимая витрина данных (Independent Data Mart). Изолированная витрина данных, модель и правила которой не соответствуют другим витринам или Хранилищам данных - такая витрина часто извлекает данные непосредственно из транзакционных систем, а не из Хранилища данных. Также известные как "бункеры данных" ("analytic silos"), независимые витрины данных по определению являются несистематизированными.

Табличная витрина (Spreadmart). Электронная таблица или настольная база данных, которая функционирует как персональная или филиальная витрина данных, определения и правила которой не соответствуют другим аналитическим структурам.

Федеративные витрины или среды (Federated Marts or Environments). Архитектура, в которой существующие аналитические структуры остаются на месте, но оказываются в некоторой степени связанными с помощью ключей, общих столбцов, глобальных метаданных, распределенных запросов или какого-либо другого способа.

Проблема разрастания аналитических структур

Если попытаться одним словом описать состояние, в котором сегодня находятся аналитические данные, используемые в крупных компаниях, то не найти лучшей характеристики, чем "фрагментарность". Несмотря на все свои ухищрения, директоры по информатизации по-прежнему отчаянно пытаются обеспечить согласованность данных, необходимую для образования единой корпоративной информационной среды. Вероятно, в своем поиске "единственной версии правды" руководители IT-отделов испытывают ощущение, что это сизифов труд - стоит им "снести предательский аналитический бункер", на смену ему незамедлительно приходит другой.

Несложно понять, почему несогласованные аналитические структуры разрастаются с такой скоростью. В большинстве компаний бизнес и функциональным подразделениям, а также отдельным сотрудникам, разрешается изменять характеристики продуктов и услуг с учетом спецификации местных рынков. Пользователям предоставляется бюджет, достаточный для построения новых операционных и аналитических систем, необходимых для реализации проектов. Иногда создаются системы, которые используют данные, уже хранящиеся в других приложениях.

"Я поражен, насколько люди любят заново изобретать колесо", - делится на условиях анонимности менеджер проекта по внедрению и сопровождению Хранилища данных, используемого в одной крупной деревообрабатывающей компании. Так, одно бизнес-подразделение в этой компании потратило полтора года на получение информации, уже содержащейся в центральном Хранилище данных. - "Они делали это частично, чтобы "защитить свои владения", частично, чтобы продолжить использовать уже знакомые инструменты, и частично потому, что они умели это делать".

Но функционирование компаний - это не единственная причина взрывного роста аналитических данных. Внешние события, например, слияния или поглощения, приводят к появлению множества избыточных аналитических структур. Аналогичный результат наблюдается и при проведении внутренней реорганизации, особенно когда руководство децентрализованной фирмы решает централизовать свою деятельность. В обоих случаях ранее автономные группы пользователей начинают использовать многочисленные аналитические системы, функции которых перекрываются.

Во время экономического бума, охватившего США в конце 90-х, слияния и поглощения, реструктуризация компаний происходили с ужасающей быстротой. Сегодня, когда экономика стабилизировалась, в организациях пытаются навести порядок и помимо всего прочего консолидировать избыточные аналитические структуры.

Каковы бы ни были причины, компании оказываются загруженными множеством различных аналитических структур, включая Хранилища, витрины и операционные склады данных, табличные витрины.

Как стало известно в ходе исследования, в организациях в среднем используются два Хранилища данных, шесть независимых витрин, четыре с половиной склада данных и двадцать восемь с половиной табличных витрин. Вместе с тем, в результате обсуждения с участниками опроса выяснилось, что в нескольких компаниях установлены десятки витрин данных и сотни табличных витрин. Некоторые респонденты даже не смогли представить, сколько табличных витрин у них используется.

Разрастание несогласованных аналитических структур влечет за собой возникновение двух классов проблем.

Во-первых, это вызывает недовольство руководителей компаний, поскольку они оказываются не в состоянии посмотреть данные, необходимые для оценки эффективности функционирования. Нередко источником их раздражения является ситуация, когда менеджеры на совещаниях вместо разработки стратегий и планов по реализации корпоративных целей тратят время на выяснение, чьи данные верные. Это и понятно: не располагая исчерпывающей информацией о деятельности компании, руководство не может эффективно ей управлять.

Во-вторых, существование избыточных, несистематизированных аналитических структур является "дорогим удовольствием". Действительно, как отмечают менеджеры проектов по внедрению и сопровождению Хранилищ данных, в случае, если используются физически разнесенные системы, в которых оказываются задействованными различные средства хранения, аппаратные устройства и технологии передачи данных, а также сотрудники из разных отделов - такие системы могут повысить затраты на эксплуатацию Хранилища данных на 30-50%. Консолидация этих структур позволяет экономить миллионы долларов в год и обеспечивать быструю окупаемость инвестиций (высокий показатель ROI).

Решение проблемы разрастания разрозненных аналитических данных: лекарством от болезни является сама болезнь

Как ни парадоксально, но лекарством от разрастания аналитических структур является не что иное, как создание еще одной аналитической структуры. Чтобы уничтожить разрозненные приложения, необходимо создать единое Корпоративного хранилища данных (Enterprise Data Warehouse, сокр. EDW), которое обеспечит существование всех прошлых, настоящих и будущих аналитических структур. Главное - чтобы при внедрении Корпоративное хранилище данных заняло центральное место не только в информационной архитектуре компании, но и стало неотъемлемой частью корпоративной культуры, превратившись в аналитическую структуру де-факто.

Однако, следует помнить, что Корпоративное хранилище данных будет работоспособным только в том случае, если будут выработаны определения и правила для широко используемых терминов и вычислений, как, например, "коэффициент прибыльности", "продажа", "прибыль". Стандартизация определений совместно используемых элементов данных - часто называемых метаданными - часто является более сложной задачей по сравнению с консолидированием реальных физических структур. Но как только эта задача выполнена, Корпоративное Хранилище данных становится репозиторием общих данных, правил, определений и других метаданных, используемых многочисленными аналитическими приложениями.

"Для успешной реализации проекта по консолидации требуется не только стандартизация метаданных, но и обеспечение быстрого доступа к этим правилам и определениям. Это позволит пользователям и администраторам лучше понять природу данных, которые им необходимо контролировать или анализировать", - отмечает вице-президент по стратегии продуктов компании Informatica Дэвид Лайл (David Lyle).

Консолидация бесчисленных аналитических структур в единственное Корпоративное хранилище данных - очень непростой вопрос, но часто самое сложное - это преодоление консервативных настроений в отношении практики использования информации. Для того, чтобы "навести порядок в аналитическом хаосе", требуется выполнить три условия: 1) снискать одобрение руководства; 2) добиться поддержки у сотрудников; 3) получить значительные инвестиции на длительный срок.

Консолидации: цели и ожидания пользователей

Как показало исследование, существует множество причин, почему компаниям приходится консолидировать аналитические данные. Однако, в большинстве случаев наиболее распространенная причина - необходимость наличия согласованных корпоративных данных (см. рис. 1).

Рис. 1. Основные причины начала проектов по консолидации данных

Практически все участники опроса охарактеризовали эту причину как "очень весомую" или просто "весомую". Следом идут "Уменьшение затрат и накладных расходов" (71% респондентов) и "Стандартизация различных информационных технологий" (50% респондентов).

Таким образом, организации консолидируют данные в первую очередь с целью улучшения согласованности данных и уменьшения расходов.

Практический пример: консолидация в децентрализованной фирме

Вернемся к деревообрабатывающей компании, о которой упоминалось выше. В этой организации используется четыре Хранилища данных и около тридцати витрин данных, большая часть которых появилась в результате ряда поглощений, имевших место до 2000г. Ситуация усугублялась тем, что компания имела децентрализованную организационную структуру. В результате, фирма несколько лет безуспешно пыталась привести в соответствие многочисленные информационные среды. Затем, новый директор по информатизации решил объединить IT-отдел и превратить его в централизованное подразделение, а также выбрать стандартные операционные и аналитические системы от одного поставщика.

"В большой международной компании, состоящей из довольно автономных отделений и оперативных подразделений, было невозможно удержать рост и распространение независимых витрин данных и других систем поддержки, используемых в отделах", - рассказывает менеджер проекта по внедрению и сопровождению Хранилищ данных. - "И только, когда по инициативе нашего директора произошла централизация IT-департамента, мы смогли консолидировать и согласовать наши данные".



Intersoft Lab

Последние комментарии:

Самое интересное:


© 2004–2009 Проект CITCITY.ru