| Стоит прочесть |
|---|
| Управление знаниями - обзор темы |
| Text Mining |
| Активные индивидуальные методы извлечения знаний и данных |
| Все статьи об управлении знаниями |
Knowledge Discovery in Databases (KDD) — это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining, постобработки данных, интерпретации полученных результатов.
Data Mining (добыча (извлечение) знаний) — новая технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, корреляций, тенденций и шаблонов. Современные системы добычи данных используют основанные на методах искусственного интеллекта средства представления и интерпретации, что и позволяет обнаруживать растворенную в терабайтных хранилищах не очевидную, но весьма ценную информацию. Фактически, мы говорим о том, что в процессе Data mining система не отталкивается о заранее выдвинутых гипотез, а предлагает их сама на основе анализа. Это означает, что в ходе анализа массива данных о продажах моей компании за определенный период я могу получить не известные мне до этого, подтвержденные гипотезы о существенных закономерностях в данных.
Существует множество определений Data Mining, но в целом они совпадают в выделении чктырех основных признаков. Согласно определению, Г. Пиатецкого-Шаниро (G. Pia-tetsky Shapiro,GTE Labs), одного из ведущих мировых экспертов в данной области, Data Mining — исследование и обнаружение алгоритмами, средствами искусственного интеллекта в "сырых" данных скрытых структур, шаблонов или зависимостей, которые:
- ранее не были известны;
- нетривиальны;
- практически полезны;
- доступны для интерпретации человеком и необходимы для принятия решений в различных сферах деятельности.
В связи с совершенствованием технологий записи и хранения данных на общество обрушилась колоссальные потоки информации в самых различных областях, требующей продуктивной переработки.
Специфика современных требований к такой переработке следующая:
Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, не отвечала возникшим проблемам. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами. Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных OLAP.
В основу современной технологии Data Mining положена концепция шаблонов (pattern), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в форме, понятной человеку. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.
Причины популярности Data Mining:
Пример Data Mining
Компания Sports Plus занимается продажей спортивной одежды, принимая заказы по почте. Ежегодно фирма рассылает 20 млн каталогов и рекламных листовок. Обслуживая текущую клиентуру, Sports Plus приобретает списки рассылок, а также демографические и другие данные и использует их для расширения своего рынка сбыта.
Собрав данные о 50 тыс. потенциальных потребителей после первой рассылки, Sports Plus разработала модель отклика, учитывающую следующие параметры: возраст, пол, доход, занятие, географическое положение, о наличие подписке на журнал и т.д. Модель прогнозирует вероятность того, что после получения каталога потенциальный клиент станет реальным потребителем.
Используя модель для ранжирования и отбора возможных потребителей с учетом приобретенных рассылок, компания сократила затраты на печать и почтовую пересылку каталогов на 60 %, при этом от 85 % потенциальных заказчиков удалось получить ответ. В итоге за год маркетинговые расходы сократились на 20 млн дол.





