Smart education

Эксперт - это человек, который совершил все возможные ошибки в очень узкой специальности.

Н. Бор

создание системы обучения персонала Профессиональные компетенции Корпоративный тренинг персонала Дистанционное обучение Управление знаниями Управление изменениями

Ошибка
  • JUser: :_load: Не удалось загрузить пользователя с id: 94

Извлечение знаний - Data Mining в системе управления знаниями

Оцените материал
(1 Голосовать)

Для решения задач более глубокого анализа данных в системах управления знаниями применяется набор технологий, объединенных под названием Knowledge Discovery in Databases.

Стоит прочесть
Управление знаниями - обзор темы
Text Mining
Активные индивидуальные методы извлечения знаний и данных
Все статьи об управлении знаниями

Knowledge Discovery in Databases (KDD) — это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining, постобработки данных, интерпретации полученных результатов.

Data Mining (добыча (извлечение) знаний) — новая технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, корреляций, тенденций и шаблонов. Современные системы добычи данных используют основанные на методах искусственного интеллекта средства представления и интерпретации, что и позволяет обнаруживать растворенную в терабайтных хранилищах не очевидную, но весьма ценную информацию. Фактически, мы говорим о том, что в процессе Data mining система не отталкивается о заранее выдвинутых гипотез, а предлагает их сама на основе анализа. Это означает, что в ходе анализа массива данных о продажах моей компании за определенный период я могу получить не известные мне до этого, подтвержденные гипотезы о существенных закономерностях в данных.

Существует множество определений Data Mining, но в целом они совпадают в выделении чктырех основных признаков. Согласно определению, Г. Пиатецкого-Шаниро (G. Pia-tetsky Shapiro,GTE Labs), одного из ведущих мировых экспертов в данной области, Data Mining — исследование и обнаружение алгоритмами, средствами искусственного интеллекта в "сырых" данных скрытых структур, шаблонов или зависимостей, которые:

 

  • ранее не были известны;
  • нетривиальны;
  • практически полезны;
  • доступны для интерпретации человеком и необходимы для принятия решений в различных сферах деятельности.

 

В связи с совершенствованием технологий записи и хранения данных на общество обрушилась колоссальные потоки информации в самых различных областях, требующей продуктивной переработки.

Специфика современных требований к такой переработке следующая:

  • данные имеют неограниченный объем;
  • данные являются разнородными (количественными, качественными, текстовыми);
  • результаты должны быть конкретны и понятны;
  • инструменты для обработки "сырых" данных должны
  • быть просты в использовании.
  •  

    Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, не отвечала возникшим проблемам. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами. Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных OLAP.

    В основу современной технологии Data Mining положена концепция шаблонов (pattern), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в форме, понятной человеку. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

    Причины популярности Data Mining:

  • стремительное накопление данных (счет идет уже на экзабайты);
  • всеобщая компьютеризация бизнес-процессов;
  • проникновение Интернет во все сферы деятельности;
  • прогресс в области информационных технологий: совершенствование СУБД и хранилищ данных;
  • прогресс в области производственных технологий: стремительный рост производительности компьютеров, объемов накопителей.
  •  

    Пример Data Mining

    Компания Sports Plus занимается продажей спортивной одежды, принимая заказы по почте. Ежегодно фирма рассылает 20 млн каталогов и рекламных листовок. Обслуживая текущую клиентуру, Sports Plus приобретает списки рассылок, а также демографические и другие данные и использует их для расширения своего рынка сбыта.
    Собрав данные о 50 тыс. потенциальных потребителей после первой рассылки, Sports Plus разработала модель отклика, учитывающую следующие параметры: возраст, пол, доход, занятие, географическое положение, о наличие подписке на журнал и т.д. Модель прогнозирует вероятность того, что после получения каталога потенциальный клиент станет реальным потребителем.
    Используя модель для ранжирования и отбора возможных потребителей с учетом приобретенных рассылок, компания сократила затраты на печать и почтовую пересылку каталогов на 60 %, при этом от 85 % потенциальных заказчиков удалось получить ответ. В итоге за год маркетинговые расходы сократились на 20 млн дол.

    Оставить комментарий

    Smart edcation на G+1
    Группа Smart education в Контакте
    Smart education RSS
    Smart education на Facebook
    Smart education Twitter