| Стоит прочесть |
|---|
| Управление знаниями - обзор темы |
| Web Mining |
| Извлечение знаний: лингвистический аспект |
| Все статьи об управлении знаниями |
Классическая схема обработки текстов подразумевает несколько последовательных этапов: на первом происходит нормализация слов с учетом морфологии языка; на втором - семантический анализ текста, когда уточняется конкретный смысл слова в зависимости от контекста. Затем строится семантический образ исходного документа, на основе которого делаются интеллектуальные запросы на анализ текстов.
Важный компонент технологии Text Mining связан с извлечением из текста его характерных элементов или свойств, которые могут использоваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации.
Следует заметить, что технологии глубинного анализа текста исторически предшествовала технология добычи данных (Data Mining), методология и подходы которой широко используются и в методах Text Mining. Для добычи текстов вполне справедливо определение, данное для добычи данных одним из ведущих мировых экспертов Г. Пятецким-Шапиро из GTE Labs. Он отмечал, что Text Mining - процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Text Mining - алгоритмическое выявление прежде неизвестных связей и корреляций в уже имеющихся текстовых данных.
Аналитические системы для работы с текстами документов необходимы для комплексного анализа предметной области в больших информационных хранилищах (архивах) документов.
Результаты аналитической обработки документов мониторинга предметных областей используются в математическом прогнозировании и анализе рынков и социальной обстановки.
Аналитические системы обработки документов - пример процедуры извлечения знаний. Средства, позволяющие решать задачи извлечения знаний из огромного информационного потока (хранилища документов), - обязательный инструмент аналитика в системе управления знаниями.





