- Очистка данных
-
Очистка данных (англ. Data cleansing) — процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества. Очистка данных является составной частью интеллектуального анализа данных.
Очистка данных выполняется с определенными наборами данных (в базах данных и файлах). Необходимость в очистке данных чаще всего возникает при интеграции различных информационных систем (хранилища данных, системы управления ресурсами предприятия, системы управления взаимодействием с клиентами).
Источники данных в различных системах часто находятся в разрозненном виде и в различных состояниях. Преобразования выполняются автоматически (в соответствии с набором правил) либо вручную (в интерактивном режиме).
Примеры областей исправления данных включают адреса, различную классификацию мета-данных. Например, в системе А пол пользователя определяется символами 1 и 2, где 1 — мужской и 2 — женский. В системе Б пол пользователя определяется символами М и Ж, где М — мужской и Ж — женский. При интеграции данных в двух системах необходимо преобразовать классификацию к единому виду.
Ссылки
Категории:- Анализ данных
- Базы данных
- Business intelligence
Wikimedia Foundation. 2010.