Классификация текстов

Классификация текстов

Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Использует методы информационного поиска и машинного обучения.

Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Содержание

Постановка задачи

Имеется множество категорий \mathfrak{C} = \{ c_1, ... , c_{ \left| \mathfrak{C} \right| } \}.

Имеется множество документов \mathfrak{D} = \{ d_1, ... , d_{ \left| \mathfrak{D} \right| } \}.

Неизвестная целевая функция \Phi\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}.

Необходимо построить классификатор  \Phi^\prime , максимально близкий к Φ.

Имеется некоторая начальная коллекция документов, для которой известны значения Φ. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ \Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \} или степень подобия \Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow [ 0, 1 ].

Этапы обработки

Индексация документов 
Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
Построение и обучение классификатора 
Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.
Оценка качества классификации 
Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.

Применение

  • фильтрация спама
  • составление интернет-каталогов
  • подбор контекстной рекламы
  • в системах документооборота
  • автоматическое реферирование (составление аннотаций)
  • снятие неоднозначности при автоматическом переводе текстов
  • ограничение области поиска в поисковых системах

См. также

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать курсовую

Полезное


Смотреть что такое "Классификация текстов" в других словарях:

  • классификация текстов в научной литературе — На основе литературоведческого, лингвистического и психолингвистического подходов даются классификации, отличающиеся большим разнообразием: 1) литературоведческая типология текстов: а) лирика представлена жанрами: лирическое стихотворение,… …   Словарь лингвистических терминов Т.В. Жеребило

  • классификация текстов в научной литературе —   На основе литературоведческого, лингвистического и психолингвистического подходов даются классификации, отличающиеся большим разнообразием:   1) литературоведческая типология текстов: а) лирика представлена жанрами: лирическое стихотворение,… …   Методы исследования и анализа текста. Словарь-справочник

  • классификация текстов в коммуникативно-деятельностном аспекте — Н.С. Болотнова выделяет в данном аспекте разные типы текстов: 1) с точки зрения их информативности; 2) с т. зр. структурности текстов; 3) с т. зр. разных типов смыслового развертывания; 4) с т. зр. интегративности; 5) с т. зр. регулятивности …   Словарь лингвистических терминов Т.В. Жеребило

  • классификация текстов в коммуникативно-деятельностном аспекте —   Н.С. Болотнова выделяет в данном аспекте разные типы текстов:   1) с точки зрения их информативности;   2) с т. зр. структурности текстов;   3) с т. зр. разных типов смыслов развертывания;   4) с т. зр. интегративности;   5) с т. зр.… …   Методы исследования и анализа текста. Словарь-справочник

  • классификация текстов в зарубежной лингвистике — 1) типология утилитарных текстов Б. Зандига, включающая 18 типов: частное письмо, интервью, телефонный разговор и т.п.; 2) функционально текстовая типология Э. Гроссе: а) нормативные тексты; б) контактные; в) групповые; г) поэтические; д) тексты… …   Словарь лингвистических терминов Т.В. Жеребило

  • классификация текстов в учебной литературе — 1) по степени самостоятельности: первичные и вторичные (изложения, конспекты), первично вторичные (обзор литературы, рефераты проблемного характера) [В.Н. Мещеряков 1998: 239 240]; 2) в зависимости от особенностей перспективного развертывания:… …   Словарь лингвистических терминов Т.В. Жеребило

  • классификация текстов в зарубежной лингвистике —   1) типология утилитарных текстов Б. Зандига, включающая 18 типов: частное письмо, интервью, телефонный разговор и т.п.;   2) функционально текстовая типология Э. Гроссе: а) нормативные тексты; б) контактные; в) групповые; г) поэтические; д)… …   Методы исследования и анализа текста. Словарь-справочник

  • классификация текстов в учебной литературе —   1) по степени самостоятельности: первичные и вторичные (изложения, конспекты), первично вторичные (обзор литературы, рефераты проблемного характера) [В.Н. Мещеряков 1998: 239 240];   2) в зависимости от особенностей перспективного развертывания …   Методы исследования и анализа текста. Словарь-справочник

  • Классификация документов — Классификация документов  одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Классификация может осуществляться полностью вручную, либо автоматически с …   Википедия

  • Классификация (машинное обучение) — Классификация один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций), разделённых некоторым образом на классы . Задано конечное множество объектов, для которых известно, к каким классам… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»