Формула Байеса

Формула Байеса

Теорема Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. По формуле Байеса можно более точно пересчитывать вероятность, беря в учёт как ранее известную информацию, так и данные новых наблюдений.

Содержание

Формулировка

Формула Байеса:

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}.,

где

P(A) — априорная вероятность гипотезы A (смысл такой терминологии см. ниже);
P(A | B) — вероятность гипотезы A при наступлении события B (апостериорная вероятность);
P(B | A) — вероятность наступления события B при истинности гипотезы A;
P(B) — вероятность наступления события B.

«Физический смысл» и терминология

Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной.

События, отражающие действие «причин», в данном случае обычно называют гипотезами, так как они — предполагаемые события, повлекшие данное. Безусловную вероятность справедливости гипотезы называют априорной (насколько вероятна причина вообще), а условную - с учетом факта произошедшего события — апостериорной (насколько вероятна причина оказалась с учетом данных о событии).

Следствие

Важным следствием формулы Байеса является формула полной вероятности события, зависящего от нескольких несовместных гипотез (и только от них!).

P(B)=\sum_{i=1}^N P(A_i)P(B|A_i) — вероятность наступления события B, зависящего от ряда гипотез Ai, если известны степени достоверности этих гипотез (например, измерены экспериментально);

Метод фильтрации спама

Метод, основанный на теореме Байеса, нашел успешное применение в фильтрации спама.

Описание

При обучении фильтра для каждого встреченного в письмах слова высчитывается и сохраняется его «вес» — вероятность того, что письмо с этим словом — спам (в простейшем случае — по классическому определению вероятности: «появлений в спаме / появлений всего»[1]).

При проверке вновь пришедшего письма вычисляется вероятность того, что оно — спам, по указанной выше формуле для множества гипотез. В данном случае «гипотезы» — это слова, и для каждого слова «достоверность гипотезы» P(A_i) = N_{word_i}/N_{words~total} — % этого слова в письме, а «зависимость события от гипотезы» P(B | Ai) — вычисленнный ранее «вес» слова. То есть «вес» письма в данном случае — не что иное, как усредненный «вес» всех его слов.

Отнесение письма к «спаму» или «не-спаму» производится по тому, превышает ли его «вес» некую планку, заданную пользователем (обычно берут 60-80 %). После принятия решения по письму в базе данных обновляются «веса» для вошедших в него слов.

Характеристика

Данный метод прост (алгоритмы элементарны), удобен (позволяет обходиться без «черных списков» и подобных искусственных приемов), эффективен (после обучения на достаточно большой выборке отсекает до 95—97 % спама, и в случае любых ошибок его можно дообучать). В общем, есть все показания для его повсеместного использования, что и имеет место на практике — на его основе построены практически все современные спам-фильтры.

Впрочем, у метода есть и принципиальный недостаток: он базируется на предположении, что одни слова чаще встречаются в спаме, а другие — в обычных письмах, и неэффективен, если данное предположение неверно. Впрочем, как показывает практика, такой спам даже человек не в состоянии определить «на глаз» — только прочтя письмо и поняв его смысл.

Еще один, не принципиальный, недостаток, связанный с реализацией — метод работает только с текстом. Зная об этом ограничении, спамеры стали вкладывать рекламную информацию в картинку, текст же в письме либо отсутствует, либо не несет смысла. Против этого приходится пользоваться либо средствами распознавания текста («дорогая» процедура, применяется только при крайней необходимости), либо старыми методами фильтрации — «черные списки» и регулярные выражения (так как такие письма часто имеют стереотипную форму).

См. также

Примечания

  1. В более сложных случаях возможна предварительная обработка текста: приведение слов в начальную форму, удаление служебных слов, вычисление «веса» для целых фраз, транслитерация и пр.

Ссылки

Литература



Wikimedia Foundation. 2010.

Игры ⚽ Нужно решить контрольную?

Полезное


Смотреть что такое "Формула Байеса" в других словарях:

  • ФОРМУЛА ВЕРОЯТНОСТЕЙ ГИПОТЕЗ (ФОРМУЛА БАЙЕСА) — формула, имеющая вид: где a1, А2,..., Ап несовместимые события, Общая схема применения Ф. в. г.: если событие В может происходить в разл. условиях, относительно которых сделано п гипотез А1, А2, ..., Аn с известными до опыта вероятностями P(A1),… …   Геологическая энциклопедия

  • Формула полной вероятности — позволяет вычислить вероятность интересующего события через условные вероятности этого события в предположении неких гипотез, а также вероятностей этих гипотез. Формулировка Пусть дано вероятностное пространство , и полная группа попарно… …   Википедия

  • Формула Полной Вероятности — позволяет вычислить вероятность интересующего события через условные вероятности этого события в предположении неких гипотез, а также вероятностей этих гипотез. Формулировка Пусть дано вероятностное пространство , и полная группа событий , таких… …   Википедия

  • Теорема Байеса — (или формула Байеса)  одна из основных теорем теории вероятностей, которая позволяет определить вероятность того, что произошло какое либо событие (гипотеза) при наличии лишь косвенных тому подтверждений (данных), которые могут быть неточны …   Википедия

  • Формулы Байеса — Теорема Байеса одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. По формуле Байеса можно… …   Википедия

  • Байес — Байес, Томас Томас Байес Reverend Thomas Bayes Дата рождения: 1702 год(1702) Место рождения …   Википедия

  • Байес, Томас — Томас Байес Reverend Thomas Bayes Дата рождения: 1702 год(1702) Место рождения: Лондон …   Википедия

  • Байесовский вывод — Байесовский вывод  один из методов статистического вывода, в котором для уточнения вероятностных оценок на истинность гипотез при поступлении свидетельств используется формула Байеса. Использование байесовского обновления особенно важно в… …   Википедия

  • Байесовская фильтрация спама — Для улучшения этой статьи желательно?: Найти и оформить в виде сносок ссылки на авторитетные источники, подтверждающие написанное. Проставив сноски, внести более точные указания на источники. Пере …   Википедия

  • Дилемма заключённого — Будут ли заключенные друг друга предавать, следуя своим эгоистическим интересам, или будут молчать, тем самым минимизируя общий срок? Дилемма заключённого (англ. Prisoner s dilemma, реже употребляется название «дилемма …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»