(Bayesian) – bayesisk statistik eller bayesisk inferens – en matematisk metod för beräkning av sannolikheten för att bedömningar är riktiga, baserat på kunskap om tidigare händelser av samma slag. – Annorlunda uttryckt: en metod för att ”vända på” sannolikheter som man redan känner till. Till exempel: det är sannolikt att det snöar i januari – men: om det snöar, hur sannolikt är det då att det är januari? Konstruerat exempel: du vet redan att 50 procent av all spam innehåller ordet V––gra (hädanefter i denna text utbytt mot ”margarin”). Men om du får ett mejl som innehåller ordet margarin, hur sannolikt är det då att det mejlet är spam? Ordet margarin står ju inte bara i spam. Det är sådana problem man kan angripa med bayesisk inferens. Metoden ger användbara, om än grova, resultat även när underlaget är litet.
– Den matematiska formeln för Bayes sats ser ut så här:
P (A|B) = P (B|A) × P (A) / P (B)
vilket kan utläsas:
sannolikheten för A, givet B, är lika med sannolikheten för B, givet A, multiplicerad med sannolikheten för A, dividerad med sannolikheten för B.
- – P står för ”sannolikheten för” och lodstrecket | kan utläsas ”givet att”;
- – A står för en bedömning som man vill ha prövad, till exempel ”jag tror att detta mejl är spam”, medan:
- – B står för ett känt faktum som man baserar bedömningen på, till exempel ”detta mejl innehåller ordet margarin”.
– Bayesisk analys förutsätter att man har ett statistiskt underlag. I det här exemplet krävs det att man redan tidigare har klassat mejl i spam och icke‑spam. Man förutsätter att tidigare observationer gäller även nu. Man har då siffror på:
- – sannolikheten för att ett slumpmässigt valt mejl är spam, P (A), och:
- – sannolikheten för att ett slumpmässigt valt mejl innehåller ordet margarin, alltså P (B).
– Man måste också ha räknat ut sannolikheten för att ett slumpmässigt valt mejl som har klassats som spam innehåller ordet margarin, alltså P (B|A). Sannolikhetsbedömningen som du vill ha – hur sannolikt (P) är det att detta mejl är spam (A) med tanke på att det innehåller ordet margarin (B) – uttrycks alltså P (A|B).
– Exempel med godtyckliga siffror: 40 procent av all e‑post du får är spam, 60 procent är icke‑spam. 50 procent av all spam innehåller ordet margarin, men bara två procent av icke-spammet. Då blir det så här:
|
… innehåller ordet margarin |
… inte innehåller ordet margarin |
Sammanlagt (av alla mejl) |
Andel av all icke-spam som… |
2% |
98% |
60% (är icke-spam) |
Andel av all spam som… |
50% P(B|A) |
50% |
40% (är spam) |
Andel av alla mejl som… |
21,2% P(B) |
78,8% |
100% (icke-spam plus spam) |
Sannolikhet för att ett mejl… |
|
|
|
… är spam om det… |
… innehåller ordet margarin |
… inte innehåller ordet margarin |
|
|
94,3% P(A|B) |
25,4% |
(40%) |
… inte är spam om det… |
5,7% |
74,6% |
(60% |
Summa (av de två ovanstående sannolikheterna) |
100 |
100 |
100 |
– Sammanlagt innehåller alltså 21,2 procent av all mejl ordet margarin. Men det svarar inte på frågan hur sannolikt det är att ett mejl är spam om det innehåller ordet margarin. Vad du kan se är att av 21,2 procent som innehåller det ordet är 20 procentenheter spam, 1,2 procentenheter är icke‑spam. Oddset för att ett mejl som innehåller ordet margarin är spam är alltså 21,2:1,2, vilket motsvarar en sannolikhet på ungefär 94,3 procent. Omvänt: om ett mejl inte innehåller ordet margarin är det 74,6 procents sannolikhet för att det inte är spam. – Den bayesiska bedömningen är en statistisk bedömning baserad på tidigare resultat. Det fungerar bara om en mänsklig bedömare med gott omdöme redan har delat upp tidigare mejl i spam och icke‑spam, så att det finns ett underlag för bayesisk analys av tillkommande mejl. Ett riktigt spamfilter utgår dessutom inte från ett enstaka ord, utan sammanväger många ord. – Bayes metod ger grovt användbara resultat även med ett begränsat underlag, och förbättras när man använder den upprepade gånger med växande underlag. Metoden används i spamfilter, i taligenkänning och i datoriserad översättning. – Bayesisk logik är uppkallad efter den engelske prästen Thomas Bayes (1702—1761), som beskrev den i sin postumt publicerade artikel Essay towards solving a problem in the doctrine of chances från 1763 (länk) (arkiverad). Observera att det heter bayesisk, inte bayesiansk – det finns inget som heter bayesianism. – Se också Wikipedia (länk). – Läs också om evidensteori.
[sannolikhet] [ändrad 5 augusti 2021]