bayesisk

(Bayesian) – bayesisk statistik eller bayesisk in­ferens – mate­ma­tisk metod att räkna ut sannolikheten för att bedömningar är riktiga, baserat på kunskap om tidigare händelser av samma slag. – Annorlunda ut­tryckt: en metod för att ”vända på” sanno­­lik­­heter som man redan känner till. Till exempel: det snöar ofta i januari – men om det snöar, är det då januari? Kon­stru­erat exempel: du vet redan att 50 procent av all spam innehåller ordet V––gra (hädan­­efter i denna text utbytt mot ”margarin”). Men om du får ett mejl som innehåller ordet margarin, hur sannolikt är det då att det mejlet är spam? Ordet margarin står ju inte bara i spam. Det är sådana pro­blem man kan angripa med bayesisk statistik. Metoden ger an­­vänd­­bara, om än grova, resultat även när under­­laget är litet.

– Den mate­ma­tiska formeln för Bayes sats ser ut så här:

P (A|B) = P (B|A) × P (A) / P (B)

vilket kan ut­läsas:

sannolikheten för A, givet B, är lika med sannolikheten för B, givet A, multiplicerad med sannolikheten för A, divi­de­rad med sannolikheten för B.

(Bok­staven P står för ”sannolikheten för”, och lodstrecket | be­­tyder ”givet att”.) – A står för en bedömning som man vill ha prövad, till exempel ”jag tror att detta mejl är spam”, medan B står för ett känt faktum som man baserar bedöm­ningen på, till exempel ”detta mejl innehåller ordet margarin”. – Bayesisk analys förutsätter att man har ett sta­tis­tiskt underlag. I det här exemplet krävs det att man redan tidigare har klassat mejl i spam och icke‑spam. Man förut­sätter att tidigare ob­serva­tioner även gäller nu. Man har då siffror på sannolikheten för att ett slump­­mässigt valt mejl är spam, P (A), och sannolikheten för att ett slumpmässigt valt mejl innehåller ordet margarin, alltså P (B). Man måste också ha räknat ut sannolikheten för att ett slumpmässigt valt mejl som har klassats som spam inne­­håller ordet margarin, alltså P (B|A). Sannolikhetsbedöm­ningen som du vill ha – hur sannolikt (P) är det att detta mejl är spam (A) med tanke på att det innehåller ordet margarin (B) – uttrycks alltså P (A|B).
– Exempel med godtyck­liga siffror: 40 procent av all e‑post du får är spam, 60 procent är icke‑spam. 50 procent av all spam inne­håller ordet margarin, men bara två pro­cent av icke-spam­met. Då blir det så här:

  … innehåller ordet margarin inte innehåller ordet margarin Sammanlagt av alla mejl
Andel av all icke-spam som… 2% 98% 60% (är icke-spam)
Andel av all spam som… 50% P(B|A) 50% 40% P(A) (är spam)
Andel av alla mejl som… 21,2% P(B) 78,8% 100% (all mejl)
Sannolikhet för att ett mejl…      
är spam om det… … innehåller ordet margarin inte innehåller ordet margarin  
  94,3% P(A|B) 25,4% (40%)
inte är spam om det… 5,7% 74,6% (60%
Summa av de två ovanstående sannolikheterna 100 100 100

– Sammanlagt innehåller alltså 21,2 procent av all mejl ordet margarin. Men det svarar inte på frågan hur sannolikt det är att ett mejl är spam om det inne­­håller ordet margarin. Vad du kan se är att av 21,2 procent som innehåller det ordet är 20 procent­enheter spam, 1,2 procent­enheter är icke‑spam. Oddset för att ett mejl som inne­­håller ordet margarin är spam är alltså 21,2:1,2, vilket motsvarar en sannolikhet på unge­fär 94,3 procent. Om­vänt: om ett mejl inte inne­­håller ordet margarin är det 74,6 procents sannolik­­het för att det inte är spam. – Den bayesiska bedömningen är en statistisk bedömning baserad på tidigare resultat. Det fungerar bara om en mänsklig bedömare med gott om­döme redan har delat upp tidigare mejl i spam och icke‑spam, så att det finns ett under­­lag för bayesisk analys av nya mejl. Ett riktigt spam­filter utgår dess­­utom inte från ett en­staka ord, utan sammanväger många ord. – Bayes metod ger använd­­bara resultat även med ett be­­gränsat underlag, och för­­bätt­ras när man an­vänder den upp­­repade gånger med växande under­­lag. Metoden används i spamfilter, i taligenkänning och i datori­serad över­­sätt­ning. – Bayesisk logik är uppkallad efter den engelske prästen Thomas Bayes (1702—1761), som beskrev den i sin postumt publicerade artikel Essay towards solving a problem in the doctrine of chances från 1763 (länk) (arkiverad). – Se också Wikipedia (länk). – Läs också om evidens­­teori.

[sannolikhet] [ändrad 24 april 2019]