bayesisk

(Bayesian) –– bayesisk statistik eller bayesisk in­ferens –– mate­ma­tisk metod att räkna ut sanno­­lik­heten för att be­­döm­ningar är riktiga, baserat på kunskap om tidigare händelser av samma slag. – Annor­­lunda ut­tryckt: en metod för att ”vända på” sanno­­lik­­heter som man redan känner till. Till exempel: det snöar ofta i januari – men om det snöar, är det då januari? – Kon­stru­erat exempel: du vet redan att 50 procent av all spam innehåller ordet V––‑‑gra (hädan­­efter i denna text utbytt mot margarin). Men om du får ett mejl som innehåller ordet margarin, hur sanno­­likt är det då att det mejlet är spam? Ordet margarin står ju inte bara i spam. Det är sådana pro­blem man kan angripa med bayesisk statistik. Metoden ger an­­vänd­­bara, om än grova, resultat även när under­­laget är litet.–

– Den mate­ma­tiska formeln för Bayes sats ser ut så här:

P (A|B) = P (B|A) × P (A) / P (B)

vilket kan ut­läsas: sanno­­lik­­heten för A, givet B, är lika med sanno­­lik­­heten för B, givet A, multi­­pli­ce­rad med sannolikheten för A, divi­de­rad med sanno­­lik­­heten för B. (Bok­staven P står för ”sannolik­­heten för”, och lodstrecket | be­­tyder ”givet att”.)– – A står för en bedömning som man vill ha prövad, till exempel ”jag tror att detta mejl är spam”, medan B står för ett känt faktum som man baserar bedöm­ningen på, till exempel ”detta mejl innehåller ordet margarin”.– Bayesisk analys förut­sätter att man har ett sta­tis­tiskt underlag. I det här exemplet krävs det att man redan tidigare har klassat mejl i spam och icke‑spam. Man förut­sätter att tidigare ob­serva­tioner även gäller nu. Man har då siffror på sanno­­lik­­heten för att ett slump­­mässigt valt mejl är spam, P (A), och sanno­­lik­­heten för att ett slump­­mässigt valt mejl innehåller ordet margarin, alltså P (B). Man måste också ha räknat ut sanno­­lik­­heten för att ett slumpmässigt valt mejl som har klassats som spam inne­­håller ordet margarin, alltså P (B|A). Sannolikhetsbedöm­ningen som du vill ha – hur sanno­­likt (P) är det att detta mejl är spam (A) med tanke på att det innehåller ordet margarin (B) –– ut­trycks alltså P (A|B).
–– Exempel med god­­tyck­liga siffror: 40 procent av all e‑post du får är spam, 60 procent är icke‑spam. 50 procent av all spam inne­håller ordet margarin, men bara två pro­cent av icke-spam­met. Då blir det så här:

  … innehåller ordet margarin inte innehåller ordet margarin Sammanlagt av alla mejl
Andel av all icke-spam som… 2% 98% 60%
Andel av all spam som… 50% P(B|A) 50% 40% P(A)
Andel av alla mejl som… 21,2% P(B) 78,8% 100%
Sannolikhet för att ett mejl…      
är spam om det… 94,3% P(A|B) 25,4% 40%
inte är spam om det… 5,7% 74,6% 60%
Summa av sannolikheterna 100 100 100

– Sammanlagt innehåller alltså 21,2 procent av all mejl ordet margarin. Men det svarar inte på frågan hur sanno­­likt det är att ett mejl är spam om det inne­­håller ordet margarin. Vad du kan se är att av 21,2 procent som innehåller det ordet är 20 procent­enheter spam, 1,2 procent­enheter är icke‑spam. Oddset för att ett mejl som inne­­håller ordet margarin är spam är alltså 21,2:1,2, vilket motsvarar en sanno­­lik­­het på unge­fär 94,3 procent. Om­vänt: om ett mejl inte inne­­håller ordet margarin är det 74,6 procents sanno­­lik­­het för att det inte är spam.– – Den bayesiska be­­döm­ningen är en sta­tis­tisk bedömning baserad på tidigare resultat. Det fungerar bara om en mänsklig be­­dömare med gott om­döme redan har delat upp tidigare mejl i spam och icke‑spam, så att det finns ett under­­lag för bayesisk analys av nya mejl. Ett riktigt spam­filter utgår dess­­utom inte från ett en­staka ord, utan sammanväger många ord.– – Bayes metod ger använd­­bara resultat även med ett be­­gränsat underlag, och för­­bätt­ras när man an­vänder den upp­­repade gånger med växande under­­lag. Metoden används i spamfilter, i taligenkänning och i datori­serad över­­sätt­ning. – Bayesisk logik är uppkallad efter den engelske prästen Thomas Bayes (1702——1761), som beskrev den i sin postumt publicerade artikel Essay towards solving a problem in the doctrine of chances (länk) från 1763. – Se också Wikipedia (länk). – Läs också om evidens­­teori.

[sannolikhet] [ändrad 21 februari 2018]