bayesisk

(Bayesian)bayesisk statistik eller bayesisk in­ferens – en mate­ma­tisk metod för beräkning av sannolikheten för att bedömningar är riktiga, baserat på kunskap om tidigare händelser av samma slag. – Annorlunda ut­tryckt: en metod för att ”vända på” sannolikheter som man redan känner till. Till exempel: det är sannolikt att det snöar i januari – men: om det snöar, hur sannolikt är det då att det är januari? Konstruerat exempel: du vet redan att 50 procent av all spam innehåller ordet V––gra (hädanefter i denna text utbytt mot ”margarin”). Men om du får ett mejl som innehåller ordet margarin, hur sannolikt är det då att det mejlet är spam? Ordet margarin står ju inte bara i spam. Det är sådana pro­blem man kan angripa med bayesisk inferens. Metoden ger använd­­bara, om än grova, resultat även när underlaget är litet.

– Den mate­ma­tiska formeln för Bayes sats ser ut så här:

P (A|B) = P (B|A) × P (A) / P (B)

vilket kan ut­läsas:

sannolikheten för A, givet B, är lika med sannolikheten för B, givet A, multiplicerad med sannolikheten för A, divi­de­rad med sannolikheten för B.

  • – P står för ”sannolikheten för” och lodstrecket | kan utläsas ”givet att”;
  • – A står för en bedömning som man vill ha prövad, till exempel ”jag tror att detta mejl är spam”, medan:
  • – B står för ett känt faktum som man baserar bedöm­ningen på, till exempel ”detta mejl innehåller ordet margarin”.

– Bayesisk analys förutsätter att man har ett sta­tis­tiskt underlag. I det här exemplet krävs det att man redan tidigare har klassat mejl i spam och icke‑spam. Man förut­sätter att tidigare ob­serva­tioner gäller även nu. Man har då siffror på:

  • – sannolikheten för att ett slump­­mässigt valt mejl är spam, P (A), och:
  • – sannolikheten för att ett slumpmässigt valt mejl innehåller ordet margarin, alltså P (B).

– Man måste också ha räknat ut sannolikheten för att ett slumpmässigt valt mejl som har klassats som spam inne­­håller ordet margarin, alltså P (B|A). Sannolikhetsbedöm­ningen som du vill ha – hur sannolikt (P) är det att detta mejl är spam (A) med tanke på att det innehåller ordet margarin (B) – uttrycks alltså P (A|B).
– Exempel med godtyck­liga siffror: 40 procent av all e‑post du får är spam, 60 procent är icke‑spam. 50 procent av all spam inne­håller ordet margarin, men bara två pro­cent av icke-spam­met. Då blir det så här:

  … innehåller ordet margarin inte innehåller ordet margarin Sammanlagt (av alla mejl)
Andel av all icke-spam som… 2% 98% 60% (är icke-spam)
Andel av all spam som… 50% P(B|A) 50% 40% (är spam)
Andel av alla mejl som… 21,2% P(B) 78,8% 100% (icke-spam plus spam)
Sannolikhet för att ett mejl…      
är spam om det… … innehåller ordet margarin inte innehåller ordet margarin  
  94,3% P(A|B) 25,4% (40%)
inte är spam om det… 5,7% 74,6% (60%
Summa (av de två ovanstående sannolikheterna) 100 100 100

– Sammanlagt innehåller alltså 21,2 procent av all mejl ordet margarin. Men det svarar inte på frågan hur sannolikt det är att ett mejl är spam om det inne­­håller ordet margarin. Vad du kan se är att av 21,2 procent som innehåller det ordet är 20 procent­enheter spam, 1,2 procentenheter är icke‑spam. Oddset för att ett mejl som inne­­håller ordet margarin är spam är alltså 21,2:1,2, vilket motsvarar en sannolikhet på unge­fär 94,3 procent. Om­vänt: om ett mejl inte innehåller ordet margarin är det 74,6 procents sannolik­­het för att det inte är spam. – Den bayesiska bedömningen är en statistisk bedömning baserad på tidigare resultat. Det fungerar bara om en mänsklig bedömare med gott om­döme redan har delat upp tidigare mejl i spam och icke‑spam, så att det finns ett under­­lag för bayesisk analys av tillkommande mejl. Ett riktigt spamfilter utgår dess­­utom inte från ett enstaka ord, utan sammanväger många ord. – Bayes metod ger grovt användbara resultat även med ett be­­gränsat underlag, och för­­bätt­ras när man an­vänder den upprepade gånger med växande under­­lag. Metoden används i spamfilter, i taligenkänning och i datoriserad översättning. – Bayesisk logik är uppkallad efter den engelske prästen Thomas Bayes (1702—1761), som beskrev den i sin postumt publicerade artikel Essay towards solving a problem in the doctrine of chances från 1763 (länk) (arkiverad).  Observera att det heter bayesisk, inte bayesiansk – det finns inget som heter bayesianism. – Se också Wikipedia (länk). – Läs också om evidens­­teori.

[sannolikhet] [ändrad 5 augusti 2021]

Dagens ord: 2020-01-02