bayesisk

(Bayesian) – bayesisk statistik eller bayesisk in­ferens – mate­ma­tisk metod att räkna ut sanno­­lik­heten för att be­­döm­ningar är riktiga, baserat på kun­skap om tidigare händelser av samma slag. Annor­­lunda ut­tryckt: en metod för att ”vända på” sanno­­lik­­heter som man redan känner till. Till exempel: det snöar ofta i januari, men om det snöar, är det då januari? – Kon­stru­erat exempel: du vet redan att 50 procent av all spam inne­­håller ordet V––gra (hädan­­efter i denna text utbytt mot margarin). Men om du får ett mejl som inne­­håller ordet margarin, hur sanno­­likt är det då att det mejlet är spam? Ordet margarin står ju inte bara i spam. Det är sådana pro­blem man kan an­gripa med bayesisk statistik. Metoden ger an­­vänd­­bara, om än grova, resultat även när under­­laget är litet.– Den mate­ma­tiska formeln för Bayes sats ser ut så här:P (A|B) = P (B|A) * P (A) / P (B)vilket kan ut­läsas: sanno­­lik­­heten för A, givet B, är lika med sanno­­lik­­heten för B, givet A, multi­­pli­ce­rad med sanno­­lik­­heten för A, divi­de­rad med sanno­­lik­­heten för B. (Bok­staven P står för ”sanno­­lik­­heten för”, och lod­­strecket | be­­tyder ”givet att”.)– A står för en be­­döm­ning som man vill ha ut­­vär­derad, till exempel ”jag tror att detta mejl är spam”, medan B står för ett känt faktum som man baserar be­­döm­ningen på, till exempel ”detta mejl inne­­håller ordet margarin”.– Bayesisk analys förut­sätter att man har ett sta­tis­tiskt under­­lag. I det här exemplet krävs det att man redan tidigare har klassat mejl i spam och icke-spam. Man förut­sätter att tidigare ob­serva­tioner även gäller nu. Man har då siffror på sanno­­lik­­heten för att ett slump­­mässigt valt mejl är spam, P (A), och sanno­­lik­­heten för att ett slump­­mässigt valt mejl inne­­håller ordet margarin, alltså P (B). Man måste också ha räknat ut sanno­­lik­­heten för att ett slump­­mässigt valt mejl som har klassats som spam inne­­håller ordet margarin, alltså P (B|A). Sanno­­lik­­hets­­bedöm­ningen som du vill ha – hur sanno­­likt är det att detta mejl är spam med tanke på att det inne­håller ordet margarin – ut­trycks alltså med P (A|B).– Exempel med god­­tyck­liga siffror: 40 procent av all e-post du får är spam, 60 procent är icke-spam. 50 procent av all spam inne­håller ordet margarin, men bara två pro­cent av icke-spam­met. Då blir det så här:

… innehåller ordet margarin inte innehåller ordet margarin Av alla mejl
Andel av all icke-spam som… 2% 98% 60%
Andel av all spam som… 50% P (B|A) 50% 40% P (A)
Andel av alla mejl som…

21,2% P (B) 78,8% 100%
Sannolikhet för att ett mejl…
är spam om det… 94,3% P (A|B) 25,4% 40%
inte är spam om det… 5,7% 74,6% 60%
Summa av sannolikheterna 100% 100% 100%

– Sammanlagt innehåller alltså 21,2 procent av all mejl ordet margarin. Men det svarar inte på frågan hur sanno­­likt det är att ett mejl är spam om det inne­­håller ordet margarin. Vad du kan se är att av 21,2 procent som inne­­håller det ordet är 20 procent­enheter spam, 1,2 procent­enheter icke-spam. Oddset för att ett mejl som inne­­håller ordet margarin är spam är alltså 21,2:1,2, vilket ger en sanno­­lik­­het på unge­fär 94,3 procent. Om­vänt: om ett mejl inte inne­­håller ordet margarin är det 74,6 procents sanno­­lik­­het för att det inte är spam.– Den bayesiska be­­döm­ningen är en sta­tis­tisk be­­döm­ning baserad på tidigare resultat. Det fungerar bara om en mänsklig be­­dömare med gott om­döme redan har delat upp tidigare mejl i spam och icke-spam, så att det finns ett under­­lag för bayesisk analys av nya mejl. Ett riktigt spam­filter utgår dess­­utom inte från ett en­staka ord, utan samman­­väger många ord.– Se också Wiki­pedia* (länk). – Bayes metod ger an­vänd­­bara resultat även med ett be­­gränsat under­­lag och för­­bätt­ras när man an­vänder den upp­­repade gånger med växande under­­lag. Metoden används i spam­­filter, i tal­­igen­­känning och i datori­serad över­­sätt­ning. – Bayesisk logik är upp­­kallad efter den engelske prästen Thomas Bayes (1702—1761), som be­skrev den i sin postumt publi­ce­rade artikel Essay towards solving a problem in the doctrine of chances (länk) från 1763. – Läs också om evidens­­teori.