FormationUngdomsuddannelse og skoler

Nærmeste nabo metode: eksempel på arbejde

den nærmeste nabo metode er den nemmeste metriske klassificeringen, der er baseret på en evaluering af ligheden mellem forskellige objekter.

Analyseret objekt tilhører klassen, som de tilhører emner af uddannelse prøve. Lad os finde ud af, hvilken er den nærmeste nabo. Prøv at forstå den komplicerede sag, eksempler på forskellige teknikker.

hypotese metode

nærmeste nabo metode kan betragtes som den mest almindelige algoritme, der anvendes til klassificering. Objekt undergår klassifikation tilhører klassen y_i, hvortil det nærmeste objekt learning x_i prøve.

Specificitet af metoder nærmeste naboer

k nærmeste nabo metode kan forbedre nøjagtigheden af klassifikationen. Analyseret objekt tilhører den samme klasse som hovedparten af sine naboer, dvs. k tæt på den objekter af den analyserede prøve x_i. Ved at løse problemer med to klasser af antallet af naboer vil være mærkeligt at undgå en situation med tvetydighed, hvis det samme antal naboer vil tilhøre forskellige klasser.

Teknikken med suspenderede naboer

Postgresql-analyseret metode tsvector nærmeste naboer bruges, når antallet af klasser på mindst tre, og du kan ikke bruge et ulige antal. Men tvetydighed opstår også i disse tilfælde. Derefter den i'te nabo får w_i vægt, som aftager med naboen rang i. Det refererer til klassen af objektet, hvilket vil have en maksimal totalvægt blandt nære naboer.

Hypotesen om kompakthed

I hjertet af alle de ovennævnte metoder er hypotesen om kompakthed. Den foreslår en forbindelse mellem foranstaltningen af ligheden af objekter og deres tilhørsforhold til den samme klasse. I denne situation, grænsen mellem de forskellige typer er en simpel form, og skabe klasser af objekter i rummet kompakt mobilområdet. Under sådanne områder i matematisk analyse forstås en lukket afgrænset sæt. Denne hypotese er ikke relateret til den daglige opfattelse af ordet.

Den grundlæggende formel

Lad os undersøge mere nærmeste nabo. Hvis den foreslåede uddannelse prøvetype "objekt-respons» X ^ m = \ {(x_1, y_1), \ dots, (x_m, y_m) \}; hvis et antal genstande til at definere afstanden funktionen \ rho (x, x '), der er repræsenteret i form af en passende model ligheden af objekter ved at forøge værdien af funktionen aftager ligheden mellem objekter x, x'.

For enhver genstand, u vil bygge en uddannelse prøve objekter x_i med stigende afstande til u:

\ Rho (u, x_ {1 u}) \ leq \ rho (u, x_ {2 u}) \ leq \ cdots \ leq \ rho (u, x_ {m u}),

hvor x_ {i; u} karakteriserer læring prøve objekt, som er i'te nabo kildeobjekt u. Sådan notation og anvendelse til at besvare i'te nabo: y_ {i; u}. Som et resultat, finder vi, at ethvert objekt u provokerer omnummerering egen prøve.

Fastsættelse af tallet k af naboer

nærmeste nabo metode, når k = 1 er i stand til at give en fejlagtig klassificering, ikke kun på objekter-emissioner, men også for andre klasser, der er tæt på.

Hvis vi tager k = m vil algoritmen være så stabil og vil degenerere til en konstant værdi. Derfor er pålidelighed er vigtigt at undgå ekstreme indeks k.

I praksis, da det optimale indeks k anvendte kriterium glidende kontrol.

screeninger emissioner

Objekterne studier er stort set ulige, men blandt dem er der dem, der har karakter af en klasse og betegnes som standarder. Ved nærhed af emnet til den ideelle model af sin høj sandsynlighed for at tilhøre denne klasse.

Hvor rezultativen metode nærmeste naboer? Et eksempel kan ses på grundlag af perifere og ikke-informative kategorier af genstande. Det antages tætte miljø af objektet andre repræsentanter for denne klasse. Når du fjerner dem fra klassificeringen af prøveudtagning kvaliteten vil ikke lide.

Kom i et vist antal prøver kan lydeksplosioner, der er "på jorden" af en klasse. Fjernelse væsentligt positiv indvirkning på kvaliteten af klassificeringen.

Hvis der udtages fra uinformative og fjerne støj objekter, kan du regne med et par positive resultater på samme tid.

Den første interpolation metode nærmeste nabo klassifikation gør det muligt at forbedre kvaliteten, reducere mængden af lagrede data, reducere den tid af klassificering, der er brugt på valget af de næste standarder.

Anvendelsen af ultra-store prøver

nærmeste nabo metode er baseret på den virkelige opbevaring af læringsobjekter. At skabe meget store prøver ved hjælp af et teknisk problem. Målet er ikke blot for at spare en betydelig mængde information, men også i den mindste mængde af tid til at have tid til at finde ethvert objekt u k blandt de nærmeste naboer.

For at klare denne opgave, er to metoder bruges:

  • indsnævrede prøve via en udledning ikke-dataobjekter;
  • effektiv udnyttelse speciel datastruktur og koder for øjeblikkelig søgning af de nærmeste naboer.

Regler for udvælgelsesmetoder

Ovennævnte klassifikation blev overvejet. Nærmeste nabo metode anvendes til at løse praktiske problemer, som er kendt på forhånd afstanden funktionen \ rho (x, x '). Ved beskrivelse objekter numeriske vektorer anvender en euklidisk metric. Dette valg har ingen særlig begrundelse, men involverer målingen af alle tegn "i samme skala." Hvis denne faktor ikke er taget i betragtning, så er det metriske vil dominere funktionen med højeste numeriske værdier.

Hvis der er en betydelig mængde af funktioner, beregning af afstanden som summen af afvigelserne om specifikke symptomer forekommer alvorligt problem dimension.

I høj dimensionelle rum fjernt fra hinanden, vil alle objekter. I sidste ende vil en hvilken som helst prøve være ved siden af det objekt, der undersøges k naboer. udvalgt et mindre antal informative funktioner til at eliminere dette problem. Algoritmer til beregning estimater bygger på grundlag af forskellige sæt af tegn, og for hver enkelt opbygge deres nærhed funktion.

konklusion

Matematiske beregninger indebærer ofte anvendelse af en række teknikker, der har deres egne særlige egenskaber, fordele og ulemper. Set nærmeste nabo metode kan løse ganske et alvorligt problem, på grund af de særlige kendetegn ved matematiske objekter. Den eksperimentelle koncept, baseret på den analyserede metode bruges aktivt i kunstig intelligens.

I de ekspertsystemer, er det nødvendigt ikke blot at klassificere objekter, men også vise brugeren en forklaring på klassificeringen pågældende. Ved denne fremgangsmåde er en forklaring på dette fænomen udtrykt i forhold til formålet med en særlig klasse samt dets placering i forhold til den anvendte prøve. Juridiske branchespecialister, geologer, læger, tage denne "præcedens" logik aktivt bruge det i deres forskning.

For at blive analyseret fremgangsmåde var den mest pålidelig, effektiv, giver de ønskede resultater, skal du tage mindst figur k, samtidig undgå emissioner blandt de analyserede genstande. Derfor er brugen af standarder og udvælgelsesmetode, samt optimering målinger.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 atomiyme.com. Theme powered by WordPress.