Redigerer
Dataavstemming
Hopp til navigering
Hopp til søk
Advarsel:
Du er ikke innlogget. IP-adressen din vil bli vist offentlig om du redigerer. Hvis du
logger inn
eller
oppretter en konto
vil redigeringene dine tilskrives brukernavnet ditt, og du vil få flere andre fordeler.
Antispamsjekk.
Ikke
fyll inn dette feltet!
{{forveksles|dataavstamming}} [[File:Data Wrangling From Messy To Clean Data Management.jpg|thumb|right|Prosessen med å gjøre data brukbare: Oppdagelse, strukturering, [[datavask|vask]], [[databerikelse|berikelse]], [[datavalidering|validering]], publisering.]] '''Dataavstemming''', også kalt '''datasammenstilling''', '''dataarrangering''' eller '''datajustering''' (på engelsk også ''reconciliation'' eller ''data wrangling''<ref>{{Kilde www|tittel = Cleaning Data with Refine — Data Wrangling Handbook 0.1 documentation|url = https://datapatterns.readthedocs.org/en/latest/recipes/cleaning-data-with-refine.html|verk = datapatterns.readthedocs.org|besøksdato = 2016-01-12|arkiv-dato = 2016-03-04|arkiv-url = https://web.archive.org/web/20160304205936/https://datapatterns.readthedocs.org/en/latest/recipes/cleaning-data-with-refine.html|url-status=død}}</ref>)<!-- det er ikke noe klart norsk begrep --> i databehandling går ut på å bringe to datasett, eller uttrekk fra datasett, i samsvar med hverandre. Uttrekkene kan være (og er ofte) kolonnevise, og har som formål å danne tilstrekkelig grunnlag for en autoritativ kobling mellom oppføringer uten entydig identifikator. Med andre ord går dataavstemming ut på å ta inn data, transformere data, validering og datavask for å tilfredsstille forretningsbehov og krav. Et datasett ''A'' kan for eksempel bestå av personbeskrivelser som inneholder personnavn (fullt navn), fødselsår, og lønnsinntekt. Et datasett ''B'' kan tilsvarende inneholde personnavn (fullt navn), fødselsår, og forsikringsdata. Hvis ''A'' kobles med ''B'' via personnavn så får en kanskje mange treff på «Ole Olsen» i begge datasettene, og det er ikke mulig å koble dem entydig. Hvis en derimot bruker både personnavn og fødselsår så kan dette være tilstrekkelig til at en kan gjøre en entydig kobling. Det er prosessen med å utføre denne koblingen på usikre data som omtales som ''dataavstemming'' (''reconciliation''). Det som kommer ut av prosessen er ofte et beriket eller normalisert datasett. Dataene som brukes for å koble datasettene blir av og til omtalt som [[autoritetsdata]] (data om en autoriet), og i grensetilfellet med en unik id som en autoritativ identifikator. Verktøy bruker ofte en forenklet analysemodell av hva som er riktige og feil koblinger, hvor sannsynlighet for rett kobling kun er andel samtidige treff. Ved å gjøre analyser på forekomster av de forskjellige feltverdiene (kolonnevariablene) så kan en få sannsynligheten for at en gitt kobling er riktig. Omvendt, hvis sannsynligheten er for lav kan en forkaste koblingen. Ved å bruke flere feltverdier og deres sannsynligheter kan det beregnes en [[A priori og a posteriori|a posteriori]] sannsynlighet ved hjelp av [[Bayes' teorem]] for forekomsten, og en får et mer korrekt bilde av hva som er riktig kobling. Verktøy for å gjøre ''dataavstemming'' (''reconciliation'') blir omtalt som ''data analysis reconciliation tool'' (DART).{{trenger referanse}} Et slikt verktøy som brukes for reconciliation er [[OpenRefine]],<ref>{{Kilde bok|tittel = Using OpenRefine|utgiver= PACKT Books|besøksdato = 2016-01-11|isbn=978-1-78328-908-0|sider=65-80}}</ref> et annet er Trifacta,<ref>{{Kilde www|tittel = Wrangler {{!}} Trifacta|url = https://www.trifacta.com/products/wrangler/|verk = Trifacta|besøksdato = 2016-01-12|språk = en-US|arkiv-dato = 2016-02-25|arkiv-url = https://web.archive.org/web/20160225010935/https://www.trifacta.com/products/wrangler/|url-status=død}}</ref> et tredje er Nomenklatura.<ref>{{Kilde www|tittel = Open Knowledge Labs|url = http://okfnlabs.org/blog/2013/05/16/nomenklatura-matching-service-reconciliation-made-easy.html|verk = okfnlabs.org|besøksdato = 2016-01-12}}</ref> Spesialiserte verktøy kan ha egne navn, for eksempel kalles verktøy som kobler navn på steder med geografiske steder for en [[gazetteer]] (geografisk ordbok). == Se også == * [[Virksomhetsetterretning]] == Referanser == <references /> {{Data}} [[Kategori:Metadata]]
Redigeringsforklaring:
Merk at alle bidrag til Wikisida.no anses som frigitt under Creative Commons Navngivelse-DelPåSammeVilkår (se
Wikisida.no:Opphavsrett
for detaljer). Om du ikke vil at ditt materiale skal kunne redigeres og distribueres fritt må du ikke lagre det her.
Du lover oss også at du har skrevet teksten selv, eller kopiert den fra en kilde i offentlig eie eller en annen fri ressurs.
Ikke lagre opphavsrettsbeskyttet materiale uten tillatelse!
Avbryt
Redigeringshjelp
(åpnes i et nytt vindu)
Maler som brukes på denne siden:
Mal:Data
(
rediger
)
Mal:Fix
(
rediger
)
Mal:Fix/category
(
rediger
)
Mal:Forveksles
(
rediger
)
Mal:Hattnotis
(
rediger
)
Mal:Hlist/styles.css
(
rediger
)
Mal:ISOtilNorskdato
(
rediger
)
Mal:Ifsubst
(
rediger
)
Mal:Kilde bok
(
rediger
)
Mal:Kilde www
(
rediger
)
Mal:Main other
(
rediger
)
Mal:Navbox
(
rediger
)
Mal:Trenger referanse
(
rediger
)
Modul:Arguments
(
rediger
)
Modul:Check for unknown parameters
(
rediger
)
Modul:Citation/CS1
(
rediger
)
Modul:Citation/CS1/COinS
(
rediger
)
Modul:Citation/CS1/Configuration
(
rediger
)
Modul:Citation/CS1/Date validation
(
rediger
)
Modul:Citation/CS1/Identifiers
(
rediger
)
Modul:Citation/CS1/Utilities
(
rediger
)
Modul:Citation/CS1/Whitelist
(
rediger
)
Modul:ISOtilNorskdato
(
rediger
)
Modul:Navbar
(
rediger
)
Modul:Navbar/configuration
(
rediger
)
Modul:Navbar/styles.css
(
rediger
)
Modul:Navbox
(
rediger
)
Modul:Navbox/configuration
(
rediger
)
Modul:Navbox/styles.css
(
rediger
)
Modul:TableTools
(
rediger
)
Modul:Unsubst
(
rediger
)
Denne siden er medlem av 3 skjulte kategorier:
Kategori:Artikkelnavn som lett kan forveksles med andre artikkelnavn
Kategori:Artikler som trenger referanser
Kategori:Sider med kildemaler som bruker besøksdato og mangler URL
Navigasjonsmeny
Personlige verktøy
Ikke logget inn
Brukerdiskusjon
Bidrag
Opprett konto
Logg inn
Navnerom
Side
Diskusjon
norsk bokmål
Visninger
Les
Rediger
Rediger kilde
Vis historikk
Mer
Navigasjon
Forside
Siste endringer
Tilfeldig side
Hjelp til MediaWiki
Verktøy
Lenker hit
Relaterte endringer
Spesialsider
Sideinformasjon