Lenking mellom folketelling og kart
Fra Harald Grovens wiki
Det ble en del skriving for å forklare metodikken, men det skal vel være tilstrekkelig til å finne ut om dette løses best ved søking via WMS, ved jobbing opp mot en lokal kopi, eller annen metode. Særlig problematikken med endring av stedsnavnstavemåte, matrikkelnr vil mye mer søketrafikk enn ved jobbing med moderne og "rene" kartdata.
Jeg sjekka med GIS-miljøet her, og Universitetet har kjøpt sitelisens for 1,6 mill. Bla. til hele 1:50000 kartgrunnlaget for Norge m.m.
Innhold |
[rediger] Metodikk
Målet er å opprette et koordinat for hver husstand i folketellingene fra 1800-tallet.
Jeg har ikke kjørt noen test på hvor mange prosent korrekte treff en vil få ved å kjøre en match mellom nummere fra 1886 matrikkelen og dagens registre. Så jeg er ikke kjent med hvor stor treffprosent jeg vil få med hjelp av matrikkelnummerene i seg selv. Jonny Andersen nevnte at de hadde gjort noen tester på dette med mildt sagt lite godt resultat:-) For å komme lengre enn ved bruk av kun nummer, ser jeg for meg følgende metode
- Først snevre inn søket på fylke/kommune/sogn for å begrense antall treff til riktig geografisk område. (Vi har lister over kommuneendringer/sammenslåinger der hvor det er relevant)
- Automatisk normalisere stavemåten av 1800-talls datapost for å muliggjøre søk mot moderne kartdata. Dette gjøres ved en algoritme som "moderniserer" stavemåten i 1800-tallspostene ut i fra et regelsett. (f.eks. Gade->gate, Gaard->gård) og lager en liste med sannsynlige stavemåter.
- Søke i moderne kartdata med søketrengene fra forrige steg. Generere et funnsett av mulige treff.
- I funnsettet gir algoritmen poeng dersom det er match mellom 1800-talls og 2000-talls data ut fra sammenligning mellom feltene for matrikkelnr, gatenavn, bruksnavn, nummer, stedsnavn, eve. navn på person etc. Jo flere kriterier det er treff mellom jo høyere score. Ved høy score antas det at det er sannsynlig at riktig geografisk entitet er blitt funnet.
- Det settes en tersekverdi for hvor mange poeng som skal regnes som tilstrekkelig for å lenke 1800-tallsdatabasepost til 2000-data. Eller en velger automatisk det treff som scorer høyest. Kartkoordinatet hentes fra valgt 2000-tallspost og legges i en tabell i spatialdatabase.
- Gjenta alle sted 1-5 for alle bosted i et folketellingsår i en kommune (eller et sogn)
- Kartdataene fra forrige sted visualiseres i et GIS (ArcMap, WMS, Mapserver eller annet)
- Et kartutsnitt fra GISet og en liste over databaseposter som ikke gav match i lenkingsalgoritmen sammenlignes med med et område der en har gode historiske kart fra 1800-tallet for å se om lenkene som ble generert er korrekte.
- Koblinger som ikke fanges opp, eller er ukorrekte noteres. Dette brukes til å modifisere algoritmen, slik at disse feilene eller mangelene fanges opp.
- Steg 1-9 kjøres om igjen for å se om det gir høyrere treff i steg 9.
- Når treffprosenten er høy nok 95%-99%(?) kjøres prosessen på data for hele Norge, ikke bare for en enkeltkrets. Steg 9 modifiseres ut i fra regionspesifike stedsnavnkarateristika.12. Noen utvalgte kretser kobles resterende poster som ikke lot seg lenke automatisk manuelt for analyse. Resten av landets "restposter" lenkes på et senere tidspunkt hvis/når det er ressurser til det .
- Folkeketellingene fra 1800-tallet publiseres offentlig i et vevgrensesnitt som et forskningsprosjekt.
[rediger] Anvendelsesområder av GIS-data ved RHD
NÃ¥r det gjelder forskningsprosjektene her som vil ha nytte av GIS-data, er det egentlig to prosjekter.
[rediger] Navneforskningsprosjektet
Til neste år skal en normalisere skrivemåten av etternavn som forekommer i folketellingene fra 1865/1875/1900. En stor del av disse (30 000?) er basert på stedsnavnet personen kommer fra. Da trenger en enkel mulighet til å gjøre oppslag i nåværende navneform. Ser for meg at dette er enklest ved dyplenking inn i Norgesglasset, som beskrevet i tidligere mail. Her hadde det vært greit om jeg kunne ha laga ei lenke rett fra våre Access-baser og inn på relevant side i Norgesglasset uten å måtte punche inn stedsnavn manuelt hver gang (m. problemer med flere alt. skrivemåter).
[rediger] Lenkingsprosjektet mellom folketelling <-> matrikkel <-> kart.
Dette skal jeg utvikle for RHD og sluttproduktet bli en GIS-visualisere Norges befolkning 1865-1900 Folketellingene og matrikkelene er regisrert på navn og nummer ut fra prinsippet om kildetrohet, dvs at en skal skrive av slik det ble registrert på 1800-tallet. Dermed har en en liste 3 mill personer oppført tilknyttet til ca 140 000 stedsnavn som ikke er nærmere lenket til en entydig geografisk sted enn til sogn/kommunenr.
Min oppgave blir da å lage en algoritme som kobler person til koordianat ved hjelp av en kombinasjon av sognnr., matrikkelnr, nåværende stedsnavn m.m fra dagens datagrunnlag fra kartverket. Dermed blir blir de historiske databasene visualiserbare i et hvilket som helst GIS (WMS/Mapserver/Google maps/Norgesglasset etc.) . 100% korrekt og entydig er det umulig å få denslags kilder. Men det vil være til stor hjelp for historie, navneforksning og statisitikk.
Dette trenger vi fra Kartverket- Tilgang til (eve. DB-dump av) SSR/GAB slik at vi kan koble sammen stedsnavn/matrikkelnr. Om et av feltene her vil kunne være nåværende ID-nr i SSR/GAB, vil en forenkle fremtidige lenkinger. Dette vil Kartverket få til gjengjeld:- Mye lettere søkbart datasystem og dokumentasjon over eldre skrivemåte for stedsnavn.- Ikke opphavsrettbeskytta tema-lag med over Norge på 1800-tallet
[rediger] Noter
- Det er ikke viktig at de geografiske dataene er ferske og oppdaterte. Skal jo tross alt koble til historiske data.
- Samme nøyaktighetsnivå som med moderne date er ikke mulig eller viktig. Dette skal først og fremst brukes til historieforksning, ikke eiendomstvister, båtnavigasjon e.lign som krever 100% korrekthet.
- moderne personvernhensyn er ikke relevant, ettersom det er en 100 årsfrist på at dataene er fritt tilgjengelige

