Høst af poster via OAI

DBC OAI Repo

DBC OAI Repo er et repositorie hvorfra det er muligt at høste rå poster fra databrønden ud fra OAI-PMH standarden 

Nærmere tekniske detaljer om hvordan servicen bruges er beskrevet på https://opensource.dbc.dk/services/dbc-oai-repo

Høstning af poster

OAI-PMH standarden handler om høstning af poster, ikke søgning. Høstningen kan tage udgangspunkt i et datasæt (set), postens tidsstempel for seneste ændring (timestamp) og/eller dens identifier.

Der er tre forskellige måder at høste poster på fra DBC OAI Repo;

  • ListRecords (hent poster)
  • ListIdentifiers (hent kun posternes identifiers i repositoriet og ikke selve posterne)
  • GetRecord (hent en specifik post ud fra dens identifier i repositoriet)

Hvordan de forskellige høstninger kan sættes op fremgår af den tekniske dokumentation på https://opensource.dbc.dk/services/dbc-oai-repo

DBC OAI Repo identifier

Som identifier på en post i DBC OAI Repo bruges den bibliografiske posts faustnummer med basenummer og bindestreg foranstillet. F.eks. ’870970-23645564’ hvor 870970 er basenummer og 23645564 er faustnummer.

Datasæt der kan høstes fra

Det er pt. fire datasæt man kan høste poster fra. To af sættene (NAT og ART) er frit tilgængelige, mens de to andre (BKM og ONL) kræver abonnement, og at man identificerer sig med netpunkt-triple ved kaldet til servicen.

  • NAT: Nationalbibliografiske poster (fra base 870970 og 870971)
  • ART: Artikelposter (eksklusive anmeldelser) registreret af DBC (fra base 870971)
  • BKM: Bibliotekskatalogiseret materiale (fra base 870970)
  • ONL: Online materialer registreret som nationalbibliografi eller bibliotekskatalogiseringer (fra base 870970)

Servicens ListSets funktion viser navngivning og nærmere beskrivelse af de tilgængelige datasæt. (se https://opensource.dbc.dk/services/dbc-oai-repo)

Tidsstempel for seneste ændring

Det tidsstempel der sættes på en post i DBC OAI Repo er ikke det samme som det tidsstempel der står i selve danMARC2-posten. Det tidsstempel der kan benyttes ved høstning fra DBC OAI Repo er tidspunktet for hvornår posten senest har ændret sig i dette repositorie. En opdatering af danMARC2 posten vil naturligvis føre til en efterfølgende opdatering i OAI Repo'et, men andre ændringer kan også betyde at tidsstemplet for seneste opdatering vil ændre sig.

Udleveringsformater

Poster kan udleveres i et simpelt Dublin Core-format eller i danMARC2 marcxchange. Kaldet til servicen skal indeholde information om, hvilket format man ønsker at få posterne udleveret i.  

Dublin Core formatet består af elementerne:

  • dc.title (titel fra danMARC2 felt 245)
  • dc.creator (ophav/opstilling fra felt 100 og 110)
  • dc.publisher (forlagsoplysninger fra felt 260)
  • dc.contributor (ophav og medvirkende fra felt 700 og 710)
  • dc.date (udgivelsesdato fra felt 008)
  • dc.identifier (identifikatorer fra felt 001 og 021)
  • dc.source (originaltitel fra felt 241)
  • dc.language (sprogkode fra felt 008)

Hvilke formater der udleveres og hvad de hedder i servicen ses med servicens ListMetaDataFormats (se https://opensource.dbc.dk/services/dbc-oai-repo)

Når posterne udleveres i danMARC2 marcxchange-formatet, er det som de rå poster, der er lagret i brønden. De følger standarden for danMARC2-formatet og DBC’s katalogiseringspraksis. Dog vil hoved- og sektionsposter også indeholde felt 015 med faustnummer på underliggende poster, således at disse poster kan høstes ud med servicens GetRecord funktion (se https://opensource.dbc.dk/services/dbc-oai-repo)

Hoved-, sektions- og bindposter

Bindposter, der er indeholdt i et af de definerede datasæt i DBC OAI Repo, vil trække deres overliggende poster med ud ved udlevering i danMARC2 marcxchange formatet. Posterne vil udleveres i en samlet collection med 2-3 records (hovedpost, evt. sektionspost, bindpost).

Hvis en hoved- eller sektionspost er blevet opdateret, vil en mere eller mindre tilfældig bindpost også have fået en ny opdateringsdato (timestamp). Den pågældende bindpost vil blive udleveret sammen med sine overliggende poster som beskrevet ovenfor under ’Udleveringsformater’.