2019-03-26 | Mainz

DHd 2019 multimedial & multimodal

RDF-Lifting aus TEI

LOD am Anwendungsbeispiel STURM-Briefe

  1. Die STURM-Edition
  2. Pelagios und Peripleo
  3. RDF-Lifting einer Pelagios Dataset Summary aus TEI mit XTriples


Die STURM-Edition




    In einer niederrheinischen Zeitung soll von einer bevorstehenden großen
    Ausstellung in <placeName key="O.0000045"
    ref="" >Barmen</placeName> von 
    <persName key="P.0000009" ref="">Kandinsky</persName>
    mir u.s.w. berichtet worden sein; […] ich bin natürlich einverstanden,
    nur soll die frei<hi rend="underline">e Rück</hi>fracht
    <placeName key="O.0000045" ref=""
    >Barmen</placeName> – <placeName key="O.0000002"
    ref="">Berlin</placeName> gesichert sein.
    Aber es ist natürlich nur Vermutung von mir. Von <persName key="P.0000057"
    ref="">Reiche</persName> höre ich gar nichts.



Pelagios und Peripleo


Grundstruktur Pelagios Dataset Summary


Einmalig zu Beginn der RDF-Datei zu deklarieren

@prefix cnt: <> . 
@prefix dcterms: <> .
@prefix foaf: <> .
@prefix oa: <> .
@prefix pelagios: <> .
@prefix relations: <> .
@prefix xsd: <> .

Grundstruktur Pelagios Dataset Summary

Beschriebenes Objekt

Wird wiederholt für jedes beschriebene Objekt

# RDF-Typ
    a pelagios:AnnotatedThing ;

# Notwendige Statements
    # Titel
    dcterms:title "Honorific inscription of Ostia" ;
    # Homepage
    foaf:homepage <> ;

# Optionale Statements
    dcterms:description "Honorific inscription, findspot Ostia" ;
    dcterms:temporal "366/402" ;
    dcterms:temporal <> ;
    dcterms:language "la" ;
    dcterms:subject "inscription" ;

Grundstruktur Pelagios Dataset Summary


Wird wiederholt für jeden Ortsbezug von jedem Objekt

# RDF-Typ
    a oa:Annotation ;

# Notwendige Statements
    # Verweis auf beschriebenes Objekt
    oa:hasTarget <> ;
    # Verweis auf Geo-Normdatensatz
    oa:hasBody <> ;

# Optionale Statements
    pelagios:relation relations:foundAt ;
    oa:hasBody [ cnt:chars "POINT (41.755740099 12.290938199)";
                 dcterms:format "application/wkt" ] ;
    oa:annotatedAt "2014-11-05T10:18:00Z"^^xsd:date ;


RDF-Lifting einer Pelagios Dataset Summary aus TEI

Generische Grundstruktur XTriples-Konfiguration

            <vocabulary prefix="###MY_NAMESPACE_PREFIX###" uri="###MY_NAMESPACE_URI###"/>
            <vocabulary prefix="rdf" uri=""/>
                <subject prefix="###MY_NAMESPACE_PREFIX###">###XPATH###</subject>
                <predicate prefix="rdf">about</predicate>
                <object type="literal">###XPATH###</object>
    <collection uri="###MY_COLLECTION_URI###">
        <resources uri="{###XPATH###}"/>

Schritt 1

Einen einzelnen STURM-Brief als Quelle konfigurieren

    <resources uri=""/>

… später kommen wir auf Crawling von Collections zurück!

Schritt 1

Präfixe entsprechend Pelagios definieren

    <vocabulary prefix="rdf" uri=""/>
    <vocabulary prefix="cnt" uri=""/>
    <vocabulary prefix="dcterms" uri=""/>
    <vocabulary prefix="foaf" uri=""/>
    <vocabulary prefix="oa" uri=""/>
    <vocabulary prefix="pelagios" uri=""/>
    <vocabulary prefix="relations" uri=""/>
    <vocabulary prefix="xsd" uri=""/>

Schritt 1

Weitere Präfixe

Wir wollen XPath für ein TEI-Dokument nutzen – der Namespace muss angegeben werden!

<vocabulary prefix="tei" uri=""/>

Die STURM-URIs haben eine Basis-URL, die auch als Präfix gesetzt werden kann:

<vocabulary prefix="sturm" uri=""/>

Schritt 2

Das erste Statement zum beschriebenen Objekt

Subjekt: URI des STURM-Briefes, bestehend aus der ID des Briefes und dem STURM-Präfix

<subject prefix="sturm" type="uri">/tei:TEI/@xml:id</subject>

Prädikat: RDF-type

<predicate prefix="rdf">type</predicate>

Objekt: ein Pelagios-AnnotatedThing

<object prefix="pelagios" type="uri">AnnotatedThing</object>

            <vocabulary prefix="tei" uri=""/>
            <vocabulary prefix="sturm" uri=""/>
            <vocabulary prefix="rdf" uri=""/>
            <vocabulary prefix="cnt" uri=""/>
            <vocabulary prefix="dcterms" uri=""/>
            <vocabulary prefix="foaf" uri=""/>
            <vocabulary prefix="oa" uri=""/>
            <vocabulary prefix="pelagios" uri=""/>
            <vocabulary prefix="relations" uri=""/>
            <vocabulary prefix="xsd" uri=""/>
                <subject prefix="sturm" type="uri">/tei:TEI/@xml:id</subject>
                <predicate prefix="rdf">type</predicate>
                <object prefix="pelagios" type="uri">AnnotatedThing</object>
        <resource uri=""/>

Schritt 2

Notwendige Statements

Subjekt ist weiterhin das beschriebene Objekt – der STURM-Brief

    <subject prefix="sturm" type="uri">/tei:TEI/@xml:id</subject>
    <predicate prefix="dcterms">title</predicate>
    <object type="literal">/normalize-space(./tei:TEI/tei:teiHeader/tei:fileDesc/tei:titleStmt/tei:title)</object>
    <subject prefix="sturm" type="uri">/tei:TEI/@xml:id</subject>
    <predicate prefix="foaf">homepage</predicate>
    <!-- Hier wird die in der Datei kodierte URI verwendet; de facto identisch mit der <subject>-URI -->
    <object type="uri">/tei:TEI/tei:teiHeader/tei:fileDesc/tei:publicationStmt/tei:idno[@type="uri"]</object>


Schritt 3

Das erste Statement zur Ortserwähnung

    <subject prefix="sturm" type="uri">/tei:TEI/tei:text/tei:body//tei:placeName/@key</subject>
    <predicate prefix="rdf">type</predicate>
    <object prefix="oa" type="uri">Annotation</object>

Schritt 3

Das zweite Statement zur Ortserwähnung

Subjekt ist weiterhin die Annotation – die Ortserwähnung

    <subject prefix="sturm" type="uri">/tei:TEI/tei:text/tei:body//tei:placeName/@key</subject>
    <predicate prefix="oa">hasTarget</predicate>
    <object prefix="sturm" type="uri">/tei:TEI/@xml:id</object>


Schritt 3

1:1-Zuordnung von Ortserwähnung zu Geo-Normdatum

Subjekt ist weiterhin die Annotation – die Ortserwähnung


Schritt 3

1:1-Zuordnung von Ortserwähnung zu Geo-Normdatum

Für die eindeutige 1:1-Zuordnung eines <placeName> zu einer Geo-URI brauchen wir eine Iteration:

<statement repeat="{/count(./tei:TEI/tei:text/tei:body//tei:placeName[@ref])}">

… die dann mit der Variable $repeatIndex wieder aufgegriffen wird:

<subject prefix="sturm" type="uri">/(tei:TEI/tei:text/tei:body//tei:placeName)[$repeatIndex]/@key</subject>

Schritt 4


Voraussetzung ist eine XML-Liste der Ressourcen, z.B. aus einer REST-Schnittstelle

<collection uri="" max="7">

Aus dieser Liste können mit XPath Ressourcen-Namen extrahiert und mit einer Basis-URL kombiniert werden

<resource uri="{/tei:TEI/tei:text/tei:body/tei:div/tei:list[@n='letters']//tei:item[@n='letter']/@xml:id}.xml" />

Eine mögliche weitgehend vollständige Konfiguration




Thank you