Skip to content

PFE Transformation xml vers rdf

descl edited this page Nov 28, 2012 · 1 revision

TransformationXMLtoRDF

  1. J’ai vu plusieurs moyens de faire de la transformation d’un modèle XML vers du RDF. Krextor semble être une solution intéressante mais est à mon avis trop lourd et n’est pas primordial dans le travail.
  2. Une solution très interessante consiste à utiliser un script XSLT pour effectuer la transformation. J’ai trouvé quelques exemples en ligne:
  3. https://svn.liris.cnrs.fr/abstract/branches/v0.2/modules/sequence/s08-importCSV/xslt/xml2rdf.xsl
  4. http://www.yoan-chabot.fr/EspacePersonnel/Document/webist%20xsd2owl.pdf travail d’un étudiant sur la transformation avec rapport: http://www.yoan-chabot.fr/EspacePersonnel/Document/Projet/DUT/Stage/Rapport.docx
  5. J’ai alors développé une première version en XSLT permettant de transformer le flux de news:
    
    <xsl:stylesheet version="1.0"
                    xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
                    xmlns:RDF="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
                    xmlns:my="http://zxample.com#"
    		xmlns="http://www.w3.org/1999/02/22-rdf-syntax-ns#">

La réponse qu’on obtient avec ce fichier est de la forme suivante:


<RDF xmlns="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
   <Description>
      <my:author xmlns:my="http://zxample.com#">TV5.org info - La Une</my:author>
      <my:content xmlns:my="http://zxample.com#"> Des dizaines de milliers de personnes fêtaient lundi dans les rues de Berlin les 20 ans de la chute du Mur, qui a signé la fin de la Guerre froide et permis la réunification de l'Allemagne et de l'Europe.Evénement</my:content>
      <my:title xmlns:my="http://zxample.com#">Les 20 ans de la chute du Mur: la foule au rendez-vous à Berlin</my:title>
      <my:type xmlns:my="http://zxample.com#">text/html</my:type>
   </Description>
   ...
   ...
</RDF>

Ce document RDF est valide, on obtient d’ailleurs l’image suivante gràce au validateur du W3C:
https://redmine.polytech.unice.fr/redmine/attachments/42/servlet_15085.png

J’ai ensuite pu faire quelques requêtes sparql à l’aide de corese pour tester la chaine:


DESCRIBE ?x WHERE{ 
     ?x ?y ?z 
     FILTER(regex(?z, "militaire", "i"))
}

Réponse:

<rdf:Description rdf:NodeID='_:b4'>
   <ns1:content rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Le militaire d'origine palestinienne soupçonné d'avoir ouvert le feu à la base de Fort Hood au Texas a commencé à parler, a annoncé lundi l'armée américaine, quatre jours après le massacre qui a fait 13 morts et 28 blessés.</ns1:content>
   <ns1:type rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>text/html</ns1:type>
   <ns1:title rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Fusillade aux Etats-Unis: l'auteur de la tuerie s'est mis à parler</ns1:title>
   <ns1:author rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>TV5.org info - La Une</ns1:author>


_________________________

DESCRIBE ?x WHERE{ 
     ?x ?y ?z 
     FILTER(regex(?z, "nice", "i"))
}

Réponse:


<rdf:Description rdf:NodeID='_:b9'>
   <ns1:title rdf:datatype='http://www.w3.org/2001/XMLSchema#string'> Naturalisations : plus de moyens pour mieux traiter les demandes  (Nice-Matin)</ns1:title>
   <ns1:content rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>lundi 09 novembre 2009<br> <p class="nm_txt_1_lettrine_courant"><span class="unused">Les milliers de dossiers qui &#233;taient en souffrance avant 2007 sont peu &#224; peu r&#233;sorb&#233;s dans les Alpes-Maritimes.</span></p> <br><br> immigration Les milliers de dossiers qui étaient en souffrance avant 2007 sont peu à peu résorbés dans les Alpes-Maritimes </ns1:content>
   <ns1:type rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>text/html</ns1:type>
   <ns1:author rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Antibes : actu quotidienne locale départementale sportive </ns1:author>
</rdf:Description>

<rdf:Description rdf:NodeID='_:b8'>
   <ns1:title rdf:datatype='http://www.w3.org/2001/XMLSchema#string'> Naturalisations : plus de moyens pour mieux traiter les demandes  (Nice-Matin)</ns1:title>
   <ns1:content rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>lundi 09 novembre 2009<br> <p class="nm_txt_1_lettrine_courant"><span class="unused">Les milliers de dossiers qui &#233;taient en souffrance avant 2007 sont peu &#224; peu r&#233;sorb&#233;s dans les Alpes-Maritimes.</span></p> <br><br> immigration Les milliers de dossiers qui étaient en souffrance avant 2007 sont peu à peu résorbés dans les Alpes-Maritimes </ns1:content>
   <ns1:type rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>text/html</ns1:type>
   <ns1:author rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Antibes : actu quotidienne locale départementale sportive </ns1:author>
</rdf:Description>

<rdf:Description rdf:NodeID='_:b7'>
   <ns1:title rdf:datatype='http://www.w3.org/2001/XMLSchema#string'> Il tombe du brancard et retourne à l'hosto  (Nice-Matin)</ns1:title>
   <ns1:content rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>lundi 09 novembre 2009<br> <p class="nm_tit_encadre_new">L'histoire du jour</p> <br><br>  </ns1:content>
   <ns1:type rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>text/html</ns1:type>
   <ns1:author rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Antibes : actu quotidienne locale départementale sportive </ns1:author>
</rdf:Description>

<rdf:Description rdf:NodeID='_:b6'>
   <ns1:title rdf:datatype='http://www.w3.org/2001/XMLSchema#string'> L'échangeur autoroutier de Biot refait surface  (Nice-Matin)</ns1:title>
   <ns1:content rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>lundi 09 novembre 2009<br> <p class="nm_txt_1_lettrine_courant">L'&#233;changeur autoroutier de Biot est une nouvelle fois sur le devant de la sc&#232;ne. Ce vieux serpent de mer refait surface apr&#232;s de nombreuses ann&#233;es de tergiversations : il y a pr&#232;s de 20 ans, on en parlait d&#233;j&#224;.</p> <br><br> circulation Des études sont en cours pour déterminer un nouvel emplacement en tenant compte de la zone inondable qui avait fait capoter le premier projet </ns1:content>
   <ns1:type rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>text/html</ns1:type>
   <ns1:author rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Antibes : actu quotidienne locale départementale sportive </ns1:author>
</rdf:Description>

<rdf:Description rdf:NodeID='_:b5'>
   <ns1:title rdf:datatype='http://www.w3.org/2001/XMLSchema#string'> L'échangeur autoroutier de Biot refait surface  (Nice-Matin)</ns1:title>
   <ns1:content rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>lundi 09 novembre 2009<br> <p class="nm_txt_1_lettrine_courant">L'&#233;changeur autoroutier de Biot est une nouvelle fois sur le devant de la sc&#232;ne. Ce vieux serpent de mer refait surface apr&#232;s de nombreuses ann&#233;es de tergiversations : il y a pr&#232;s de 20 ans, on en parlait d&#233;j&#224;.</p> <br><br> circulation Des études sont en cours pour déterminer un nouvel emplacement en tenant compte de la zone inondable qui avait fait capoter le premier projet </ns1:content>
   <ns1:type rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>text/html</ns1:type>
   <ns1:author rdf:datatype='http://www.w3.org/2001/XMLSchema#string'>Antibes : actu quotidienne locale départementale sportive </ns1:author>
</rdf:Description>