Text Encoding Initiative – introduction

Partager des balises, échanger des fichiers

1987 : établissement de la Text Encoding Initiative.
1990 : TEI P1 (proposal 1), dir. Michael Sperberg-McQueen et Lou Burnard.
1992-1993 : TEI P2, expansion.
1994 : TEI P3, première version complète.
2000 : naissance du TEI Consortium.
2001-2004 : TEI P4, introduction du XML.
2007-... : TEI P5, abandon de SGML.

Les “principes de Poughkeepsie” (1987)

Proposer des Guidelines (recommandations) avec pour objectifs :

Provide a standard format for data interchange in humanities research.
Suggest principles for the encoding of texts in the same format.
Define (a) a recommended syntax for the format, (b) a metalanguage for the description of text-encoding schemes, (c) describe the new format and representative existing schemes both in that metalanguage and in prose ;
propose sets of coding conventions suited for various applications.
include a minimal set of conventions for encoding new texts in the format.
The guidelines are to be drafted by committees on text documentation, text representation, text interpretation and analysis, metalanguage definition and description of existing and proposed schemes, coordinated by a steering committee of representatives of the principal sponsoring organizations.
Compatibility with existing standards will be maintained as far as possible.
A number of large text archives have agreed in principle to support the guidelines in their function as an interchange format. We encourage funding agencies to support development of tools to facilitate this interchange.
Conversion of existing machine-readable texts to the new format involves the translation of their conventions into the syntax of the new format. No requirements will be made for the addition of information not already coded in the texts.

Un Consortium

Fondation interdisciplinaire à but non lucratif, financée par ses membres

TEI Board of Directors
TEI Technical Council
Membres institutionnels et individuels
TEI Workgroups, par ex. :
- TEI Manuscripts Special Interest Group
- Correspondence SIG
Special Interest Groups
Une liste de diffusion : TEI-L mailing list
Une liste francophone : TEI-FR et un wiki
des members meetings (congrès) annuels, de Pise 2001 à Lyon 2015, la publication d'une revue, la jTEI (Journal of the Text Encoding Initiative, http://jtei.revues.org/)
Des congrès annuels : TEI Conference
Une revue : Journal of the Text Encoding Initiative
Last but not least: les Guidelines ("recommandations") qui documentent notamment chaque élément.

Lire et comprendre les Guidelines

Les modules : des réservoirs d’éléments

La TEI P5 comporte des centaines d’éléments (569), regroupés en modules.
Chaque module est documenté par un chapitre des Guidelines.

4 modules sont obligatoires (communs à tous les documents TEI) :

tei : 1 The TEI Infrastructure (définition des classes, macros et types de données)
header : 2 The TEI Header (métadonnées communes)
core : 3 Elements Available in All TEI Documents
textstructure : 4 Default Text Structure (éléments de base pour structurer un texte de type livre)

Les modules sont relatifs à un type d'objet, une approche, une discipline, par ex. :

analysis : analyse linguistique
drama : textes d’art dramatique
gaiji : caractères non standard et glyphes
linking : liens, segmentation, alignements
msdescription : description des manuscrits
namesdates : noms, dates, lieux
textcrit : apparat critique
transcr : transcription des sources primaires

Les classes

cf. Guidelines, 1 The TEI Infrastructure

Les classes permettent d’organiser les éléments du modèle.
Les éléments héritent des propriétés de la classe à laquelle ils appartiennent, mais aussi de la classe de cette classe (superclass), etc.
NB. Une compréhension de base des classes du schéma TEI est essentielle pour bien lire les Guidelines et pour personnaliser un schéma.

Deux types de classes :

classes d'attributs (att.) : "A class is known as an attribute class if its members share attributes".
Par ex., la classe att.global, regroupe les attributs communs à tous les éléments dans le système de codage TEI (@xml:id, @xml:lang, etc.)
classes du modèle (model.) : "[A class is known] as a model class if its members appear in the same locations." Ces classes regroupent des éléments qui ont un même emplacement dans la structure hiérarchique d’un document TEI.
Par ex., model.divPart regroupe des éléments de niveau paragraphe apparaissant directement dans des divisions (p, lg, l, etc.) ; model.phrase regroupe des éléments qui apparaissent au niveau des mots isolés ou des groupes de mots (hi, title, foreign, etc.).

Ces Model Classes sont autant que possible des groupements sémantiques. Par ex., model.nameLike regroupe des éléments qui nomment une personne, un lieu ou une organisation (name, orgName, persName, etc.) ; model.biblPart regroupe des éléments qui sont des composantes d’une description bibliographique (bibl, author, editor, etc.).

Les macros

Les macros sont comme des raccourcis pour les modèles de contenu les plus fréquents.
Elles sont utilisées pour :

Représenter des modèles de contenu fréquemment utilisés (Standard Content Models).
Par ex., macro.paraContent définit le contenu des paragraphes (p) et des éléments similaires.
Désigner des types d'attributs de données (Datatype Specifications).
Par ex., teidata.certainty définit la plage des valeurs d'attributs exprimant un degré de certitude : teidata.certainty = "high" | "medium" | "low" | "unknown"

Nous passons un peu vite et reviendrons sur ces concepts de l’Infrastructure TEI quand nous parlerons de la personnalisation de schémas.

Interoperability / Interchange ?

P5: Guidelines for Electronic Text Encoding and Interchange (cf. http://www.tei-c.org/Vault/P5/2.2.0/doc/tei-p5-doc/en/html/index.html)

TEI (All) n’est pas un schéma à proprement parler.
Mais plutôt un framework, utile à la conception de son propre schéma.

Il est fortement déconseillé d’utiliser un schéma englobant l’intégralité de la TEI : une phase importante d’un projet est la conception d’un modèle adapté aux données et au projet, à l’exploitation des documents.

Documenter pour rendre ces choix lisibles et réexploitables par un groupe plus large ou d’autres chercheurs.

Exercice. Documentation

Repérer dans les Guidelines la documentation sur l’encodage des textes dramatiques (théâtre).
Identifier (lister) les éléments et attributs TEI utiles pour l’encodage de notre première page du Misanthrope.
Convertir notre fichier misanthrope.xml en TEI (misanthrope-tei.xml) (remplacer nos balises "maison" par les balises TEI et veiller à la validité du fichier produit).
Bonus 1. Reprendre notre première DTD pour construire le schéma TEI et valider misanthrope-tei.xml.
Bonus 2. Exprimer en TEI (dans le teiHeader) quelques métadonnées : 1. titre de l’œuvre, 2. auteur de l’œuvre, 3. date de création de l’œuvre, 4. auteur de l’encodage, 5. licence, 6. identifiant du fichier TEI.
Aide. Structure minimale d’un document TEI P5 valide (vous permettra d’insérer conformément votre transcription et de réfléchir à la question des métadonnées).

[Début du] Corrigé – à compléter avec les élèves : Documentation in 3.12.1 Core Tags for Verse 3, 7 Performance Texts, Verse

<piece> => <TEI> (4 Default Text Structure)
<acte> => <div type="act" n="1">
<scene> => <div type="scene" n="1">
<titre> => <head>
<casting> => <stage>
<tourDeParole> => sp[@who]/speaker
<didascalie> => <stage>
<vers> => <l>, <lg> ?
@aligner => @rend, @part
@xml:lang => @xml:lang

<TEI xmlns="http://www.tei-c.org/ns/1.0" xml:lang="fr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title ref="http://data.bnf.fr/ark:/12148/cb11961167w">Le Misanthrope</title>
        <title type="sub">Comédie en 5 actes</title>
        <author key=" Molière (1622-1673)" ref="http://data.bnf.fr/ark:/12148/cb11916418p">Molière</author>
      </titleStmt>
      <editionStmt>
        <edition>Master HN</edition>
        <respStmt>
          <name xml:id="L">Liset</name>
          <resp>Encodage</resp>
        </respStmt>
      </editionStmt>
      <publicationStmt>
        <publisher>École</publisher>
        <date when="2017"/>
      </publicationStmt>
      <sourceDesc>
        <bibl source="http://gallica.bnf.fr/ark:/12148/bpt6k57419644"><author>Molière</author>, <title>le Misanthrope</title>, <publisher>Librairie classique Eugène Belin</publisher>, <pubPlace>Paris</pubPlace>, <date>1847</date>.</bibl>
      </sourceDesc>
    </fileDesc>
    <profileDesc>
      <creation when="1666"/>
      <langUsage>
        <language ident="fr"/>
      </langUsage>
    </profileDesc>
  </teiHeader>
  <text>
    <body>
      <head rend="uc">Le misanthrophe</head>
      <!-- AJOUT POUR PILOTER LES IDENTIFIANTS DE PERSONNAGES -->
      <castList>
        <castItem xml:id="philinte">Philinte</castItem>
        <castItem xml:id="alceste">Alceste</castItem>
      </castList>
      <div xml:id="I" type="act">
        <head>Acte Premier</head>
        <div type="scene" xml:id="I01">
          <head>Scène Première</head>
          <stage>Philinte, Alceste</stage>
          <sp who="#philinte" xml:id="I01-1">
            <speaker>Philinte</speaker>
            <l n="1" xml:id="l1" part="I">Qu’est-ce donc ? qu’avez-vous ?</l>
          </sp>
          <sp who="#alceste" xml:id="I01-2">
            <speaker>Alceste, assis</speaker>
            <l part="F">Laissez-moi, je vous prie.</l>
          </sp>
          <sp who="#philinte" xml:id="I01-3">
            <speaker>Philinte</speaker>
            <l n="2" xml:id="l2">Mais, encor, dites-moi, quelle bizarrerie...</l>
          </sp>
          <sp who="#alceste" xml:id="I01-4">
            <speaker>Alceste</speaker>
            <l n="3" xml:id="l3">Laissez-moi là, vous dis-je, et courez vous cacher.</l>
          </sp>
          <sp who="#philinte" xml:id="I01-5">
            <speaker>Philinte</speaker>
            <l n="4" xml:id="l4">Mais on entend les Gens, au moins, sans se fâcher.</l>
          </sp>
          <sp who="#alceste" xml:id="I01-6">
            <speaker>Alceste</speaker>
            <l n="5" xml:id="l5">Moi, je veux me fâcher, et ne veux point entendre.</l>
          </sp>
          <sp who="#philinte" xml:id="I01-7">
            <speaker>Philinte</speaker>
            <l n="6" xml:id="l6">Dans vos brusques chagrins, je ne puis vous comprendre ;</l>
            <l n="7" xml:id="l7">Et quoique amis, enfin, je suis tout des premiers...</l>
          </sp>
          <sp who="#alceste" xml:id="I01-8">
            <speaker>Alceste, se levant brusquement</speaker>
            <l n="8" xml:id="l8">Moi, votre ami ? rayez cela de vos papiers.</l>
            <l n="9" xml:id="l9">J’ai fait jusques ici, profession de l’être ;</l>
            <l n="10" xml:id="l10">Mais après ce qu’en vous, je viens de voir paraître,</l>
          </sp>
        </div>
      </div>
    </body>
  </text>
</TEI>

TEI, un format pivot pour les éditions académiques ?

TODO ––IMAGE––
––lister les initiatives––

Bibliographie

TODO

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

3-tei-guidelines.md

3-tei-guidelines.md

Text Encoding Initiative – introduction

Partager des balises, échanger des fichiers

Les “principes de Poughkeepsie” (1987)

Un Consortium

Lire et comprendre les Guidelines

Les modules : des réservoirs d’éléments

Les classes

Les macros

Interoperability / Interchange ?

Exercice. Documentation

TEI, un format pivot pour les éditions académiques ?

Bibliographie

Files

3-tei-guidelines.md

Latest commit

History

3-tei-guidelines.md

File metadata and controls

Text Encoding Initiative – introduction

Partager des balises, échanger des fichiers

Les “principes de Poughkeepsie” (1987)

Un Consortium

Lire et comprendre les Guidelines

Les modules : des réservoirs d’éléments

Les classes

Les macros

Interoperability / Interchange ?

Exercice. Documentation

TEI, un format pivot pour les éditions académiques ?

Bibliographie