Skip to content

Latest commit

 

History

History
executable file
·
225 lines (193 loc) · 16.5 KB

1-text-balises.md

File metadata and controls

executable file
·
225 lines (193 loc) · 16.5 KB

Du texte brut aux balises

Texte brut / texte enrichi

  • Text brut (plain text) = une chaîne de caractères : “bonjour” / “Bonjour” / “BONJOUR”
  • Texte enrichi (fancy text) = le texte de nos traitements de textes
    Texte + mise en forme (à l’affichage) :
    • Bonjour / bonjour / bonjour / BONJOUR / bonjour

Le standard Unicode définit le texte brut (énoncé pas tout à fait exact…).

Le texte brut représente le contenu basique, échangeable et interopérable du texte.

Le texte brut représente seulement les caractères contenus, sans leur apparence (ceci signifie que seule une numérotation des caractères est utilisée, la police de caractères étant fournie par un mécanisme indépendant).

Texte brut. Codage des caractères

  • ASCII (American Standard Code for Information Interchange)
    Les caractères latins non accentués (écrire en anglais)
    codés sur 7 bits. 27 = 128 possibilités.
  • ISO 8859-1 (Latin 1)
    Les 191 caractères de l’alphabet latin ; conçu comme une extension de l’ASCII
    codés sur 1 octet (8 bits). 28 = ? possibilités.
  • UTF-8 (Universal Character Set Transformation Format - 8 bits)
    L’ensemble des caractères du « répertoire universel de caractères codés »
    codés sur 1 à 4 octets (compatible Unicode et ASCII)
    L’UTF-8 est utilisé par 86 % des sites web en 2016.

Table ASCII dans un manuel d’imprimante de 1972

(source Wikipedia).

Table ASCII dans un manuel d’imprimante de 1972

Manipuler le texte brut – les regex

regex trouve jargon
dans toutes les occurrences de “dans”
^dans “dans” en début de ligne ancre
qui$ “qui” en fin de ligne ancre
^$ ?
de|du toutes les occurrences de “de” et de “du”
d[eu] toutes les occurrences de “de” et de “du” classe de caractères
[a-z] “a”, ou “b”, ou “c”, ..., ou “y”, ou “z” intervalle (dans une classe)
[^a-z] n’importe quel caractère sauf “a”, ou “b”, ou “c”, ..., ou “z” classe complémentée (tout caractère qui n’est pas énuméré)
\w Any word character classe de caractères
\[[:punct:]] ponctuation classe de caractères
s? zéro ou une occurrence de “s” quantificateur, facultatif
[a-z]* une ou plusieurs occurrences de la classe [a-z] quantificateur, facultatif
e+ une ou plusieurs occurrences de “e” quantificateur, obligatoire
[a-z]{n} n occurrences de la classe [a-z] quantificateur, obligatoire restrictif
[a-z]{n,m} n à maximum m occurrences de la classe [a-z] quantificateur, obligatoire restrictif
[a-z]{n,} au moins n occurrences de la classe [a-z] quantificateur, obligatoire non restrictif
() capture de sous chaînes

Exercice – manipuler du texte brut

https://regex101.com/r/bZjdCw/1

  1. Restructurer en paragraphes (une ligne par paragraphe) la couche texte du PDF des premières pages du Poète assassiné d’Apollinaire.
  2. Poser les balises <p>…</p> pour structurer le texte en XML.
Le Poète assassiné
I
Renommée
La gloire de Croniamantal est aujourd'hui uni-
verselle. Cent vingt-trois villes dans sept pays sur
quatre continents se disputent l'honneur d'avoir vu
naître ce héros insigne. J'essayerai plus loin d'élu-
cider cette importante question.
Tous ces peuples ont plus ou moins modifié le
nom sonore de Croniamantal. Les Arabes, les Turcs
et autres peuples qui lisent de droite à gauche
n'ont pas manqué de le prononcer Latnamaïnorc,
mais les Turcs l'appellent bizarrement Pata, ce qui
signifie oie ou organe viril, à volonté. Les Russes
le surnomment Viperdoc, c'est-à-dire né d'un pet ;
on verra plus loin la raison de ce sobriquet. Les
Scandinaves, ou du moins les Dalécarliens, l'ap-
pellent volontiers quoniam, en latin, qui signifie
parce que, mais désigne souvent les parties nobles
dans les récits populaires du moyen âge. On voit
que les Saxons et les Turcs manifestent à l'égard
de Croniamantal le même sentiment en lui appli-
quant des surnoms identiques, mais dont l'origine
est encore mal expliquée. On suppose que c'est une
allusion euphémique à ce qui se trouvait dans le
rapport médical du médecin marseillais Ratiboul
sur la mort de Croniamantal. D'après cette pièce
officielle, tous les organes de Croniamantal étaient
sains et le médecin légiste ajoutait en latin, comme
fit l'aide-major Henry pour Napoléon : partes viriles
exiguitatis insignis, sicut pueri.
Au demeurant, il est des pays où la notion de
la virilité croniamantalesque a complètement dis-
paru. C'est ainsi qu'en Moriane les nègres le
nomment Tsatsa ou Dzadza ou Rsoussour, noms
féminins, car ils ont féminisé Croniamantal comme
les Byzantins ont féminisé le vendredi saint en en
faisant sainte Parascève.
II
Procréation
A deux lieues de Spa, sur la route bordée
d'arbres tordus et de buissons, Viersélin Tigoboth,
musicien ambulant qui arrivait à pied de Liége,
battait le briquet pour allumer sa pipe. Une voix
de femme cria :
« Eh ! monsieur ! »
Il leva la tête et un rire éperdu éclata :
« Hahaha ! Hohoho ! Hihihi ! tes paupières ont
la couleur des lentilles d'Egypte ! Je m'appelle
Macarée. Je veux un matou. »
Viersélin Tigoboth aperçut sur le bord de la
route une jeune femme brune, formée de jolis
globes. Qu'elle était gracieuse en jupe courte de
cycliste ! Et tenant d'une main son vélo, tandis
Le Poète assassiné

I. Renommée
La gloire de Croniamantal est aujourd'hui universelle. Cent vingt-trois villes dans sept pays sur quatre continents se disputent l'honneur d'avoir vu naître ce héros insigne. J'essayerai plus loin d'élucider cette importante question.
Tous ces peuples ont plus ou moins modifié le nom sonore de Croniamantal. Les Arabes, les Turcs et autres peuples qui lisent de droite à gauche n'ont pas manqué de le prononcer Latnamaïnorc, mais les Turcs l'appellent bizarrement Pata, ce qui signifie oie ou organe viril, à volonté. Les Russes le surnomment Viperdoc, c'est-à-dire né d'un pet ; on verra plus loin la raison de ce sobriquet. Les Scandinaves, ou du moins les Dalécarliens, l'appellent volontiers quoniam, en latin, qui signifie parce que, mais désigne souvent les parties nobles dans les récits populaires du moyen âge. On voit que les Saxons et les Turcs manifestent à l'égard de Croniamantal le même sentiment en lui appliquant des surnoms identiques, mais dont l'origine est encore mal expliquée. On suppose que c'est une allusion euphémique à ce qui se trouvait dans le rapport médical du médecin marseillais Ratiboul sur la mort de Croniamantal. D'après cette pièce officielle, tous les organes de Croniamantal étaient sains et le médecin légiste ajoutait en latin, comme fit l'aide-major Henry pour Napoléon : partes viriles exiguitatis insignis, sicut pueri.
Au demeurant, il est des pays où la notion de la virilité croniamantalesque a complètement disparu. C'est ainsi qu'en Moriane les nègres le nomment Tsatsa ou Dzadza ou Rsoussour, noms féminins, car ils ont féminisé Croniamantal comme les Byzantins ont féminisé le vendredi saint en en faisant sainte Parascève.

II. Procréation
A deux lieues de Spa, sur la route bordée d'arbres tordus et de buissons, Viersélin Tigoboth, musicien ambulant qui arrivait à pied de Liége, battait le briquet pour allumer sa pipe. Une voix de femme cria : « Eh ! monsieur ! »
Il leva la tête et un rire éperdu éclata : « Hahaha ! Hohoho ! Hihihi ! tes paupières ont la couleur des lentilles d'Egypte ! Je m'appelle Macarée. Je veux un matou. »
Viersélin Tigoboth aperçut sur le bord de la route une jeune femme brune, formée de jolis globes. Qu'elle était gracieuse en jupe courte de cycliste ! Et tenant d'une main son vélo, tandis
  • cette structuration en paragraphe est-elle explicite ?
  • le texte reste-t-il le même ?
  • trouver une manière de caractériser (dans le fichier) les éléments éditoriaux :
    • le titre principal
    • les titres hiérarchiques
    • les paragraphes
    • la pagination
    • la mise en valeur typographique (comment désambiguïser la sémantique de l’italique ?)
    • ?
<body>
  <head>Le Poète assassiné</head>
  <div>
    <head>I. Renommée</head>
    <p>La gloire de Croniamantal est aujourd'hui universelle. Cent vingt-trois villes dans sept pays sur quatre continents se disputent l'honneur d'avoir vu naître ce héros insigne. J'essayerai plus loin d'élucider cette importante question.</p>
    <p>Tous ces peuples ont plus ou moins modifié le nom sonore de Croniamantal. Les Arabes, les Turcs et autres peuples qui lisent de droite à gauche n'ont pas manqué de le prononcer Latnamaïnorc, mais les Turcs l'appellent bizarrement Pata, ce qui signifie oie ou organe viril, à volonté. Les Russes le surnomment Viperdoc, c'est-à-dire né d'un pet ; on verra plus loin la raison de ce sobriquet. Les Scandinaves, ou du moins les Dalécarliens, l'appellent volontiers quoniam, en latin, qui signifie parce que, mais désigne souvent les parties nobles dans les récits populaires du moyen âge. On voit que les Saxons et les Turcs manifestent à l'égard de Croniamantal le même sentiment en lui appliquant des surnoms identiques, mais dont l'origine est encore mal expliquée. On suppose que c'est une allusion euphémique à ce qui se trouvait dans le rapport médical du médecin marseillais Ratiboul sur la mort de Croniamantal. D'après cette pièce officielle, tous les organes de Croniamantal étaient sains et le médecin légiste ajoutait en latin, comme fit l'aide-major Henry pour Napoléon : partes viriles exiguitatis insignis, sicut pueri.</p>
    <p>Au demeurant, il est des pays où la notion de la virilité croniamantalesque a complètement disparu. C'est ainsi qu'en Moriane les nègres le nomment Tsatsa ou Dzadza ou Rsoussour, noms féminins, car ils ont féminisé Croniamantal comme les Byzantins ont féminisé le vendredi saint en en faisant sainte Parascève.</p>
  </div>
  <div>
    <head>II. Procréation</head>
    <p>A deux lieues de Spa, sur la route bordée d'arbres tordus et de buissons, Viersélin Tigoboth, musicien ambulant qui arrivait à pied de Liége, battait le briquet pour allumer sa pipe. Une voix de femme cria : « Eh ! monsieur ! »</p>
    <p>Il leva la tête et un rire éperdu éclata : « Hahaha ! Hohoho ! Hihihi ! tes paupières ont la couleur des lentilles d'Egypte ! Je m'appelle Macarée. Je veux un matou. »</p>
    <p>Viersélin Tigoboth aperçut sur le bord de la route une jeune femme brune, formée de jolis globes. Qu'elle était gracieuse en jupe courte de cycliste ! Et tenant d'une main son vélo, tandis</p>
</body>

Langages à balises (Markup Languages)

                     $$contenu divers$$
               <balise>contenu divers</balise>
  • Texte brut : qui signifie parce que
  • Résultat attendu : « qui signifie parce que »
  • Balises :
    • qui signifie <i>parce que</i> (HTML5)
    • qui signifie *parce que* (Markdown)

Des balises

langage balise
Markdown balisage *ad hoc* pour l’italique.
wikicode balisage ''ad hoc'' pour l’italique.
LaTeX balisage \emph{ad hoc} pour l’italique.
DocBook balisage <emphasis>ad hoc</emphasis> pour l’italique.
HTML5 balisage <i>ad hoc</i> pour l’italique.
XML balisage <italique>ad hoc</italique> pour l’italique.
XML ?
TEI balisage <hi rend="i">ad hoc</hi> pour l’italique.
XML balisage <locutionEtrangere>ad hoc</locutionEtrangere> pour l’italique.

Mise en valeur (typographique) vs sémantique

langage balise documentation
Markdown *ad hoc* "Markdown treats asterisks (*) and underscores (_) as indicators of emphasis."
wikicode balisage ''ad hoc'' pour l’italique. "Il est possible de mettre le texte en gras, en italique, etc., pour mettre en valeur les informations d'un texte ou pour écrire le titre d'une œuvre selon les conventions (par exemple, un titre de film doit être en italique)."
LaTeX \emph{ad hoc} "…pour mettre en valeur certains mots, les titres d'ouvrages en particulier."
HTML5 balisage <i>ad hoc</i> pour l’italique. "The i element represents a span of text in an alternate voice or mood, or otherwise offset from the normal prose in a manner indicating a different quality of text, such as a taxonomic designation, a technical term, an idiomatic phrase from another language, transliteration, a thought, or a ship name in Western texts."
TEI balisage <hi rend="i">ad hoc</hi> pour l’italique. "<hi> distingue un mot ou une expression comme graphiquement distincte du texte environnant, sans en donner la raison."

2/2. Balisage sémantique

langage balise documentation
wikicode {{Langue|code de langue|texte}} "Ce modèle a pour but d’indiquer la langue d’un texte, notamment pour les synthétiseurs vocaux et l’indexation…"
LaTeX \selectlanguage{latin}{ad hoc} "Pour alterner entre les langues, on utilise la commande (…) en spécifiant entre accolades la langue demandée."
HTML5 <i lang="la">ad hoc</i> "The lang attribute (in no namespace) specifies the primary language for the element's contents and for any of the element's attributes that contain text."
TEI balisage <foreign xml:lang="la">ad hoc</foreign> "<foreign> reconnaît un mot ou une expression comme appartenant à une langue différente de celle du contexte."

XML et les autres

Quelques langages à balises

Exercice – Balises et modèles éditoriaux

Comparer les fichiers balisés (sémantique et modèle documentaire) :

Regrouper les fichiers par "famille" de balises.

  • Structuration visuelle ou sémantique ?
  • Quel usage (comment lire les fichiers) ?
  • Des équivalences entre balises ?
  • Forces et faiblesses de chaque balisage ?