Skip to content

Commit d84d7bf

Browse files
authored
Create gt-celestine-doniau-danest.yml (#166)
* Create gt-celestine-doniau-danest.yml * Update gt-celestine-doniau-danest.yml
1 parent e0c678b commit d84d7bf

File tree

1 file changed

+169
-0
lines changed

1 file changed

+169
-0
lines changed
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,169 @@
1+
authors:
2+
- name: Alix
3+
orcid: 0000-0002-0136-4434
4+
roles:
5+
- transcriber
6+
- project-manager
7+
- quality-control
8+
- support
9+
surname: Chagué
10+
- name: Julie
11+
roles:
12+
- transcriber
13+
- quality-control
14+
surname: Cissé
15+
- name: Radia
16+
roles:
17+
- transcriber
18+
- quality-control
19+
surname: Kichou
20+
automatically-aligned: false
21+
characters:
22+
members:
23+
- e
24+
- a
25+
- s
26+
- r
27+
- n
28+
- t
29+
- i
30+
- u
31+
- l
32+
- o
33+
- d
34+
- p
35+
- c
36+
- m
37+
- ́
38+
- '-'
39+
- "'"
40+
- v
41+
- ','
42+
- ̀
43+
- f
44+
- b
45+
- q
46+
- g
47+
- h
48+
- .
49+
- A
50+
- x
51+
- j
52+
- P
53+
- L
54+
- '1'
55+
- E
56+
- ̂
57+
- M
58+
- '2'
59+
- ^
60+
- y
61+
- S
62+
- C
63+
- D
64+
- ̧
65+
- J
66+
- T
67+
- z
68+
- R
69+
- I
70+
- G
71+
- '9'
72+
- F
73+
- '"'
74+
- '?'
75+
- ;
76+
- '!'
77+
- N
78+
- '4'
79+
- '0'
80+
- U
81+
- '5'
82+
- B
83+
- (
84+
- )
85+
- '3'
86+
- '8'
87+
- '6'
88+
- '7'
89+
- '['
90+
- ']'
91+
- H
92+
- Q
93+
- k
94+
- '='
95+
- ':'
96+
- ×
97+
- Y
98+
-
99+
-
100+
- O
101+
mode: NFD
102+
citation-file-link: https://github.com/alix-tz/dataset-celestine-doniau-danest/CITATION.cff
103+
description: >-
104+
Jeu de vérités de terrain pour la transcription automatique produit avec
105+
eScriptorium dans le cadre du cours HNU2000 à l’Université de Montréal au
106+
trimestre d'automne 2024. Le jeu de données contient des pages tirées
107+
aléatoirement des numérisation du "Journal de Célestine Doniau-Danest sur les
108+
débuts de la Guerre 1914-1918" mis en ligne par les Archives départementales
109+
de la Somme.
110+
111+
112+
*Ground Truth dataset for automatic text recognition created with eScriptorium
113+
during the HNU 2000 course at the Université de Montréal during the Fall 2024
114+
semester. The dataset contains pages taken randomly from the digitization of
115+
the "Journal de Célestine Doniau-Danest sur les débuts de la Guerre 1914-1918"
116+
(Diary of Célestine Doniau-Danest on the beginning of the 1914-1918 war),
117+
published by the departmental archives of Somme.*
118+
format: Alto-XML
119+
hands:
120+
count: '1'
121+
precision: exact
122+
institutions: []
123+
language:
124+
- fra
125+
license:
126+
name: CC-BY 4.0
127+
url: https://creativecommons.org/licenses/by/4.0/
128+
production-software: eScriptorium + Kraken
129+
project-name: HNU2000@UdeM
130+
schema: https://htr-united.github.io/schema/2023-06-27/schema.json
131+
script:
132+
- iso: Latn
133+
script-type: only-manuscript
134+
sources:
135+
- link: https://archives.somme.fr/ark:/58483/tjrd8pq42716
136+
reference: ''
137+
time:
138+
notAfter: '1915'
139+
notBefore: '1914'
140+
title: GT Celestine Doniau-Danest
141+
transcription-guidelines: >-
142+
De manière générale, les règles de transcription suivies sont immitatives.
143+
144+
145+
- Mots illisibles: durant la phase de transcription, les mots illisibles ont
146+
été transcrits par \[???\]. Ils ont ensuite été résolus collectivement.
147+
148+
- Décoration du texte: les décorations comme le soulignage, etc, n'ont pas
149+
fait l'objet d'une transcription distincte du reste du texte.
150+
151+
- Correction et normalisation: les fautes d'orthographes ont été reproduites
152+
telles que dans la source, les espacements sont en revanche normalisés selon
153+
l'usage moderne.
154+
155+
- Ponctuation:
156+
- pour la transcription des points (.) et des tirets (-), on a respecté le tracé
157+
dans la source plutôt que l'usage attendu car le tracé de ces deux signes est très
158+
distinct.
159+
- les signes de ponctuation double (:;?!) ne sont pas précédé d'un espace.
160+
url: https://github.com/alix-tz/dataset-celestine-doniau-danest
161+
volume:
162+
- count: 8024
163+
metric: characters
164+
- count: 4
165+
metric: files
166+
- count: 144
167+
metric: lines
168+
- count: 8
169+
metric: regions

0 commit comments

Comments
 (0)