|
| 1 | +authors: |
| 2 | +- name: Alix |
| 3 | + orcid: 0000-0002-0136-4434 |
| 4 | + roles: |
| 5 | + - transcriber |
| 6 | + - project-manager |
| 7 | + - quality-control |
| 8 | + - support |
| 9 | + surname: Chagué |
| 10 | +- name: Julie |
| 11 | + roles: |
| 12 | + - transcriber |
| 13 | + - quality-control |
| 14 | + surname: Cissé |
| 15 | +- name: Radia |
| 16 | + roles: |
| 17 | + - transcriber |
| 18 | + - quality-control |
| 19 | + surname: Kichou |
| 20 | +automatically-aligned: false |
| 21 | +characters: |
| 22 | + members: |
| 23 | + - e |
| 24 | + - a |
| 25 | + - s |
| 26 | + - r |
| 27 | + - n |
| 28 | + - t |
| 29 | + - i |
| 30 | + - u |
| 31 | + - l |
| 32 | + - o |
| 33 | + - d |
| 34 | + - p |
| 35 | + - c |
| 36 | + - m |
| 37 | + - ́ |
| 38 | + - '-' |
| 39 | + - "'" |
| 40 | + - v |
| 41 | + - ',' |
| 42 | + - ̀ |
| 43 | + - f |
| 44 | + - b |
| 45 | + - q |
| 46 | + - g |
| 47 | + - h |
| 48 | + - . |
| 49 | + - A |
| 50 | + - x |
| 51 | + - j |
| 52 | + - P |
| 53 | + - L |
| 54 | + - '1' |
| 55 | + - E |
| 56 | + - ̂ |
| 57 | + - M |
| 58 | + - '2' |
| 59 | + - ^ |
| 60 | + - y |
| 61 | + - S |
| 62 | + - C |
| 63 | + - D |
| 64 | + - ̧ |
| 65 | + - J |
| 66 | + - T |
| 67 | + - z |
| 68 | + - R |
| 69 | + - I |
| 70 | + - G |
| 71 | + - '9' |
| 72 | + - F |
| 73 | + - '"' |
| 74 | + - '?' |
| 75 | + - ; |
| 76 | + - '!' |
| 77 | + - N |
| 78 | + - '4' |
| 79 | + - '0' |
| 80 | + - U |
| 81 | + - '5' |
| 82 | + - B |
| 83 | + - ( |
| 84 | + - ) |
| 85 | + - '3' |
| 86 | + - '8' |
| 87 | + - '6' |
| 88 | + - '7' |
| 89 | + - '[' |
| 90 | + - ']' |
| 91 | + - H |
| 92 | + - Q |
| 93 | + - k |
| 94 | + - '=' |
| 95 | + - ':' |
| 96 | + - × |
| 97 | + - Y |
| 98 | + - ⟦ |
| 99 | + - ⟧ |
| 100 | + - O |
| 101 | + mode: NFD |
| 102 | +citation-file-link: https://github.com/alix-tz/dataset-celestine-doniau-danest/CITATION.cff |
| 103 | +description: >- |
| 104 | + Jeu de vérités de terrain pour la transcription automatique produit avec |
| 105 | + eScriptorium dans le cadre du cours HNU2000 à l’Université de Montréal au |
| 106 | + trimestre d'automne 2024. Le jeu de données contient des pages tirées |
| 107 | + aléatoirement des numérisation du "Journal de Célestine Doniau-Danest sur les |
| 108 | + débuts de la Guerre 1914-1918" mis en ligne par les Archives départementales |
| 109 | + de la Somme. |
| 110 | +
|
| 111 | +
|
| 112 | + *Ground Truth dataset for automatic text recognition created with eScriptorium |
| 113 | + during the HNU 2000 course at the Université de Montréal during the Fall 2024 |
| 114 | + semester. The dataset contains pages taken randomly from the digitization of |
| 115 | + the "Journal de Célestine Doniau-Danest sur les débuts de la Guerre 1914-1918" |
| 116 | + (Diary of Célestine Doniau-Danest on the beginning of the 1914-1918 war), |
| 117 | + published by the departmental archives of Somme.* |
| 118 | +format: Alto-XML |
| 119 | +hands: |
| 120 | + count: '1' |
| 121 | + precision: exact |
| 122 | +institutions: [] |
| 123 | +language: |
| 124 | +- fra |
| 125 | +license: |
| 126 | + name: CC-BY 4.0 |
| 127 | + url: https://creativecommons.org/licenses/by/4.0/ |
| 128 | +production-software: eScriptorium + Kraken |
| 129 | +project-name: HNU2000@UdeM |
| 130 | +schema: https://htr-united.github.io/schema/2023-06-27/schema.json |
| 131 | +script: |
| 132 | +- iso: Latn |
| 133 | +script-type: only-manuscript |
| 134 | +sources: |
| 135 | +- link: https://archives.somme.fr/ark:/58483/tjrd8pq42716 |
| 136 | + reference: '' |
| 137 | +time: |
| 138 | + notAfter: '1915' |
| 139 | + notBefore: '1914' |
| 140 | +title: GT Celestine Doniau-Danest |
| 141 | +transcription-guidelines: >- |
| 142 | + De manière générale, les règles de transcription suivies sont immitatives. |
| 143 | +
|
| 144 | +
|
| 145 | + - Mots illisibles: durant la phase de transcription, les mots illisibles ont |
| 146 | + été transcrits par \[???\]. Ils ont ensuite été résolus collectivement. |
| 147 | +
|
| 148 | + - Décoration du texte: les décorations comme le soulignage, etc, n'ont pas |
| 149 | + fait l'objet d'une transcription distincte du reste du texte. |
| 150 | +
|
| 151 | + - Correction et normalisation: les fautes d'orthographes ont été reproduites |
| 152 | + telles que dans la source, les espacements sont en revanche normalisés selon |
| 153 | + l'usage moderne. |
| 154 | +
|
| 155 | + - Ponctuation: |
| 156 | + - pour la transcription des points (.) et des tirets (-), on a respecté le tracé |
| 157 | + dans la source plutôt que l'usage attendu car le tracé de ces deux signes est très |
| 158 | + distinct. |
| 159 | + - les signes de ponctuation double (:;?!) ne sont pas précédé d'un espace. |
| 160 | +url: https://github.com/alix-tz/dataset-celestine-doniau-danest |
| 161 | +volume: |
| 162 | +- count: 8024 |
| 163 | + metric: characters |
| 164 | +- count: 4 |
| 165 | + metric: files |
| 166 | +- count: 144 |
| 167 | + metric: lines |
| 168 | +- count: 8 |
| 169 | + metric: regions |
0 commit comments