This file is indexed.

/usr/share/collatinus10/doc/ar01s07.html is in collatinus 10.2-2.

This file is owned by root:root, with mode 0o644.

The actual contents of the file can be viewed below.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><title>7. Le calcul des fréquences</title><link rel="stylesheet" type="text/css" href="docbook-xsl.css" /><meta name="generator" content="DocBook XSL Stylesheets V1.76.1" /><link rel="home" href="index.html" title="Collatinus 10.2 — Manuel d’utilisation" /><link rel="up" href="index.html" title="Collatinus 10.2 — Manuel d’utilisation" /><link rel="prev" href="ar01s06.html" title="6. Les quantités et la scansion" /><link rel="next" href="ar01s08.html" title="8. La Flexion et les autres utilisations" /></head><body><div class="navheader"><table width="100%" summary="Navigation header"><tr><td width="20%" align="left"><a accesskey="p" href="ar01s06.html">Précédent</a> </td><th width="60%" align="center"> </th><td width="20%" align="right"> <a accesskey="n" href="ar01s08.html">Suivant</a></td></tr></table><hr /></div><div class="section" title="7. Le calcul des fréquences"><div class="titlepage"><div><div><h2 class="title" style="clear: both"><a id="_le_calcul_des_fréquences"></a>7. Le calcul des fréquences</h2></div></div></div><p>Collatinus propose deux outils rudimentaires pour
mesurer les fréquences d’un lemme dans un texte ou
faire des statistiques sur les schémas métriques des
vers. Cet outil est accessible dans le menu Lexiques
(Fréquences) ou par le bouton représentant un boulier.
Il s’applique lorsque les onglets "Lexiques" ou
"Scansion" sont actifs et effectue des opérations
différentes détaillées ci-dessous.</p><div class="section" title="7.1. Dans l’onglet &quot;Lexiques&quot;"><div class="titlepage"><div><div><h3 class="title"><a id="_dans_l_8217_onglet_lexiques"></a>7.1. Dans l’onglet "Lexiques"</h3></div></div></div><p>la fonction "Fréquences" essaie d’estimer le nombre
d’occurrences de chaque lemme rencontré dans le texte
et établit une liste ordonnée des lemmes (le plus
fréquent d’abord). En réalité, on ne sait mesurer que
le nombre d’occurrences des formes et certaines formes
peuvent venir de plusieurs lemmes différents. On ne
peut donc pas espérer avoir un décompte exact sans une
étape de désambiguïsation, essentiellement manuelle car
c’est souvent le sens qui permet de décider des
attributions.  Collatinus n'étant pas encore doté d’un
outil de désambiguïsation, il applique une méthode
simple. Il procède en trois temps. Une première étape,
exacte, consiste à relever toutes les formes et à les
compter.  Puis, il lemmatise les formes et considère
les deux cas possibles. Si la forme n’est liée qu'à un
seul lemme connu de Collatinus, son nombre
d’occurrences sera comptabilisé pour ce lemme dans la
catégorie "valeur sûre". Si la forme peut venir de
divers lemmes, son nombre d’occurrences sera
comptabilisé dans une deuxième catégorie "valeur
possible" de tous les lemmes associés. Enfin, suivant
le vieil adage, "on ne prête qu’aux riches", Collatinus
répartit à nouveau le nombre d’occurrences de chaque
forme ambiguë entre chaque lemme possible au prorata de
la fréquence de ce lemme.  On obtient ainsi une "valeur
probable" pour le nombre d’occurrences de chaque lemme.</p><p>Comme il ne s’agit que d’estimations, la fonction
<span class="emphasis"><em>Fréquences</em></span> donne plusieurs éléménts qui permettent à
l’utilisateur de juger de la pertinence du résultat. Il
s’agit de 4 entiers : n (a, b, c)</p><div class="itemizedlist"><ul class="itemizedlist" type="disc"><li class="listitem">
n = a+c
</li><li class="listitem">
a = nombre de formes rattachées seulement à ce lemme
</li><li class="listitem">
b = nombre de formes ambiguës (partagées par plusieurs lemmes)
</li><li class="listitem">
c = nombre probable de formes ambiguës rattachées à ce lemme
</li></ul></div><p>a est donc le nombre d’occurrences sûres du lemme,
alors que b est le nombre d’occurrences qui pourraient
être associées à ce lemme (en excluant évidemment celle
comptées dans a). Ces deux nombres sont exacts, dans la
limite des connaissances de Collatinus (une forme
pouvant venir d’un deuxième lemme que Collatinus ne
connaît pas ne sera pas vue comme ambiguë). Le nombre c
représente la partie de b qui vient vraisemblablement
du lemme (en principe, c ≤ b). Ce dernier nombre n’est
qu’une estimation au prorata des fréquences observées
dans le texte. Le nombre n = a+c est donc le nombre
total d’occurrences que l’on peut associer au lemme.</p><div class="section" title="limites et exemples"><div class="titlepage"><div><div><h4 class="title"><a id="_limites_et_exemples"></a>limites et exemples</h4></div></div></div><p>Cette méthode ne permettra jamais de départager des
homonymes stricts comme les deux populus. Qu’il
s’agisse d’un discours politique ou d’un traité de
botanique, Collatinus attribuera toujours la moitié des
occurrences de populus au peuple et l’autre moitié au
peuplier. L’utilisateur ayant accès au sens du texte
devra rétablir les attributions.</p><p>Si un texte contient la forme "esse" mais aucune autre
forme fléchie du verbe "edo" (et, comme c’est
vraissemblable, beaucoup de formes de "sum"), le lemme
"edo" apparaîtra dans la liste mais avec un nombre
d’occurrences probables nul.</p></div></div><div class="section" title="7.2. Dans l’onglet Scansion"><div class="titlepage"><div><div><h3 class="title"><a id="_dans_l_8217_onglet_emphasis_scansion_emphasis"></a>7.2. Dans l’onglet <span class="emphasis"><em>Scansion</em></span></h3></div></div></div><p>la fonction <span class="emphasis"><em>Fréquences</em></span>
scande le texte et retient dans chaque ligne le schéma
métrique. J’entends par là que Collatinus ne retient
que la longueur des syllabes et oublie les mots. Quelle
que soit la voyelle, elle sera repérée par u si elle
est brève, par - si elle est longue et par -̆ si elle
est commune ou ambiguë. Pour laisser une porte ouverte
sur l'étude du rythme, on garde, dans un premier temps,
une trace de la séparation des mots (avec un espace) et
des voyelles élidées (repérées par `). Ce schéma
métrique est reporté en dessous de chaque ligne
scandée. Ces schémas, nettoyés de leurs espaces et
d'éventuels signes ` ( trace des élisions), sont alors
comptés et rangés par ordre décroissant de leur
fréquence. Les schémas n’apparaissant qu’une fois dans
le texte ne sont pas affichés dans la liste, mais
figureront quand même sous la ligne correspondante. Si
dans le texte un mot n’est pas reconnu, il sera recopié
dans le schéma métrique avec un @ (signifiant
attention !) devant. De même, si une forme peut être
scandée en mots de longueurs différentes (par exemple,
uoluit) le signe @ apparaîtra dans le schéma métrique.</p><p>Ainsi les 10 premiers schémas métriques pour "Arma
virumque cano,…" seront</p><pre class="screen">21 : -uu-------uu-u
18 : ---------uu--
13 : -uu-uu-----uu-u
13 : -uu-------uu--
10 : -uu---uu---uu-u
10 : -uu---uu---uu--
7  : -----uu---uu-u
7  : -------uu-uu-u
6  : -uu-uu-----uu--
6  : ---------uu-u</pre><p>Cela met bien en évidence la structure des hexamètres
avec les dactyles (-uu) et les spondées (--).</p></div></div><div class="navfooter"><hr /><table width="100%" summary="Navigation footer"><tr><td width="40%" align="left"><a accesskey="p" href="ar01s06.html">Précédent</a> </td><td width="20%" align="center"> </td><td width="40%" align="right"> <a accesskey="n" href="ar01s08.html">Suivant</a></td></tr><tr><td width="40%" align="left" valign="top"> </td><td width="20%" align="center"><a accesskey="h" href="index.html">Sommaire</a></td><td width="40%" align="right" valign="top"> </td></tr></table></div></body></html>