La parole : acoustique
-
Les indices acoustiques de la perception de la parole
Notre capacité à
comprendre la parole, même dans des conditions difficiles tient très
certainement à l’importance des redondances présentes dans toute situation
de communication la connaissance préalable
de l’interlocuteur, du sujet de la discussion, du cadre dans lequel elle se déroule
et, bien entendu, l’utilisation d’un code linguistique commun. D’autres
redondances, moins évidentes existent également au niveau de l’information
acoustique. En présence d’une abondance d’éléments d’information, il
semble que le cerveau réagisse par un processus d’élimination plutôt que
par un processus de sommation de ces éléments. Les stimuli ne parviennent pas
au cerveau dans leur totalité ; seuls l’atteignent les éléments optimaux de
la stimulation. Le spectre physique d’une voyelle, par exemple, contient
potentiellement plusieurs autres sons voyelles il suffit de filtrer, en
laboratoire, la voyelle /i/ pour percevoir, au cours du filtrage, les sons /u/,
/o/, /a/, /e/, /ei/. Si notre cerveau n’effectuait pas le
choix des fréquences optimales de /i/ nous ne pourrions extraire de la
totalité des fréquences acoustiques proposées à notre audition (20 Hz -
20000 Hz) les caractéristiques fréquentielles de ce phonème particulier. La
perception auditive est donc un processus discontinu
(Gubérina, 1974) et il est important de connaître les indices acoustiques
pertinents qui nous permettent d’identifier les sons de parole. Certains
indices acoustiques ont été mis en évidence en laboratoire grâce au synthétiseur
de parole qui permet de faire varier certains paramètres tels que fréquence,
intensité, durée, afin de déterminer ceux qui sont essentiels à
l’identification des sons voyelles, consonnes, et à la discrimination de
syllabes. Les indices acoustiques qui nous permettent d’identifier les
voyelles et les consonnes sont de natures différentes.
Pour les voyelles, il
semble que l’indice le plus significatif soit essentiellement la valeur des fréquences
de la portion stable des deux premiers formants. La durée de cet indice est de
l’ordre de 200 à 300 millisecondes (ms). Pour les consonnes, les indices
critiques diffèrent selon les consonnes considérées, mais la caractéristique
commune est qu’il s’agit de phénomènes acoustiques très brefs, inférieur
à 50 ms. La direction et la longueur des transitions de formants (variation
acoustique traduisant les mouvements des articulateurs de la consonne à la
voyelle qui suit ou de la voyelle à la consonne qui suit) sont des indices
d’identification des consonnes. La transition du second formant serait un
indice majeur pour toutes les consonnes (à l’exception, peut-être, des
fricatives) et probablement l’indice d’information linguistique le plus
important dans la parole (Liberman et al, 1967).
Le délai de
voisement (Voice Onset Time ou VOT) est l’indice principal du voisement.
C’est l’intervalle entre le relâchement de l’air bloqué par le conduit
vocal avant l’ouverture de la bouche, et le déclenchement des vibrations des
cordes vocales. Lorsque le délai de voisement est inférieur à 30 ms une
occlusive bilabiale est perçue /b/, lorsqu’il est supérieur à 30 ms
c’est un /p/ qui est perçu. Le délai de 30 ms semble donc constituer
la frontière perceptuelle entre /b/ et /p/. Les consonnes
occlusives sourdes se caractérisent par des délais de voisement longs (> 30
ms), les occlusives sonores par des délais de voisement courts (< 30 ms). La
perception des syllabes serait donc organisée en catégories : à l’intérieur
des catégories les changements physiques ne modifient pas la perception alors
qu’une variation de quelques millisecondes d’un côté ou de l’autre de la
frontière entraîne un changement de perception (Abramson & Licker, 1970).
Il existe une forme
similaire de perception catégorielle dans la discrimination des fricatives et
des affriquées. La distinction semble reposer sur le temps nécessaire au
signal acoustique pour atteindre son intensité maximale (Cutting & Rosner,
1974). L’intensité maximale est plus rapidement atteinte pour /t/ que
pour /tch/ et il existe une frontière bien définie entre la perception
de /ch/ et /tch/ lorsqu’on fait varier le temps de montée en
intensité maximale. La perception catégorielle de la parole reposerait donc
sur la nature transitoire extrêmement rapide des consonnes dans le continuum de
la parole.
La qualité de la
voix joue un rôle important dans la perception de la parole ainsi que
l’on mis en évidence les expériences de changement de source vocale (Ladefoged
& Broadbent, 1975). La composition physique d’une voyelle prononcée
par un enfant et par un homme révèle des différences considérables, visibles
sur le spectrogramme. La valeur du locus (point d’origine d’un formant en
fonction du point d’articulation du premier formant), pour la voyelle /a/,
varie de 730 hertz chez un adulte à 1030 hertz chez un enfant (Peterson &
Barney, 1952). Cela ne perturbe pourtant pas la perception du discours.
L’information transmise par une voyelle ne dépend donc pas de la valeur
absolue de ses formants mais de la relation entre les fréquences des formants
de cette voyelle et les fréquences des formants d’autres voyelles prononcées
par le même locuteur. Dans leur expérience, Ladefoged et Broadbent (1975) ont
fait entendre à plusieurs sujets une série de syllabes, à la suite d’une
phrase introductrice dont ils faisaient varier la fréquence fondamentale. La fréquence
fondamentale des syllabes restait constante. La phrase introductrice était :
"Please, say what this word is" suivie de la syllabe
"hit". Les sujets qui devaient identifier la syllabe test ont perçu
des sons voyelles différents en fonction de la fréquence fondamentale de la
phrase introductrice, soit "hat", "het"... Il semblerait que
l’auditeur adapte son mécanisme perceptuel aux caractéristiques physiques du
mécanisme vocal de son interlocuteur.
D’autres expériences
ont montré qu’un changement de fréquence fondamentale entraînait un
changement dans l’identification des consonnes (Fourcin, 1968).
Les traits
prosodiques rythme et intonation sont parmi les paramètres
les plus discriminants entre deux langues différentes parce qu’ils mettent en
œuvre des processus physiologiques (respiratoires et musculaires) particuliers
à chaque langue. Le rythme est déterminé par les variations de durée et
d’intensité, l’intonation essentiellement par les variations de hauteur des
syllabes. Si les traits prosodiques sont utilisés, dans chaque langue, de manière
spécifique, il semble que dans la plupart des cas, à des degrés et nuances
divers, la fréquence fondamentale (F0) joue un grand rôle dans leur
perception. En anglais (Fry, 1958), en français (Rigault, 1962), en polonais (Jassem
et al, 1968), en norvégien (Fintoft & Martony, 1964), en allemand (Gutknecht,
1972), la fréquence fondamentale est le facteur physique qui a la plus grande
influence sur la perception de la proéminence accentuelle. En ce qui concerne
les langues à tons, la fréquence fondamentale est encore le facteur physique
dominant pour la discrimination des tons chinois (Howie, 1972) et thaï (Abramson,
1972).
L’information
émotionnelle n’est pas transmise par un seul paramètre acoustique. Le
contenu phonétique, l’intensité et les variations de la fréquence
fondamentale sont, à des degrés divers, des corrélats acoustiques dans les mêmes
proportions, et les locuteurs pris individuellement, n’ont pas forcément
recours aux mêmes paramètres pour exprimer verbalement un même état émotionnel.
Dans tous les cas cependant, l’ensemble des deux paramètres, variations de F0
et variations d’intensité est un facteur déterminant de la perception des émotions
transmises verbalement (Lieberman & Michaels, 1962). Or, les variations de F0
sont produites par les vibrations des cordes vocales (voir La fonction du
larynx dans la parole, dans Physiologie de la parole) dont
les performances, pour ce qui concerne la voix parlée, couvrent
approximativement un champ fréquentiel de 50 hertz à 350 hertz. La perception
que nous avons de l’état émotif d’un locuteur repose en grande partie sur
les variations de sa fréquence fondamentale à l’intérieur de ces limites.
BIBLIOGRAPHIE
ABRAMSON
A.S. & L. LISKER, 1970.-“Discriminability along the voicing continuum
cross language tests”, Proceedings of the 6th Congress of
Phonetic Sciences, Prague, pp. 569-573.
ABRAMSON
A.S., 1972.-“Tonal experiments with whispered thaï”, Papers on
linguistics and phonetics in memory of P. Delattre, pp.31-34, Valdman,
Mouton, The Hague.
CUTTING
J.E. & B.S. ROSNER, 1974.-“Categories and boundaries in speech and
music”, Perception and Psychophysics, 16, pp. 564-570.
FINTOFT
K., MARTONY J, 1964-“Word accents in East Norwegian, Speech transmission laboratory”, Quarterly
progress and status report, 3,8-15, Royal Institute of Technology,
Stockholm.
FOURCIN A., 1968.-“Formant transition perception with different fundamental frequencies of excitation”, Zeitschrift für Phonetik, 21,pp. 1-2.
FRY D.B., 1958.-“Experiments
in the perception of stress”, Language and speech, 1,
pp.126-152..
GUBERINA
P., 1974.-"Structuration et dépassement des structures perceptives et
psycholinguistiques dans la méthodologie SGAV", Actes du 3e
colloque international SGAV pour l’enseignement des langues, Didier,
p.41-48.
GUTNECHT
P., 1972.-“A note on the role of pitch as an element of the accent within
synthetic pairs of syllables” in Proceedings of the 7th Congress
of Phonetic Sciences, Montreal, Mouton, pp. 890-893.
HOWIE
J.M., 1972 “Some experiments on the perception of Mandarin tones” in Proceedings
of the 7th Congress of Phonetic Sciences, Montreal, Mouton, pp.
900-904.
JASSEM
W., MORTON J. & M. STEFEN BATOG, 1968.-“The perception of stress in
synthetic speech-like sitmuli”, Speech analysis and synthesis, 1,
pp. 288-308.
LADEFOGED
R. & D. BROADBENT, 1975.-“Information carried by vowels”, Journal of
the Acoustical Society of America, 29, pp. 98-104.
LIBERMAN
A.M., COOPER F.S., SHANKWEILER D.P. & M. STUDDERT-KENNEDY,
1967.-“Perception of the Speech code”, Psychological Review, 74
(6), pp. 431-461.
LIEBERMAN P. & M.
MICHAELS, 1962.-“Some aspects of fundamental frequency and envelope amplitude as
related to the emotional content of speech”, Journal of the Acoustical
Society of America, vol. 34, 7, pp. 922. 927.
PETERSON
G.& H. BARNEY, 1952-“Control methods in a study of the vowels, Journal
of the Acoustical Society of America, 24.
RIGAULT A., 1962.-"Rôle de la fréquence, de l’intensité et de
la durée vocalique dans la perception de l’accent en français" in Proceedings
of the 4th international congress of Phonetic Sciences, Helsinki, pp.
735-748.