La parole : acoustique

 

    -  Les indices acoustiques de la perception de la parole

Notre capacité à comprendre la parole, même dans des conditions difficiles tient très certainement à l’importance des redondances présentes dans toute situation de communication  la connaissance préalable de l’interlocuteur, du sujet de la discussion, du cadre dans lequel elle se déroule et, bien entendu, l’utilisation d’un code linguistique commun. D’autres redondances, moins évidentes existent également au niveau de l’information acoustique. En présence d’une abondance d’éléments d’information, il semble que le cerveau réagisse par un processus d’élimination plutôt que par un processus de sommation de ces éléments. Les stimuli ne parviennent pas au cerveau dans leur totalité ; seuls l’atteignent les éléments optimaux de la stimulation. Le spectre physique d’une voyelle, par exemple, contient potentiellement plusieurs autres sons voyelles il suffit de filtrer, en laboratoire, la voyelle /i/ pour percevoir, au cours du filtrage, les sons /u/, /o/, /a/, /e/, /ei/. Si notre cerveau n’effectuait pas le choix des fréquences optimales de /i/ nous ne pourrions extraire de la totalité des fréquences acoustiques proposées à notre audition (20 Hz - 20000 Hz) les caractéristiques fréquentielles de ce phonème particulier. La perception auditive est donc un processus  discontinu (Gubérina, 1974) et il est important de connaître les indices acoustiques pertinents qui nous permettent d’identifier les sons de parole. Certains indices acoustiques ont été mis en évidence en laboratoire grâce au synthétiseur de parole qui permet de faire varier certains paramètres tels que fréquence, intensité, durée, afin de déterminer ceux qui sont essentiels à l’identification des sons voyelles, consonnes, et à la discrimination de syllabes. Les indices acoustiques qui nous permettent d’identifier les voyelles et les consonnes sont de natures différentes.

Pour les voyelles, il semble que l’indice le plus significatif soit essentiellement la valeur des fréquences de la portion stable des deux premiers formants. La durée de cet indice est de l’ordre de 200 à 300 millisecondes (ms). Pour les consonnes, les indices critiques diffèrent selon les consonnes considérées, mais la caractéristique commune est qu’il s’agit de phénomènes acoustiques très brefs, inférieur à 50 ms. La direction et la longueur des transitions de formants (variation acoustique traduisant les mouvements des articulateurs de la consonne à la voyelle qui suit ou de la voyelle à la consonne qui suit) sont des indices d’identification des consonnes. La transition du second formant serait un indice majeur pour toutes les consonnes (à l’exception, peut-être, des fricatives) et probablement l’indice d’information linguistique le plus important dans la parole (Liberman et al, 1967).

Le délai de voisement (Voice Onset Time ou VOT) est l’indice principal du voisement. C’est l’intervalle entre le relâchement de l’air bloqué par le conduit vocal avant l’ouverture de la bouche, et le déclenchement des vibrations des cordes vocales. Lorsque le délai de voisement est inférieur à 30 ms une occlusive bilabiale est perçue /b/, lorsqu’il est supérieur à 30 ms c’est un /p/ qui est perçu. Le délai de 30 ms semble donc constituer la frontière perceptuelle entre /b/ et /p/. Les consonnes occlusives sourdes se caractérisent par des délais de voisement longs (> 30 ms), les occlusives sonores par des délais de voisement courts (< 30 ms). La perception des syllabes serait donc organisée en catégories : à l’intérieur des catégories les changements physiques ne modifient pas la perception alors qu’une variation de quelques millisecondes d’un côté ou de l’autre de la frontière entraîne un changement de perception (Abramson & Licker, 1970).

Il existe une forme similaire de perception catégorielle dans la discrimination des fricatives et des affriquées. La distinction semble reposer sur le temps nécessaire au signal acoustique pour atteindre son intensité maximale (Cutting & Rosner, 1974). L’intensité maximale est plus rapidement atteinte pour /t/ que pour /tch/ et il existe une frontière bien définie entre la perception de /ch/ et /tch/ lorsqu’on fait varier le temps de montée en intensité maximale. La perception catégorielle de la parole reposerait donc sur la nature transitoire extrêmement rapide des consonnes dans le continuum de la parole.

La qualité de la voix joue un rôle important dans la perception de la parole ainsi que l’on mis en évidence les expériences de changement de source vocale (Ladefoged & Broadbent, 1975).  La composition physique d’une voyelle prononcée par un enfant et par un homme révèle des différences considérables, visibles sur le spectrogramme. La valeur du locus (point d’origine d’un formant en fonction du point d’articulation du premier formant), pour la voyelle /a/, varie de 730 hertz chez un adulte à 1030 hertz chez un enfant (Peterson & Barney, 1952). Cela ne perturbe pourtant pas la perception du discours. L’information transmise par une voyelle ne dépend donc pas de la valeur absolue de ses formants mais de la relation entre les fréquences des formants de cette voyelle et les fréquences des formants d’autres voyelles prononcées par le même locuteur. Dans leur expérience, Ladefoged et Broadbent (1975) ont fait entendre à plusieurs sujets une série de syllabes, à la suite d’une phrase introductrice dont ils faisaient varier la fréquence fondamentale. La fréquence fondamentale des syllabes restait constante. La phrase introductrice était : "Please, say what this word is"  suivie de la syllabe "hit". Les sujets qui devaient identifier la syllabe test ont perçu des sons voyelles différents en fonction de la fréquence fondamentale de la phrase introductrice, soit "hat", "het"... Il semblerait que l’auditeur adapte son mécanisme perceptuel aux caractéristiques physiques du mécanisme vocal de son interlocuteur.

D’autres expériences ont montré qu’un changement de fréquence fondamentale entraînait un changement dans l’identification des consonnes (Fourcin, 1968).

Les traits prosodiques rythme et intonation sont parmi les paramètres les plus discriminants entre deux langues différentes parce qu’ils mettent en œuvre des processus physiologiques (respiratoires et musculaires) particuliers à chaque langue. Le rythme est déterminé par les variations de durée et d’intensité, l’intonation essentiellement par les variations de hauteur des syllabes. Si les traits prosodiques sont utilisés, dans chaque langue, de manière spécifique, il semble que dans la plupart des cas, à des degrés et nuances divers, la fréquence fondamentale (F0) joue un grand rôle dans leur perception. En anglais (Fry, 1958), en français (Rigault, 1962), en polonais (Jassem et al, 1968), en norvégien (Fintoft & Martony, 1964), en allemand (Gutknecht, 1972), la fréquence fondamentale est le facteur physique qui a la plus grande influence sur la perception de la proéminence accentuelle. En ce qui concerne les langues à tons, la fréquence fondamentale est encore le facteur physique dominant pour la discrimination des tons chinois (Howie, 1972) et thaï (Abramson, 1972).

L’information émotionnelle n’est pas transmise par un seul paramètre acoustique. Le contenu phonétique, l’intensité et les variations de la fréquence fondamentale sont, à des degrés divers, des corrélats acoustiques dans les mêmes proportions, et les locuteurs pris individuellement, n’ont pas forcément recours aux mêmes paramètres pour exprimer verbalement un même état émotionnel. Dans tous les cas cependant, l’ensemble des deux paramètres, variations de F0 et variations d’intensité est un facteur déterminant de la perception des émotions transmises verbalement (Lieberman & Michaels, 1962). Or, les variations de F0 sont produites par les vibrations des cordes vocales (voir La fonction du larynx dans la parole, dans Physiologie de la parole) dont les performances, pour ce qui concerne la voix parlée, couvrent approximativement un champ fréquentiel de 50 hertz à 350 hertz. La perception que nous avons de l’état émotif d’un locuteur repose en grande partie sur les variations de sa fréquence fondamentale à l’intérieur de ces limites.  

BIBLIOGRAPHIE

ABRAMSON A.S. & L. LISKER, 1970.-“Discriminability along the voicing continuum cross language tests”, Proceedings of the 6th Congress of Phonetic Sciences, Prague, pp. 569-573.

ABRAMSON A.S., 1972.-“Tonal experiments with whispered thaï”, Papers on linguistics and phonetics in memory of P. Delattre, pp.31-34, Valdman, Mouton, The Hague.

CUTTING J.E. & B.S. ROSNER, 1974.-“Categories and boundaries in speech and music”, Perception and Psychophysics, 16, pp. 564-570.  

FINTOFT K., MARTONY J, 1964-“Word accents in East Norwegian, Speech transmission laboratory”, Quarterly progress and status report, 3,8-15, Royal Institute of Technology, Stockholm.

FOURCIN A., 1968.-“Formant transition perception with different fundamental frequencies of excitation”, Zeitschrift für Phonetik, 21,pp. 1-2. 

FRY D.B., 1958.-“Experiments in the perception of stress”, Language and speech, 1, pp.126-152..  

GUBERINA P., 1974.-"Structuration et dépassement des structures perceptives et psycholinguistiques dans la méthodologie SGAV", Actes du 3e colloque international SGAV pour l’enseignement des langues, Didier, p.41-48.  

GUTNECHT P., 1972.-“A note on the role of pitch as an element of the accent within synthetic pairs of syllables” in Proceedings of the 7th Congress of Phonetic Sciences, Montreal, Mouton, pp. 890-893.

HOWIE J.M., 1972 “Some experiments on the perception of Mandarin tones” in Proceedings of the 7th Congress of Phonetic Sciences, Montreal, Mouton, pp. 900-904.

JASSEM W., MORTON J. & M. STEFEN BATOG, 1968.-“The perception of stress in synthetic speech-like sitmuli”, Speech analysis and synthesis, 1, pp. 288-308.  

LADEFOGED R. & D. BROADBENT, 1975.-“Information carried by vowels”, Journal of the Acoustical Society of America, 29, pp. 98-104.

LIBERMAN A.M., COOPER F.S., SHANKWEILER D.P. & M. STUDDERT-KENNEDY, 1967.-“Perception of the Speech code”, Psychological Review, 74 (6), pp. 431-461.

LIEBERMAN P. & M. MICHAELS, 1962.-“Some aspects of fundamental frequency and envelope amplitude as related to the emotional content of speech”, Journal of the Acoustical Society of America, vol. 34, 7, pp. 922. 927.

PETERSON G.& H. BARNEY, 1952-“Control methods in a study of the vowels, Journal of the Acoustical Society of America,  24.

RIGAULT A., 1962.-"Rôle de la fréquence, de l’intensité et de la durée vocalique dans la perception de l’accent en français" in Proceedings of the 4th international congress of Phonetic Sciences, Helsinki, pp. 735-748.