Statistique

La statistique est la science qui traite de la collecte et de l’analyse des données numériques et qui permet de répondre judicieusement à certaines questions. C’est aussi l’ensemble des données numériques recueillies. La statistique a de nombreuses applications au Canada, des recensements et des sondages gouvernementaux à la prise de décision dans l’industrie, en passant par la recherche médicale et les innovations technologiques.



Objectifs et applications de la statistique

Lorsqu’on pense statistique, on pense habituellement à des ensembles de nombres, par exemple à des données ou à des faits mis sous forme numérique, des taux de natalité et de mortalité, des précipitations, des réserves pétrolifères ou des fiches de hockey. Hors contexte, ces nombres ne signifient pas grand-chose. Les statisticiens manipulent ces nombres pour atteindre des objectifs ambitieux : approfondir, découvrir, confirmer, comprendre, prédire, contrôler et décider.

Le saviez-vous?

Selon l’humoriste Stephen Leacock : « Jadis, avant l’avènement de la statistique, on devait s’en remettre au mensonge d’où les énormes exagérations que l’on retrouvait dans les ouvrages de l’époque sur la taille des géants et l’ampleur des miracles ou des prodiges! Aujourd’hui, on s’en remet à la statistique, ce qui finalement s’équivaut ». Sam Slick, le picaresque personnage de Chandler Haliburton affirmait : « Les chiffres représentent des nombres et non des choses ».

La statistique est une application de la science, un outil du commerce et de l’industrie et un instrument dont se servent les gouvernements. Les scientifiques élaborent des théories, déduisent des conséquences et vérifient leurs prédictions : c’est la méthode scientifique. L’analyse de données permet d’élaborer des théories et la vérification, de comparer les faits aux prédictions. Ces étapes correspondent à des branches importantes de la statistique, notamment à l’analyse des données exploratoires (qui emploie souvent des représentations visuelles ou graphiques pour résumer les principales caractéristiques des ensembles de données) et aux tests d’hypothèse.

Les commerçants et les industriels doivent utiliser les ressources de façon rationnelle et prendre des décisions malgré les incertitudes. Les statisticiens sondent, enquêtent, observent et expérimentent selon des méthodes éprouvées. La théorie de la décision, une branche de la statistique, permet de prendre des décisions éclairées dans des situations incertaines.

Enfin, les gouvernements doivent connaître le statut des citoyens et protéger leur mieux-être. Ils y parviennent, en partie, par des recensements, des enquêtes permanentes, des banques de données et des prévisions qui sont tous possibles grâce aux données statistiques. Statistique Canada est l’organisme du gouvernement fédéral qui est chargé d’effectuer ce travail.

Immeuble Jean Talon

L'immeuble Jean Talon fait partie du siège de Statistique Canada au pré Tunney, à Ottawa. Photo prise en 2008. (Avec la permission de Demetri1968/Wikimédia, CC)

Concepts de la statistique

La statistique est basée sur certains concepts fondamentaux, notamment sur l’échantillonnage, la stratification, la répartition au hasard, la répétition, la modélisation stochastique et la validité de l’ajustement. Ces concepts permettent souvent aux statisticiens et aux scientifiques de donner des réponses prouvables et reproductibles à d’importantes questions. Le savoir humain leur doit beaucoup.

Échantillonnage

L’échantillonnage consiste à choisir un ensemble d’objets ou d’individus (l’échantillon) censés représenter un ensemble plus vaste (par ex.,la population). Les statisticiens ont découvert que les objets choisis au hasard dans une population sont représentatifs de cette population et qu’on pouvait calculer l’erreur inhérente à l’utilisation d’un échantillon (plutôt que la population entière par exemple).

Stratification

La stratification est définie comme étant le groupement en ensembles d’objets similaires avant l’échantillonnage ou l’expérimentation sur ces objets. Par exemple, le groupement des élèves d’une école selon le niveau scolaire serait une stratification et le choix au hasard d’élèves de chaque année serait un échantillonnage.

Répartition au hasard

La répartition au hasard est une découverte scientifique faite au 20e siècle par le statisticien britannique R.A. Fisher. Par exemple, pour trouver la meilleure de deux méthodes d’enseignement de la langue par répartition au hasard, un professeur pourrait enseigner une méthode à la moitié des élèves d’une classe, choisis au hasard, et l’autre méthode à l’autre moitié. À la fin de l’expérience, il comparerait les résultats des examens des deux groupes. En divisant ainsi la classe au hasard, on éviterait d’enseigner une méthode aux meilleurs élèves et donc de fausser les résultats.

Répétition

La répétition consiste à reprendre des mesures, par exemple celles des méthodes d’enseignement ci-dessus, et de répéter l’étude sur plusieurs groupes d’élèves. Grâce à la répétition, les chercheurs peuvent améliorer l’estimation des quantités intéressantes et peuvent mieux calculer l’erreur d’estimation.

Modélisation stochastique

La modélisation stochastique est définie comme étant la description simplifiée d’une conjoncture dans un langage mathématique (p. ex. des équations) qui présente un certain élément de hasard, plutôt que d’avoir un résultat déterministe ou fixe. Les modèles stochastiques permettent d’analyser et de récapituler efficacement des circonstances complexes.

Validité de l’ajustement

C’est l’étude des méthodes qui permettent de déterminer dans quelle mesure un modèle stochastique donné décrit bien un ensemble particulier de données. La validité de l’ajustement fait partie de la vérification des prédictions du modèle. Le statisticien britannique Karl Pearson, dont l’œuvre principale précède immédiatement celle de R.A. Fisher, a inventé le test du chi carré qui permet de vérifier la validité de l’ajustement. Les chercheurs se servent de ce test pour comparer les valeurs escomptées et observées. Il existe aujourd’hui de nombreuses méthodes formelles et informelles de vérification de la validité de l’ajustement. La statistique utilise largement les concepts des mathématiques ainsi que de nombreux champs d’activités.

La statistique au Canada

L’histoire de la statistique au Canada a débuté il y a plus de trois siècles. L’intendant Jean Talon fait le premier recensement systématique (par ex. le dénombrement exact d’une population) en Nouvelle-France en 1665-1666 pour le compte du roi Louis XIV. Les documents qu’il prépare pour la circonstance sont conservés aux Archives nationales du Canada à Ottawa. Le premier recensement pancanadien a lieu en 1871. Maintenant, c’est Statistique Canada, anciennement le Bureau fédéral de la statistique (fondé en 1918), qui recense la population.

Recensement de 1871
Deux pages du recensement de la population de 1871, le tout premier recensement national du Canada.

Quelques universités canadiennes (celles de la Colombie-Britannique, du Manitoba, de Toronto et de Waterloo, par exemple) ont des départements de statistique distincts. D’autres ont des départements conjoints ou continuent à enseigner la statistique dans les départements de mathématiques. Certains départements offrent aussi des cours de biostatistique (McGill, McMaster, de Toronto et Western, notamment). La statistique fait souvent partie du programme d’études des disciplines qui utilisent des techniques quantitatives (départements d’économie, écoles commerciales et unités d’enseignements des sciences physiques, sociales et biologiques).

La Société statistique du Canada (fondée en 1978) représente les statisticiens canadiens et publie la Revue canadienne de statistique. Elle tient des assemblées annuelles et élit des membres honoraires qui ont contribué de manière importante au domaine. Ces membres comptent C.H. Goulden qui, à partir d’un plan expérimental, est venu à bout du champignon baptisé « la rouille » sur les céréales et fut un des premiers auteurs à aborder le sujet en écrivant, en 1939, un important manuel intitulé Methods of Statistical Analysis.

Le gouvernement fédéral vient en aide à la science statistique par le biais du Conseil de recherches en sciences naturelles et en génie (fondé en 1958) et le gouvernement provincial du Québec, par le Fonds de recherche. La statistique canadienne occupe une place prépondérante sur la scène internationale. De nombreux pays invitent ses chercheurs et les statisticiens canadiens organisent de nombreuses rencontres internationales importantes.

Tendances récentes

Intelligence artificielle

Les avancées en technologie informatique depuis le milieu du 20e siècle ont donné lieu à de nouvelles applications de la statistique (voir Informatique). Les chercheurs sont maintenant en mesure d’analyser d’énormes quantités de données, de dégager des tendances dans ces données et de faire des prédictions en fonction des tendances. La climatologie, à titre d’exemple, utilise de grands ensembles de données pour prédire les changements de température moyenne mondiale et les effets des changements climatiques sur les calottes glaciaires (voir aussi Information sur le climat). Les applications actuelles des technologies de l’intelligence artificielle, comme l’apprentissage automatique, dépendent également de la collecte et de l’analyse de ce qu’on appelle des « mégadonnées », par exemple, dans la conception des véhicules autonomes.

La méta-analyse statistique est employée de plus en plus dans la recherche scientifique. Cette méthode combine les données de plusieurs études indépendantes pour aider les chercheurs à mieux comprendre les résultats. La méta-analyse est employée couramment dans la médecine, où on s’en sert pour tirer des conclusions sur l’efficacité de médicaments et d’autres interventions médicales.


Lecture supplémentaire

  • A.C. Atkinson and S.E. Fienberg, eds, A Celebration of Statistics (1985); R.A. Becker, J.M. Chambers and A.R. Wilks, The New S Language (1988); D. Freedman, R. Pisani, R. Purves and A. Adhikari, Statistics, Second Edition (1991); N. Lange et al, Case Studies in Biometry (1994); J.M. Tanur et al, eds, Statistics, A Guide to the Unknown, Third Edition (1989).

Liens externes