LA CURIEUSE LOI DE BENFORD OU UN MONDE PHYSIQUE AUTOSIMILAIRE
THIERRY ALHALEL
[email protected]
Résumé : On s’intéresse dans cet article au premier chiffre significatif d de grandeurs physiques telles que la densité, la solubilité ou la période radioactive des désintégrations β. Comme on va le voir, selon que ce chiffre est 1 ou 9, la probabilité de l’obtenir n’est pas la même. On tentera ensuite de donner une explication générale qui s’appliquera à l’ensemble du monde physique : l’autosimilarité.
I- Introduction : C’est Simon Newcomb qui observa, semble-t-il le premier au XIXieme siècle, que les tables de logarithmes utilisées couramment à l’époque étaient plus tachées et usées au début qu’à la fin. Cela impliquait que les nombres dont on prenait le logarithme présentaient plus souvent un premier chiffre significatif (first digit) petit (1 ou 2) que grand (8 ou 9). Cela est bien sûr très surprenant, car le gros bon sens voudrait une probabilité identique pour chaque valeur que ce soit 1 ou 7, soit p’ = 1 / 9 = 0,11111… quel que soit la valeur d du premier chiffre significatif. Plus étonnant encore, cette constatation s’applique [1] à de nombreuses données physiques, y compris par exemple la surface des îles du Pacifique, ou mieux encore les sommes portées sur les talons de chèques, et ce quelle que soit l’unité utilisée : pouces carrés, centimètres carrés pour les surfaces, francs ou euros pour l’argent. Dans les années 1930 Franck Benford proposa une loi empirique pour coller à cette curieuse observation. Si on note d la valeur du premier chiffre significatif, la probabilité p d’avoir d lors d’une lecture s’écrit :
p = log 10 (1 +
1 ) d
Cela donne le tableau des probabilités : d Benford Faux
1 0,301 0,111
2 0,176 0,111
3 0,124 0,111
4 0,0969 0,111
5 0,0791 0,111
6 0,0669 0,111
7 0,0579 0,111
8 0,0511 0,111
9 0,0457 0,111
Ce tableau montre qu’en moyenne il y a 47 % de chance de tomber au hasard sur d valant 1 ou 2, et 53 % de chance de tomber sur une valeur de d comprise entre 3 et 9 (inclus). On va montrer l’évidence de cette loi sur des exemples très différents, puis on tentera de donner une explication à un phénomène qui est bien plus qu’une curiosité. On étudiera successivement la période de désintégration radioactive β, la solubilité dans l’eau à 0 °C, la densité des corps organiques et inorganiques, et la succession des termes de la suite de Fibonacci.
1
II- Les désintégration β+ et β- : On donne dans le tableau 1 suivant le symbole X du nucléide, son nombre de masse A, sa période radioactive t1/2 exprimée en seconde, puis le premier chiffre significatif (1er ) correspondant : Tableau 1 : désintégration β+ dans 45 exemples X A t1/2 1er X A t1/2 1er X A t1/2 1er
I I 121 122 7560 210
I 124 3628 80 7 2 3 Sb Sn Sn 117 109 111 1008 1086 2100 0 1 1 2 Pd Pd Mo 99 101 88 1320 3024 1620 0 1 3 1
Xe 118 360
Xe 119 360
Xe Xe Te 120 123 115 2400 7560 360
Te Te 116 119 9000 5724 0 3 3 2 7 3 9 5 Ag Ag Ag Ag Cd Cd Cd 103 104 106 108 103 105 107 3960 4020 1440 145 600 3300 2340 0 3 4 1 1 6 3 2 Mo Mo Tc Tc Tc Ru Ru 89 91 92 93 94 93 95 420 929 264 9720 1758 50 6120 0 4 9 2 9 1 5 6
Sb 112 54
Sb 113 402
Sb 114 198
Sb Sb 115 116 1860 3600
5 Rh 97 1920
4 Rh 98 522
1 Zr 86 5940 0 5
5 Zr 81 600
1 Rh 99 1382 400 1 Zr 87 5760
6
5
1 Rh 100 7200 0 7 Nb 90 5256 0 5
3 Pd 98 1020 1 Sr 81 1746 1
Le tableau 2 récapitule la répartition chiffre par chiffre (ligne 1) du nombre d’occurrences (ligne 2), de la probabilité p (occurrence / total), et enfin de la comparaison à la loi logarithmique de Benford (ligne 4). On forme également le rapport (ligne 5) :
R=
p − p Benford p + p Benford
qui permet de comparer les résultats obtenus avec ceux attendus par la loi logarithmique. les 45 exemples comptés voient leur premier chiffre significatif se répartir comme suit dans le tableau 2 : Tableau 2 : 1er chiffre significatif d : résultats sur 45 exemples 1er chif. d= Occur Proba p Loi log R
1
2
3
4
5
6
7
8
9
Total
13 0.288 0.301 -0.022
5 0.111 0.176 -0.23
8 0.177 0.125 +0.17
3 0.0666 0.0969 -0.18
7 0.155 0.0792 +0.32
3 0.0666 0.0669 -0.0022
3 0.0666 0.0579 +0.067
0 0 0.0511 -1
3 0.0666 0.0457 +0.19
45 0,997 0,9997
Il apparaît clairement sur ces 45 exemples que la valeur du chiffre significatif d influe sur la valeur de la probabilité p. Cependant l’accord avec la loi de Benford :
p = log 10 (1 +
1 ) d
n’est qu’approximatif.
Il convient donc d’augmenter les cas étudiés. Il serait fastidieux de dresser un tableau complet des différents nucléides, on donne donc ci dessous les résultats portant sur 120 exemples issus de [2] :
2
Tableau 3 : 1er chiffre significatif d : résultats sur 120 exemples β+ 1er chif. d= Occur Proba p Loi log R
1
2
3
4
5
6
7
8
9
total
35 0.292 0.301 -0.015
22 0.183 0.176 +0.019
16 0.133 0.125 +0.031
10 0.083 0.0969 -0.077
12 0.1 0.0792 +0.11
10 0.083 0.0669 +0.11
4 0.033 0.0579 -0.27
3 0.025 0.0511 -0.34
8 0.066 0.0457 +0.18
120 0,998 0,9997 -0,028
L’accord entre la loi de Benford et ces 120 exemples semble assez bon sur les chiffres significatifs 1 2 3 et comme on le visualiser sur le haut de la figure 1, qui compare chiffre à chiffre la probabilité p théorique selon la loi de Benford (barre pleine) à la probabilité obtenue expérimentalement (cercles). Figure 1 : Loi de Benford : désintégration β desintegration beta+ : 120 exemples 0.4 0.3 0.2 0.1 0
1
2
3
4
5
6
7
8
9
8
9
desintegration beta+ et - : 392 exemples 0.4 0.3 0.2 0.1 0
1
2
3
4
5
6
7
Si les 3 premiers cas (1 2 et 3) correspondent bien à la loi logarithmique, le désaccord sur les valeurs suivantes de p est certainement lié au peu de valeurs obtenues pour 4 et au delà (de l’ordre de la dizaine), ce qui induit forcément des écarts à la loi de Benford. De façon à multiplier les exemples, on peut confondre radioactivités β+ et β-, et porter l’échantillon étudié à 392 cas. Les résultats se trouvent dans le tableau 4 et sont toujours issus de [2] :
3
Tableau 4 : 1er chiffre significatif : résultats sur 392 exemples 1er chif. d= Occur Proba p Loi log R
1
2
3
4
5
6
7
8
9
total
112 0.285 0.301 -0.027
56 0.143 0.176 -0.10
58 0.147 0.125 +0.080
35 0.0892 0.0969 -0.041
37 0.0943 0.0792 +0.087
35 0.0982 0.0669 +0.19
18 0.0459 0.0579 -0.11
20 0.0510 0.0511 -0.098
21 0.0535 0.0457 +0.078
392 1,007 0,9997 0,0065
Comme le montre le bas de la figure 1, il y a clairement une corrélation entre la valeur numérique du premier chiffre significatif et le nombre de fois où il apparaît sur les 392 cas pris au hasard dans les tables de [2]. La correspondance n’est pas parfaite bien sûr, il conviendrait d’avoir un échantillon plus grand (ce que l’on fera dans un cas particulier au paragraphe V). On peut cependant être intrigué par ce résultat et voir si on a un comportement semblable pour d’autres données physiques. On peut aussi observer les valeurs de R entre les tableaux 3 et 4 : le nombre de cas étudiés diminue les écarts entre les observations et la loi de Benford. La valeur de R dans la colonne total est la moyenne des valeurs de R de d= 1 jusqu’à d=9. III- La solubilité des solutés dans l’eau froide ( à 0 °C) : Cette deuxième série de données est toujours issue de [2]. Il s’agit de la solubilité s de divers solutés inorganiques, dans l’eau à 0 °C, exprimée en grammes pour 100 cm3 d’eau. Donnons juste un exemple : le sulfate de rubidium RbSO4 : s = 9,3 g / 100 cm3 On trouve dans le tableau 5 les résultats condensés, du chiffre significatif d= 1 au chiffre significatif 9 : Tableau 5 : 1er chiffe significatif : résultats synthétiques concernant la solubilité s pour 207 cas 1er chif. d= Occur Proba p Loi log R
1
2
3
4
5
6
7
8
9
total
62 0.299 0.301 -0.0033
34 0.164 0.176 -0.035
30 0.145 0.125 +0.074
22 0.106 0.0969 +0.045
21 0.101 0.0792 +0.12
13 0.0628 0.0669 -0.032
8 0.0386 0.0579 -0.2
11 0.0531 0.0511 +0.019
6 0.0289 0.0457 -0.22
207
Là encore les résultats expérimentaux et ceux issus de la loi de Benford sont compatibles, le total de cas étudiés étant très semblables au cas de la désintégration β+. On peut visualiser ces résultats sur la figure 2, où la loi de Benford est donnée par les barres et les résultats issus des tables sont représentés, pour chaque chiffre significatif, par un petit cercle. Comme précédemment la comparaison est assez bonne pour les 1er chiffres significatifs 1 et 2, moins bonne pour les suivants (toujours par manque de statistique).
4
Figure 2 : la solubilité s
solubilite s dans l eau froide : 207 exemples 0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9
IV- Densité des corps organiques et inorganiques : On a trouve ici un total de 635 valeurs, ce qui donne le tableau de résultats suivant : Tableau 6 : 1er chiffre significatif : densité d 1er chif. d= Occur Proba p Loi log R
1
2
3
4
5
6
7
8
9
total
195 0.307 0.301 +0.0099
140 0.220 0.176 +0.11
90 0.141 0.125 +0.060
52 0.082 0.0969 -0.083
36 0.0566 0.0792 -0.16
30 0.0472 0.0669 -0.17
17 0.0267 0.0579 -0.37
27 0.0425 0.0511 -0.092
48 0.0755 0.0457 +0.25
635 0,9985 0,9997
La figure 3 montre la comparaison entre la loi de Benford et les résultats sur la densité d. Il y a à nouveau corrélation, bien qu’imparfaite ( on peut cependant s’interroger ici sur le biais éventuellement introduit en observant la surreprésentation du 9 et la sous représentation des valeurs intermédiaires 5,6,7).
5
Figure 3 : la densité d des corps organiques et inorganiques
densité des corps organiques et inorganiques : 635 exemples 0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
1
2
3
4
5
6
7
8
9
Si il apparaît clairement, sur tous les exemples précédents, une relation entre la valeur du 1er chiffre significatif et le nombre de fois où il intervient, il est nécessaire avant de continuer de disposer d’une statistique plus importante sur un exemple que l’on facilement obtenir à partir d’un petit programme. Pour cela on va étudier la suite de Fibonacci.
V- La reproduction des lapins ou la suite de Fibonacci On raconte que Leonardo Fibonacci, au XIIIieme siècle, s’intéressa à la reproduction des lapins, selon un schéma de croissance bien connu : le premier mois on dispose d’un couple impubère I, le deuxième mois ce couple est devenu pubère P, le 3ieme mois P a engendré un couple impubère I (on dispose donc de I et P), le 4ieme mois on a PIP ….. On sait que ce mécanisme est régi par la suite récurrente de Fibonacci, ce qui s’écrit avec des notations modernes :
u n + 2 = u n +1 + u n avec les conditions initiales : u1 = 1 et u2 =1 ce qui donne à chaque mois le nombre de couples ( I et P confondus) : 1,1 ,2 , 3 ,5 ,8 ,13 ,21….. La question que l’on se pose maintenant est la suivante : comment se répartit le premier chiffre de chaque nombre de Fibonacci entre 1 et 9 au fur et à mesure de la croissance de la suite ? Evidemment, cette suite croissant très vite, il est nécessaire d’utiliser un logiciel de calcul comme Mathematica® pour pouvoir analyser les résultats, sur des termes comportant des centaines de chiffres. On donne dans le tableau ci-après les résultats pour les termes de la suite jusqu’au : 202 ieme, 1002 ieme, 5002ieme, 10002 ieme, 20002 ieme et enfin 30002 ieme terme. A titre indicatif le 30002 ieme terme de la suite de Fibonacci est tel que son logarithme décimal est de l’ordre de 6269, c'est-à-dire qu’il s’agit d’un nombre comportant quelques 6269 chiffres !
6
Tableau 7 : répartition du 1er chiffre pour la suite de Fibonacci Chaque colonne donne la répartition du 1er chiffre significatif (entre 1 et 9) , pour un total de termes évalués du premier jusqu’à Nombre.
1er chiffre d : 1 2 3 4 5 6 7 8 9 Total
Nombre : 202
Nombre : 1002
Nombre : 5002
Nombre : 10002
Nombre : 20002
Nombre : 30002
60 36 25 19 17 12 12 12 9 202
302 177 125 96 80 67 57 53 45 1002
1506 882 625 483 397 334 290 257 228 5002
3011 (30,1) 1762 (17,6) 1250 (12,4) 968 (9,68) 793 (7,93) 668 (6,68) 580 (5,79) 514 (5,14) 456 (4,55) 10002 (99,9)
6020 3523 2499 1938 1584 1339 1159 1025 915 20002
9032 5284 3748 2908 2375 2009 1739 1535 1372 30002
(29,7) (17,8) (12,3) (9,40) (8,41) (5,94) (5,94) (5,94) (4,45) (99,9)
(30,1) (17,6) (12,5) (9,69) (7,91) (6,69) (5,79) (5,11) (4,57) (99,9)
Ainsi par exemple sur les 202 premiers termes de la suite, on trouve 60 fois le 1er chiffre 1 et 9 fois seulement le premier chiffre 9. Il apparaît clairement que la suite de Fibonacci suit une répartition de type Benford (dans le tableau on trouve entre parenthèses le % de répartition). Plus le nombre de termes étudiés est important plus on se rapproche de la loi de Benford idéale. En comparant les 2 graphes de la figure 4 on constate que plus on augmente le nombre de termes plus on suit fidèlement la loi de Benford (les cercles sont les points « expérimentaux ») : 202 termes en haut, 30002 termes en bas. Pour 30002 termes la correspondance est parfaite. Figure 4 : suite de Fibonacci ( cercles) et loi de Benford (barres) suite récurrente de Fibonacci : 202 termes 0.4 0.3 0.2 0.1 0
1
2
3
4
5
6
7
8
9
suite récurrente de Fibonacci : 30002 termes 0.4 0.3 0.2 0.1 0
1
2
3
4
5
6
7
7
8
9
VI- une tentative d’explication : l’invariance d’échelle On donne dans ce paragraphe une explication qui est celle proposée par J. Havil [3] : l’invariance d’échelle. On définit la probabilité P qu’une variable aléatoire continue X ait une valeur comprise entre les valeurs x0 (fixée) et x (variable) :
x
F ( x) − F ( x 0 ) = P( x 0 < X < x) =
∫ f (t )dt x0
On a donc la relation entre la fonction F et la densité de probabilité f :
f ( x) =
dF ( x) dx
On fait désormais l’hypothèse que la variable aléatoire X est invariante d’échelle, c'est-à-dire que P reste inchangée après multiplication par un facteur d’échelle 1/a quelconque :
1 P ( x 0 < X < x) = P ( x 0 < . X < x) = P (a.x 0 < X < a.x) a ce qui donne en terme de fonction F et f :
F (a.x) − F (a.x 0 ) = F ( x) − F ( x 0 ) soit pour tout facteur a différent de 0 :
F (a.x) = F ( x) + cons tan te(a ) d’où en dérivant par rapport à x :
a. f (a.x) = f ( x) f (a.x) =
1 f ( x) a
On introduit désormais la variable aléatoire logarithmique Y =log10X, ce qui permet d’écrire, à l’aide des fonctions G et g définies de façon similaire à Fet f:
G ( y ) − G ( y 0 ) = P( y 0 < Y < y ) = P(10 y0 < X < 10 y ) = F (10 y ) − F (10 y0 ) G ( y ) − G ( y 0 ) = F ( x) − F ( x 0 )
8
En différentiant par rapport à y on trouve :
g ( y) =
dG dF dF dx = = . = f ( x).x. ln 10 = g (log 10 x) dy dy dx dy
L’invariance d’échelle implique alors :
g (log10 a.x) = (a.x). f (a.x). ln 10 = (a.x).
1 f ( x). ln 10 = x. f ( x). ln 10 = g (log10 x) a
C'est-à-dire encore :
g ( y + log 10 a ) = g ( y ) Comme a est un facteur d’échelle quelconque, g est identique à lui-même quel que soit l’intervalle choisi, ce qui implique que g est en fait une densité de probabilité constante. Dès lors, pour toute grandeur physique s’écrivant β.10n (avec 1 ≤ β < 10 ), on peut utiliser m l’invariance d’échelle sur la grandeur β, avec un facteur multiplicatif 10 . Ainsi l’invariance d’échelle implique que βest inchangé, seule la puissance de 10 est altérée. La variable aléatoire y = log10β aura donc une densité de probabilité g constante sur l’intervalle [0,1], puisque 1 ≤ β < 10 , c'est-à-dire que 0 ≤ log10 β <1.
Avec une valeur normalisée on trouve : 1
1
∫ g (t )dt = 1 = g ∫ dt 0
0
soit g=1 sur l’intervalle [0,1]
On peut calculer alors la probabilité que le premier chiffre significatif d vaille m ( d prenant ses valeurs entre m = 1 et m = 9 inclus) :
P(d = m) = P(m ≤ x < m + 1) = P(log 10 m ≤ log 10 x < log 10 (m + 1)) = P(log 10 m ≤ y < log 10 (m + 1)) log( m +1)
P ( d = m) =
∫ g.dy log m
soit finalement :
P (d = m) = log 10 (m + 1) − log 10 (m) P (d = m) = log 10 (1 +
1 ) m
On retrouve ainsi la loi empirique de Benford.
9
VII- Et le deuxième chiffre significatif ? Il est possible désormais de se demander quelle est la probabilité associée à chaque valeur possible du deuxième chiffre significatif d2 d’une grandeur physique. En utilisant les probabilités conditionnelles on peut calculer P pour que d2 = m2 sachant que d1 ( le premier chiffre significatif) est égal à m1 : On a nécessairement ( en notation scientifique) 10 ≤ d1d2 < 100, et si d1 prend ses valeurs entre 1 et 9, d2 lui peut prendre toutes les valeurs entières entre 0 et 9 inclus.
P (d 1 = m1 , d 2 = m 2 ) = log 10 (1 +
1 ) m1 m 2
En sommant sur toutes les valeurs de m1 on trouve alors la probabilité que d2= m2 quel que soit d1 :
P(d 2 = m 2 ) =
m1= 9
∑ log
m1=1
10
(1 +
1 ) m1 m 2
ce qui donne le tableau suivant :
d2 P
0 0,1197
1 0,1139
2 0,1088
3 0,1043
4 0,1003
5 0,09667
6 0,09337
7 0,09035
8 0,08757
9 0,0850
Il est clair que l’invariance d’échelle est moins facile à mettre en évidence sur le second chiffre significatif que sur le premier.
VII- Conclusion : Ces quelques exemples montrent, à l’évidence, que la répartition statistique du premier chiffre significatif dépend de sa valeur d. Selon la loi de Benford :
p = log 10 (1 +
1 ) d
la probabilité p de l’obtenir décroît à mesure que la valeur de d croît. De très nombreuses grandeurs physiques semblent suivre cette loi. On peut l’interpréter en disant que les phénomènes qui ressortissent de ces grandeurs sont autosimilaires, c'est-à-dire invariants d’échelle. On retrouve ici un comportement naturel classique, lié à la notion de fractales [4]. On peut définir une fractale comme une courbe qui n’est jamais lisse, c'est-à-dire que quel que soit le grossissement adopté, on retrouve des détails identiques à l’échelle initiale. Pensons par exemple à un simple chou-fleur : il présente un caractère autosimilaire, de l’ensemble jusqu’à une petite branche. Il faut inviter le lecteur à faire ses propres essais à partir d’autres données. Il convient juste d’éviter les grandeurs biaisées, telles que dates de naissance ou notes d’élèves. Par contre les taux de change, les points d’ébullition, les surfaces de départements, les masses de particules élémentaires, les chaleurs spécifiques ….sont de bonnes grandeurs test. Terminons en disant que l’on dispose ici d’une méthode potentiellement capable de détecter les fraudes financières par exemple : statistiquement on s’attend à ce que les mouvements d’argent d’une société suivent la loi de Benford. Tout écart significatif doit alors impliquer une fraude patente.
10
VIII- bibliographie : [1] : L’univers des nombres Ian Stewart Belin pour la science 2000, Paris Les données physiques de cet article sont issues de : [2] : Handbook of chemistry and physics 64th edition CRC press Inc. 1984 Boca Raton Florida concernant l’autosimilarité on pourra consulter : [3] : Gamma : Exploring Euler’s constant Julian Havil Princeton University Press 2003, Princeton Sur la suite de Fibonacci et les fractales on peut se reporter à : [4] : Universalités et fractales Bernard Sapoval Champs Flammarion 1997, Paris
11