Petits riens de science

samedi 22 mars 2025

Le petit neurone et la règle d'écolier

Neurone de souris imagé avec un microscope à feuille de lumière

Règle pleine Inox non graduée 500mm – Facom

Résumé : Nous présentons dans un cas élémentaire ce qu’est un classifieur linéaire et détaillons son analogie avec un neurone.

Tout ce qui figure dans cet article est bien connu de tout informaticien. Il semble néanmoins utile que tout citoyen puisse s’approprier le contenu avec des mathématiques de niveau collège, afin de dissiper des interprétations irrationnelles et ainsi de mieux éclairer le débat public sur l'IA.

Problématique : la classification linéaire

La classification linéaire consiste à séparer deux ensembles dans un plan par une droite, ou dans l’espace usuel par un plan, ou plus généralement par un hyperplan dans un espace vectoriel de dimension quelconque. La classification est dite supervisée si un dispositif indique pour chaque exemple d’apprentissage si la réponse donnée par l’apprenant est exacte ou fausse. Il existe d’autres méthodes d’apprentissage qui sont non supervisées, comme le clustering. Dans ce cas, l’algorithme d’apprentissage doit classer lui-même les données par paquets (cluster signifie grappe) en fonction de critères de « ressemblance » (proximité, caractéristiques). D'autre part il existe des classifieurs non linéaires, qui séparent par des courbes. La classification considérée ici ne sépare les échantillons que dans deux classes (les deux demi-espaces séparés par l’hyperplan), toutefois en en combinant un grand nombre on parvient à faire des classifications complexes, c’est l’idée de base de l’apprentissage profond.

La notion d’apprentissage supervisé est connue des pédagogues et psychologues depuis longtemps.

Pour apprendre à un enfant à reconnaître les chiffres et les lettres, on lui présente au fil du temps de nombreux exemples d’écritures de chacun d’eux, en les répétant de manière espacée autant de fois qu’il le faut, en l’interrogeant et en lui indiquant chaque fois si sa réponse est bonne ou non. Il s’agit là d’un apprentissage supervisé par le maître ou par les parents. A force de répétitions, l’enfant sait reconnaître les signes. Evidemment, cela ne l’empêchera pas toute sa vie de prendre un 0 mal bouclé pour un 9. Il s’agit de réussir l’apprentissage sur en ensemble d’exemples statistiquement représentatifs de l’écriture de chaque chiffre ou lettre. C’est pourquoi on parle d’apprentissage statistique. Toutefois ici nous ne nous intéressons qu’à la réussite de l’apprentissage sur des ensembles donnés (et finis) d’exemples et n’évoquons pas ces aspects statistiques.

Le protocole est le même pour une machine dotée de capacités d’apprentissage supervisé. Pour l’exemple historique du Perceptron, rappelons qu’une donnée est un ensemble de lampes allumées sur un tableau de 20 lignes de 20 ampoules, c’est-à-dire qu’une donnée possède 400 paramètres qui sont les valeurs des pixels (allumé ou éteint).

Actuellement les données manipulées peuvent avoir des milliards de paramètres et se compter elles mêmes par milliards. La problématique des classifieurs est née en même temps que les machines capables de traiter des masses de données, car auparavant on était très limité dans ce que l’on pouvait faire à la main !

Le neurone

Le web fourmille d’introductions aux neurones biologiques tout comme aux neurones formels. Aussi nos présentations seront-elles minimalistes. Pour la simplicité, nous considérons ici des neurones à deux synapses , alors que les neurones biologiques en ont des centaines et les neurones formels des millions.

Le modèle décrit par Pitts et McCulloch en 1943¹ demeure une approximation valide de l’anatomie et de la physiologie d’un neurone cortical, bien que les phénomènes électrochimiques qui régulent les transmissions d’information au niveau des synapses s’avèrent fort complexes.

Considérons le neurone en noir sur le schéma, relié en entrée à deux neurones (en gris à gauche) par ses deux synapses (points noirs) qui reçoivent les impulsions x₁ et x₂ transmises par les axones des deux neurones de gauche. Chaque synapse possède une valeur w, appelée coefficient synaptique, qui peut varier en cours d’apprentissage, tout comme le seuil s. Une synapse est inhibitrice si son coefficient est bas, excitatrice si il est élevé. Dans ce modèle simple, dit binaire, les valeurs de x et y sont 0 (pas d’impulsion) ou 1 (impulsion). Le noyau est représenté par le cercle noir. Si w₁x₁ +w₂x₂ dépasse le seuil s, le neurone envoie une impulsion par son axone aux neurones en gris à droite, ce que l’on note y=1 (wx désigne le produit des deux valeurs w et x). Si le seuil n’est pas dépassé, le neurone n’envoie pas d’impulsion, ce que l’on note y=0.

Ceci s’écrit

si w₁x₁ +w₂x₂ > s alors y =1

si w₁x₁ +w₂x₂ ≤ s alors y = 0

La règle d’écolier

Imaginons nous en maternelle. Traçons quelques points et quelques croix sur une feuille (le point B et les croix A1 et A2 sur la figure). Donnons la feuille, une règle et un crayon à un enfant et demandons lui de tracer une droite séparant les points et les croix. L’enfant, en phase d’apprentissage psycho moteur, va tâtonner pour placer sa règle. L’oeil lui indique si la position convient ou non. Il va finir par tracer un trait d’autant plus vite que l’écart est grand entre les bleus et les rouges. Si la séparation n’est pas possible, l’enfant risque de s’énerver ou d’être désorienté.

Passons au collège. Tout le monde se souvient de « y = ax + b », équation d’une droite que l’on s’appliquait à tracer la règle.

La droite partage le plan en deux parties : les points au dessus et les points au dessous, comme la règle qui l’a tracée sépare la feuille en deux. Il s’agit d’un séparateur linéaire, linéaire précisant que la séparation du plan en deux parties se fait par une ligne droite.

Autrement dit

(D) Soit la droite d’équation y = ax + b
Pour tout point de coordonnées (x,y)
Si y > ax + b alors le point (x,y) est au dessus de la droite
Si y < ax + b alors le point (x,y) est au dessous de la droite
(figure de gauche sur le schéma)

A gauche: La droite y = ax+b tracée à la règle par le collégien sépare le plan en deux.

A droite: Si l’on étend les valeurs de x1 et x2 à des nombres quelconques, le neurone de coefficients synaptiques w1 et w2 et de seuil s sépare en deux le plan : il envoie une impulsion seulement pour les entrées représentées par les points au dessus la droite.

A l’école, on a l’habitude de noter x l’abscisse, représentée horizontalement, et y l’ordonnée, représentée verticalement. La notation ainsi adoptée est plus simple que celle à droite, où sont utilisés des indices, mais elle ne se généralise pas aux grandes dimensions. La notation à droite est préférée des mathématiciens car dans la pratique, on considère des espaces de représentation de dimensions se chiffrant en millions. En outre, la représentation scolaire a le défaut de ne pas convenir pour le cas particulier d’une droite verticale, qu’il faut écrire x= c. En contrepartie, dans la notation mathématique, l’écriture est définie à une constante multiplicative près, mais on s’en accommode très bien (par exemple 2x₁ +3x₂ = 1 et 4x₁ +6x₂ =2 représentent la même droite).

La loi d’apprentissage de Hebb ²

La loi de Hebb porte sur l’apprentissage d’un neurone par variation de ses coefficients synaptiques. Elle stipule que si deux neurones partageant une synapse (en sortie de l’un et en entrée de l’autre) produisent conjointement une décharge, le coefficient synaptique est renforcé (excitation). Très vite les chercheurs on ajouté une règle complémentaire, non explicite chez Hebb : si le premier neurone produit une décharge vers le second sans que celui-ci en produise une, le coefficient synaptique qui les lie est affaibli (inhibition). Il est très difficile de vérifier cette loi expérimentalement du fait que dans un système nerveux un neurone est connecté à une foultitude d’autres et noyé dans des réseaux complexes. Cette loi a néanmoins été confirmée sur des espèces possédant un système nerveux rudimentaire³. L’application de la loi de Hebb revient à ajuster les coefficients synaptiques au fil des données d’apprentissage, afin d’obtenir à la longue des réponses correctes (autrement dit, on vise à ce que la loi soit vérifiée pour toute situation d’apprentissage réussi, qui est alors une situation stable⁴ (les coefficients ne changent plus).

Si le but de l’apprentissage est que y=1 pour tout exemple d’un ensemble A et que y=0 pour tout exemple d’un ensemble B, ceci revient à poser, pour tout synapse i du neurone, en notant w_ison coefficient synaptique

Si, pour un exemple de A, x_i = 1 et y =0 alors augmenter w_i
Si, pour pour un exemple de B, x_i= 1 et y =1 alors diminuer w_i
Sinon, pour l’exemple considéré, ne pas changer w_i

Pour le cas historique du Perceptron où les x_ivalent 0 ou 1, et où les coefficients synaptiques évoluent de ± 1, ceci est réalisé par

algorithme du Perceptron

Si, pour un exemple de A, y =0 alors augmenter w_ide x_i

Si, pour pour un exemple de B, y =1 alors diminuer w_i de x_i

Les exemples sont présentés dans un ordre quelconque et représentés ultérieurement tant que A et B ne sont pas séparés.

Le théorème de convergence permet de calculer le nombre de présentations d’exemples à partir duquel si A et B ne sont pas séparés, c’est qu’ils ne sont pas séparables (voir l’article suivant "Le théorème de convergence du Perceptron").

Il est mathématiquement commode de considérer le seuil comme un coefficient synaptique particulier qui évolue selon la même loi que les autres, en lui attribuant une excitation constante valant 1⁵, ce qui revient à ajouter une coordonnée de valeur fixe 1 à chaque donnée (en général on la place en premier). Ainsi, dans le cas de 2 synapses, w₁x₁ +w₂x₂ > s est transformé en w₀x₀ + w₁x₁ +w₂x₂ >0 avec x₀=1 et w₀ = -s.

L’exemple suivant illustre avec ces notations l’algorithme du Perceptron pour x₁et x₂ prenant des valeurs réelles. Il consiste à faire apprendre à un neurone à deux entrées à séparer par une droite deux ensembles de points du plan qui sont les exemples d’apprentissage.

On cherche à séparer l’ensemble A constitué de deux points A1 (2,-1) et A2 (2,3) de l’ensemble B contenant le seul point B (0,0), avec A au dessus de la droite (réponse y = 1) et B au dessous (réponse y = 0). Avec les conventions ci-dessus pour le seuil, les coordonnées des trois points deviennent A1* (1,2,-1), A2* (1,-2,3) et B* (1,0,0).

Figure : On choisit de partir de la droite D0 (1,1,1), c’est-à-dire d’équation 1 + x + y = 0 (en pointillés bleus) et on aboutit à la droite D12 (-1,3,4) c’est-à-dire d’équation -1 + 3x + 4y = 0 (en rouge). Figure réalisée avec GeoGebra.

Pour A1 on obtient w₀x₀ + w₁x₁ +w₂x₂ = 2 >0, la réponse est correcte et les coefficients ne sont pas modifiés.

Pour B l’expression vaut 1 donc la réponse y vaut 1 et est incorrecte, la loi de Hebb donne pour nouveau coefficients (0,1,1).

En écrivant la liste des exemples présentés à l’apprentissage et en précisant la nouvelle valeur des coefficients après chaque réponse incorrecte, en partant de (1,1,1) représenté par D0 sur la figure, on obtient

A1* ; B* (0,1,1) ; A2* ; B* (-1,1,1) ; A2* (0,-1,4) ; B* (-1,-1,4) ; A1* (0,1,3) ; B* (-1,1,3) ; A2* ; B*; A1* (0,3,2) ; B* (-1,3,2) ; A2* (0,1,5) : B* (-1,1,5) ; A1* (0,3,4) ; B* (-1,3,4) ; A2* ; B* ; A1*

qui se lit « réponse correcte à A1*, pas de changement ; réponse erronée à B*, on obtient la droite D1 (0,1,1) c’est-à-dire x+y = 0 » et ainsi de suite. Les 11 valeurs intermédiaires sont représentées par les droites D1 à D11 en pointillés gris.

L’apprentissage est réussi et s’arrête puisque la réponse est correcte pour chaque exemple. Le résultat obtenu (-1,3,4) représente la droite D12 -1 +3x + 4y= 0 soit encore y= - 0.75 x + 0.25 (en rouge sur la figure).

Un exemple simple de non séparabilité linéaire

Considérons les quatre sommets S, T, U et V d’un carré, où S et U d’une part et T et V d’autre part sont opposés. Rien de plus évident que de constater que les deux ensembles A = {S, U} et B = {T, V} ne sont pas séparables par une droite. Ce simple constat contribua à l’hiver de l’IM⁶ connexionniste, celle des réseaux de neurones formels. Cela semble difficile à croire à la lecture de cet article, mais il a fallu une vingtaine d’années pour sortir par les mathématiques des passions, des confusions et des polémiques suscitées par le Perceptron. A cet époque les capacités du Perceptron n ‘étaient pas formalisées et étaient loin d’être claires. Voir « L’affaire du Perceptron ».

L’exemple que nous avons donné sous forme de sommets d’un carré est historiquement connu sous le nom de non séparabilité du XOR. Le XOR, abréviation anglaise du OU EXCLUSIF, est la fonction logique de deux arguments qui vaut VRAI si un seul de ses arguments vaut VRAI, et qui vaut FAUX si l’un des arguments vaut VRAI et l’autre FAUX. Il est facile de passer de l’une à l’autre formulation.

Généralisation : le théorème de convergence du Perceptron

Dans l’exemple de cet article, les ensembles A et B étaient séparables par une droite et l’algorithme d’apprentissage a permis d’en trouver une, sans que nous ayons ici démontré pourquoi.

L’observation sur la figure des positions successives des droites D0 à D12 est déroutante, malgré la grande simplicité de l’exemple. Leur évolution évoque plus les mouvements erratiques d’une mouche autour d’un pot de confiture que le fait de se rapprocher d’une solution, puisque les droites changent de directions, tantôt se rapprochent tantôt s’éloignent de la position finale. En un mot, le comportement semble incompréhensible. Et pourtant, les mathématiques centenaires de l’algèbre linéaire élucident complètement le sujet par le théorème du Perceptron.

Si A et B ne sont pas séparables, l’algorithme risque de tourner indéfiniment à la recherche d’une droite séparatrice alors qu’il n’en existe pas. Il se pose alors la question de savoir quand arrêter, et avec quelle conclusion. Le théorème de convergence du Perceptron résout là aussi complètement cette question en permettant de calculer, à partir des ensembles A et B d’exemples, un maximum de pas⁷ à effectuer, à l’issue desquels si l’algorithme n’a pas trouvé de séparateur c’est qu’il n’y en a pas.

Qui plus est le théorème est établi pour des conditions tout à fait générales : les données peuvent être prises dans un espace de dimension quelconque (ici c’était 2), avec des coordonnées de valeur réelle quelconques (ici c’était -1 ou +1) et avec des amplitude de renforcement ou d’affaiblissement des coefficients synaptiques de valeur quelconque (ici c’était 1). Cette dernière généralisation renforce la pertinence de la loi de Hebb, qui est qualitative et ne dit rien de cette amplitude des termes correctifs des coefficients synaptiques.

La clarification de ce théorème de convergence prit plusieurs années et mit fin aux controverses liées au Perceptron. Dans les réseaux du Deep Learning actuels, le fait d'avoir plusieurs couches de neurones ne permet pas d'appliquer la loi de Hebb, et il n'existe pas joli théorème de convergence comme ici. L'algorithme dit "de rétropropagation du gradient" inventé pour l'apprentissage profond permet alors de faire évoluer par apprentissage les coefficients synpatiques avec le succès que l'on sait, mais ceci se réalise en partie par de l'ingénierie qui fixe à tâtons l'architecture du réseau afin d'obtenir souvent de bon résultats, sans que l'on ait en cela aucune certitude d'optimalité.

_______________________

1McCulloch, W. S., Pitts, W., A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, vol. 5, pp. 115-133, 1943

2The organization of behavior; a neuropsychological theory, Hebb, D. O. (Donald Olding), New York, Wiley, 1949. Si le nom de Hebb est resté attaché à l’énoncé de cette loi, comme souvent en sciences il ne fut pas le seul parmi les psychologues à en émettre l’idée, et certains contestent cette paternité.

3Eric Kandel, prix Nobel de médecine 2000 et ses collaborateurs ont mis en évidence l’implication du mécanisme de renforcement de Hebb dans les synapses du gastropode marin Aplysia californica, plus connu sous le nom de lièvre des mers.

4La notion de stabilité est fondamentale dans tous les modèles physiques et biologiques.

5Cela évite également le cas particulier où toutes les coordonnées d’une donnée sont nulles.

6Au chapitre précédent, nous avons convenu d’utiliser le terme d’intelligence machine pour désigner l’IA.

7Un pas est l’application de l’algorithme sur un exemple de A ou de B.

Le théorème de convergence du Perceptron

Cours de Stéphane Mallat au Collège de France

leçon « Les origines : la cybernétique et le perceptron » (capture d'écran)

Résumé : Cet article démontre une version du théorème qui élucide complètement les capacités d’apprentissage d’un neurone formel muni de la loi de Hebb. Seul article technique de ce blog, il vise à démystifier les IM en mettant à plat par les mathématiques le cas historique du Perceptron qui en son temps fit couler beaucoup d’encre et nourrit beaucoup de fantasmes, comme c’est malheureusement encore le cas actuellement pour ses successeurs.

Tous les étudiants en informatique connaissent sous une forme ou sous une autre ce théorème, qui est un « bien commun » qu’il est difficile d’attribuer à un auteur particulier. La compréhension de la présente version ne requière que des connaissances de bases sur les espaces euclidiens.

Notations

Soit un espace vectoriel euclidien de dimension n. H.X désigne le produit scalaire des deux vecteurs H et X, et |X| la norme de X.

Un hyperplan H (c’est-à-dire un sous-espace de dimension n-1) peut être défini comme l’ensemble des vecteurs orthogonaux à un vecteur H donné, c’est-à-dire comme l’ensemble des vecteurs X tels que H.X = 0. On peut toujours supposer que H est unitaire (i.e. |H| = 1), ce que nous ferons dans la suite. Selon le contexte, H dénote un vecteur ou l’hyperplan orthogonal qu’il définit.

H partage l’espace en deux : d’un côté les vecteurs X tels que H.X > 0 et de l’autre ceux tels que H.X < 0.

Séparabilité

Deux ensembles A et B sont dits linéairement séparables si il existe un hyperplan H tel que H.X > 0 pour tout X d'un de ces ensembles, et H.X < 0 pour tout X de l'autre ensemble. La séparabilité est ici définie au sens strict.

Si H sépare A et B, comme A et B sont finis, la plus petite valeur absolue D des H.X/|H| pour X dans A ou B est strictement positive. On dit alors que A et B sont D-séparables. D représente la distance minimale des éléments de A et B à l’hyperplan H.

Versions affine¹ et vectorielle du problème de séparabilité

La séparabilité est mathématiquement plus commode à traiter dans le cadre vectoriel, mais on s’en forge une intuition à partir de la représentation de points dans l’espace usuel, celui du collégien considéré au chapitre précédent. Il est donc souhaitable de faire le lien entre les deux formalisations.

Le problème général de séparation linéaire est de séparer par un hyper-plan deux ensembles finis A et B de données à n paramètres réels. Une donnée X = (x₁,…,x_n) peut être considérée comme un vecteur d’un espace vectoriel ou comme un point d’un espace affine. Dans ce dernier cas on se ramène à un problème vectoriel en dimension n+1 comme suit :

A toute donnée X on associe la donnée vectorielle X*= (1,x₁,..x_n). Les ensembles A* et B* sont séparables par l’hyperplan vectoriel H* = (w₀,w₁,…, w_n) si et seulement si A et B sont séparables par l’hyperplan affine intersection des hyperplans H* et (x₀ = 1), qui est défini par w₀+w₁x₁+...+w_nx_n=0.

C’est ce que nous faisons dans l’article précédent : partant des points A1 (2,-1), A2 (-2,3) et B (0,0), nous considérons les vecteurs A1* (1,2,-1), A2* (1,-2,3) et B* (1,0,0) ; nous obtenons le plan vectoriel séparateur (-1,3,4) dont l’intersection avec le plan affine (x₀=1) donne la droite affine D12 ( -1 +3x + 4y= 0).

Fonction d’erreur du Perceptron

Soit deux ensembles finis A et B.

On se donne une fonction erreur²(W,X) et deux réels emin et emax tels que

pour tout hyperplan W et toute donnée X de {A,B}³

0 < emin ≤ |erreur(W,X)| ≤ emax

pour tout hyperplan W et tout point X

si X appartient à A et W.X > 0 ou si X appartient à B et W.X <0

alors erreur (W,X) =0

si X appartient à A et W.X <= 0 alors erreur (W,X) < 0

si X appartient à B et W.X >= 0 alors erreur (W,X) > 0⁴

Bon tirage des échantillons

Lors de l’apprentissage on peut tirer aléatoirement les données d’apprentissage {A, B}, à un détail près. A tout moment il faut être certain que chaque élément sera à nouveau tiré, sinon on ne peut pas tester la correction de l’algorithme sur cet échantillon, nous dirons alors que c’est un bon tirage. Un tirage aléatoire à pile ou face n’est pas un bon tirage car il se peut qu’on ne tire jamais pile, même si la probabilité est nulle.

Un bon tirage pratique, où de plus tous les éléments sont tirées à peu près autant de fois, est de faire un tirage aléatoire sans remise parmi toutes les données, et de recommencer quand on les a toutes tirées.

Algorithme d’apprentissage du Perceptron

Initialement :

On se donne un critère d’arrêt

On se donne un hyperplan W₀ quelconque

Itération :

On tire par un bon tirage X dans {A,B} ;

Si erreur(W_i,X) différente de 0 alors W_i₊₁ = W_i – erreur(W_i,X)X

Arrêt :

Quand le critère d’arrêt est satisfait.

Correction et complétude d’un algorithme

On dit qu’un algorithme est correct si, pour toute donnée, si il fournit une réponse elle est correcte. Un algorithme est complet si, pour toute donnée, il fournit un réponse.

Dans le cas de séparation linéaire de deux ensembles finis A et B, nous cherchons un algorithme correct et complet, qui fournit un hyperplan de séparation si il en existe un⁵, et indique qu’il n’y en a pas sinon.

Correction de l’algorithme d’apprentissage du Perceptron

Si on prend pour critère d’arrêt que pour le plan Wi obtenu l’erreur est nulle pour tout élément de {A, B}, alors Wi sépare linéairement A et B

La preuve découle directement de la définition de l’erreur. Toute la difficulté est de montrer la complétude. Nous montrons que si A et B sont D-séparables, l’algorithme trouve une solution en un temps que l’on peut majorer en fonction de A, B et D. Par conséquent, si un plan séparateur n’est pas trouvé à l’issue de ce temps, c’est qu’il n’y en a pas.

Remarque : Nous avons vu que si A et B sont séparables, il existe D (que l’on ne connaît pas) tel qu’ils soient D-séparables. Comme ils sont D-séparables, le résultat précédent fait que l’algorithme trouvera un plan séparateur sans connaître D, mais on ne peut pas borner le temps nécessaire.

Théorème de convergence du Perceptron : complétude

Si A et B sont D séparables,

L’algorithme d’apprentissage du Perceptron fournit un hyperplan séparateur en moins de

( emax²M(A,B)² + 2 emin D)/ (emin D)²étapes

(une étape est un changement d’hyperplan)

Preuve :

On abrège M(A,B) en M.

Par hypothèse il existe un hyperplan H D-séparant A et B. Nous prenons H unitaire et partons de W₀ unitaire également.

W_i₊₁.W_i₊₁ = (W_i– erreur(W_i,X)X).( W_i – erreur(W_i-1,X)X)

= W_i.W_i + erreur(W_i.X)² X.X -2erreur(W_i.X)W_i.X

d'après la définition le l’erreur erreur(W_i.X)W_i.X ≥ 0

donc W_i+1.W_i+1≤ W_i.W_i + erreur(W_i.X)² X.X ≤ W_i.W_i + emax² M²

on en déduit W_i.W_i≤ W₀.W₀ + i emax² M²
et, puisque H et W₀ unitaires

(Fa) (W_i.H)² ≤ |W_i| ² |H| ² ≤ 1 + i emax²M²

W_i.H = W_i-1.H – erreur(W_i-1.X) H.X. On remarque comme dans a/ que par définition, pour l'hyperplan H de l'hypothèse, l' erreur est du signe opposé à H.X,

donc W_i.H ≥ W_i-1.H + emin D ≥ i emin D + W₀.H ≥ i emin D -1

et pour i plus grand que 1/(emin D), en élevant au carré

(Fb) (W_i.H)² ≥ (iemin D – 1)²

(Fa) et (Fb) fournissent un encadrement de (W_i.H)²

(iemin D – 1)² ≤ 1 + i emax²M² qui se développe puis se simplifie en

(Fc) i ≤ ( emax²M² + 2 emin D)/ (emin D)²

qui est la majoration annoncée dans l’énoncé du théorème.

Remarques

1/ Dans le cas historique du Perceptron, emin et emax valent 1. Si T est le nombre d’éléments de A et B, on en déduit que le nombre total de données d’apprentissage à tester est majoré par T (1 + M² + 2 D)/ D². Cette majoration est linéaire par rapport au nombre de données d’apprentissage, ce qui rend l’algorithme tout à fait praticable.

2/ Interprétation géométrique : sachant que le cosinus de l’angle que fait le vecteur W_iavec l’hyperplan H vaut W_i.H/|W_i|, on déduit des inégalités de la preuve une minoration de ce cosinus par (i emin D -1)/ ( 1 + i emax²M²)^1/2 qui dépasserait 1 si l’algorithme ne s’arrêtait pas. Cela signifie W_i tend à devenir parallèle à H, autrement dit le plan (W_i) devient proche de (H), ce qui est intuitif. Minorer par une borne qui tend vers 1 ne veut pas dire que le cosinus se rapproche de 1 à chaque pas, on ici rejoint une remarque à propos de l’observation de l’exemple dans l’article précédent.

3/ La problématique de la séparation (ou classification) linéaire continue de faire l’objet de recherches, du fait de la taille immense des données traitées (des millions voire des milliards de données avec des millions de paramètres). Il s’agit notamment d’accélérer l’algorithme en choisissant bien l’ordre des exemples présentés à l’apprentissage, ou en tenant compte que dans la pratique chaque donnée a souvent une majorité de paramètres nuls. On cherche également à rendre la séparation robuste en cherchant un plan le plus éloigné possible des échantillons. On traite également l’aspect statistique avec des données en nombre potentiellement infini, et on étudie les cas où la séparation n’est pas stricte.

Conclusion

Le Perceptron historique décrit dans un article précédent disposait pour entrée d’une image de 20 lignes de 20 pixels noirs et blancs et de 8 sorties binaires également (lampe allumée ou éteinte). Il était difficile de s’y retrouver dans le fouillis des câbles et des connexions. Rosenblatt avait en tête de mimer une rétine, et c’est ce qui guidait l’introduction d’un câblage intermédiaire. Il a fallu une analyse détaillée des chercheurs pour réaliser que cet intermédiaire n’ajoutait rien à la capacité du Perceptron, et que celui-ci constituait un neurone formel particulier par lampe de sortie, tel que nous les avons décrits.

Il s’agissait donc de 8 neurones formels fonctionnant en parallèle. Ceci permet de coder sur 8 bits les sorties, donc d’obtenir une classification en 256 réponses différentes. Illustrons l’idée avec deux neurones et quatre ensembles de données A, B, C, D à classer. Si {A,B} et {C, D} sont séparables linéairement (avec pour réponses respectives 0 et 1), et de même pour {A,C} et {B, D} (avec pour réponses respectives 0 et 1). Alors pour tout élément de A la réponse sera (0,0), pour B elle sera (0,1), pour C elle sera (1,0) et D elle sera (1,1).

Le Perceptron historique était en réalité loin d’avoir la capacité de 8 neurones formels généraux, car les synapses étaient peu nombreux et parfois partagés entre deux neurones. D’une part des questions matérielles de câblage et de fer à souder limitaient le nombre, et d’autre part Rosenblatt pensait obtenir de meilleurs résultats en s’inspirant de l’anatomie d’une rétine.

Le Perceptron est la première expérience à mettre en débat scientifique la capacité des réseaux de neurones, au coeur de la problématique des réseaux de neurones profonds actuels, notamment à travers l’approche statistique et l’importance de la structuration des connexions. Ce qui manquait par dessus tout à Rosenblatt, et qui a été la grande révélation du deep learning, est que les techniques neuronales ne fonctionnent bien qu’à très large échelle et sur de gigantesques masses de données d’apprentissage.

lundi 25 novembre 2024

Un érudit pèse-t-il plus lourd qu’un ignare ? De Boltzmann à Landauer (version longue)

Ludwig Boltzmann Rolf Landauer

(1844 – 1906) (1927 – 1999)

Une version courte de cet article a été publiée dans le blog informatique Binaire

du journal Le Monde https://www.lemonde.fr/blog/binaire/ .

Les compléments portent ici surtout sur la thermodynamique des gaz parfaits.

Si la question du poids de la connaissance dans un cerveau fait sourire et n’a guère de sens, celle du poids de l’information chargée dans une clé USB est bien réelle et inspire les Youtubers.

On parle d’information dématérialisée quand elle est accessible sous forme numérique plutôt que stockée dans des bibliothèques soumises à des contraintes architecturales draconiennes tant le papier est lourd. Jusqu’où peut-on aller dans l’allégement du support ? Rien ou Presque rien ? « Rien » signifierait que l’information est immatérielle. « Presque rien » signifierait qu’elle a un lien irréductible avec la matière. Idéalisme d’un côté, matérialisme de l’autre ? éclairer le distinguo vaut le détour. Le chemin nous fait passer par la thermodynamique et l’entropie, celle-là même qui nous fascine quand il s’agit du cosmos, dont la formule S = k logW orne la sépulture de Boltzmann à Vienne. Il aboutit à un « Presque rien » que quantifie le principe de Landauer.

Ce qu’en disent les Youtubers

Le Youtuber scientifique Théo Drieu a mis en ligne ce printemps la vidéo Combien pèse la totalité d’internet? sur sa chaîne Balade Mentale (un million d’abonnés). Il ne s’agit bien entendu pas de la masse des infrastructures du net – des millions de tonnes – ni de l’équivalent en masse de l’énergie consommée – dans les 10 à 15 % de l’électricité de la planète. Il s’agit d’une estimation de la masse des électrons nécessairement mis en jeu pour faire circuler l’information sur le net. Dans la vidéo, l’animateur sacrifie à la loi du genre en tripotant une orange afin de marquer les esprits : la masse des informations sur le net serait celle d’une orange. Drieu ne fait là, comme il l’annonce, qu’actualiser les chiffres avancés par son collègue d’Outre-Atlantique Michael Stevens qui dans une vidéo de 2012 intitulée How Much Does The Internet Weigh? croquait modestement une fraise, les millions de térabits sur le net étant alors bien moins nombreux que maintenant. Dans cette même vidéo sur sa chaîne Vauce (vingt-deux millions d’abonnés) Stevens évoquait deux aspects : le nombre d’électrons nécessairement mobilisés selon les technologies du moment pour faire circuler l’information, et le nombre nécessaire pour la stocker. Dans ce cas, il estimait la masse inférieure à celle non plus d’une fraise mais d’une graine de fraiseⁱ.

Ce qu’en disent les chercheurs

Ce qu’en dit précisément la science est plus saisissant encore, car la limite théorique est des milliards de fois moindre que la masse d’une graine de fraise évoquée par Stevens. Pour le raconter mieux vaut le faire en énergie plutôt qu’en matière, puisque matière et énergie se valent selon la célébrissime formule d’Einstein E = m c². Cela évite le biais lié à l’usage de la matière pour coder, que l’on peut ajouter, comme la plume encre le papier, ou retrancher comme le burin incise la pierre. D’autre part nous nous limitons ici au stockage, sans considérer la circulation de l’information.

La clé de voûte du raisonnement est le principe formulé en 1961 par Rolf Landauer, physicien américain chez IBMⁱⁱ : l’effacement d’un bit dissipe au moins une énergie de k T log2 Joule, où k est la constante de Boltzmann, T la température absolue (en Kelvin) et log est le log népérien (voir l'encadré sur les log). L’irruption de Boltzmann au milieu de l’informatique théorique peut surprendre, c’est pourtant lui qui fait le lien entre la physique-chimie – donc les sciences de la matière – et l’informatique – donc les sciences de l’information. Landauer est pour sa part le premier à avoir tiré clairement toutes les conséquences de la théorie de Boltzmann. Les systèmes que considère Boltzmann sont des gaz, avec des milliards de milliards de milliards d’états possibles au niveau de l’ensemble des particules. Landauer applique l’idée de Bolzmann sur un système à … deux états, le 0 et le 1, juste de quoi stocker un bit. Pour étudier les propriétés d’un bit d’information, il applique ainsi un concept – l’entropie - basé sur quatre siècles d’intenses recherches en physique-chimie. On comprend que les laboratoires de physique demeurent mobilisés pour monter des expériences de confirmation ou d’invalidation de la proposition de Landauer, car de leurs résultats dépend notre conception des rapports entre matière, énergie et information. Ces expériences se situent au niveau quantique et font face à des phénomènes complexes comme les fluctuations statistiques d’énergie qui sont ici passés sous silence. Le présent regard est celui d’un informaticien, illustré par un petit démon imaginé par Maxwell, démon qui lui aussi a suscité de nombreuses vidéos.

L’entropie, une histoire de gaz et de piston

La notion d’entropie naît de l’étude du rendement de la machine à vapeur et des travaux de Carnot sur les échanges de chaleur, autrement dit de la thermodynamique au sens littéral du terme. Le principe de Carnot dit que sans apport extérieur d’énergie, une source chaude et une source froide s’équilibrent irréversiblement en un système de température statistiquement homogène. Ce principe a été généralisé en ce qui est maintenant le deuxième principe de thermodynamique, en introduisant la notion d’entropie pour quantifier « le désordre » vers le quel tout système sans apport extérieur d’énergie évolue inexorablement selon ce principe.

L’entropie selon Clausius, une approche macroscopique

Clausius, à la recherche d’une théorie mécanique de la chaleurⁱⁱⁱ, définit en 1865 la baisse d’entropie d’un gaz parfait qu’un piston comprime à température constante par la quantité de chaleur dégagée. Ce travail mécanique w du piston s’exprime dans ces conditions par dw=P dV au niveau infinitésimal et est entièrement converti en chaleur Q. Clausius obtient ainsi par intégration une équivalence entre le travail mécanique du piston et la chaleur produite lors de la compression.

L’entropie selon Boltzmann, une approche microscopique

Quelques années après Clausius, Bolzmann propose une définition radicalement différente de l’entropie. Cette définition s’appuie sur la description du comportement statistique des particules du gaz et aboutit à la formule déjà évoquée

S = k log W

k est évidemment appelée la constante de Boltzmann, et log désigne le log népérien (voir encadré sur les log pour qui ne connaitrait pas cette fonction mathématique).

W est la clé du lien avec le numérique, ce symbole désigne le nombre de configurations possibles du gaz.

Plus précisément, k vaut R/N, soit k =1,380 649 × 10^-23 J/K (voir l'annexe). W est le nombre de micro-états possibles d’une mole de gaz, c’est-à-dire le nombre w de micro-états possibles (position, vitesse) pour une particule élevé à la puissance le nombre de particules (N pour une mole), car les particules sont supposées indépendantes dans un gaz parfait (la dynamique de l’une n’influe pas celle d’une autre). Si l’espace est divisé en volumes élémentaires microscopiques, le nombre de ces micro-volumes est proportionnel au volume considéré. Le nombre de positions possibles dans V2 ou dans V1 est dans le rapport V2/V1. Que l’on considère V1 ou V2, les vitesses des particules sont les mêmes, donc w2/w1 = V2/V1 et W2/W1 =(V2/V1)^N. On en déduit ΔS= k (logW2 – logW1) = N k log (V2/V1), ce qui est résultat obtenu par Clausius pour une mole compte-tenu de la définition de k.

On peut toujours supposer que dans la configuration de la figure, le premier bit précise si la particule est dans la moitié gauche ou la moitié droite de la boite. En comprimant le gaz de moitié, ce bit est inutile et peut être effacé. Landauer en déduira plus tard que c’est l’effacement de ce bit pour chaque particule qui produit la chaleur.

Cette présentation de l’entropie de Boltzmann et de son interprétation par Landauer enjambe l’histoire. Entre temps, les réflexions des physiciens ont évolué pas à pas, et elles ne sont pas closes. Le démon de Maxwell illustre ces réflexions.

Le démon de Maxwell : quand le calcul et la mémoire s’en mêlent

Se plaçant comme Boltzmann au niveau des particules, Maxwell proposa une expérience de pensée comme les physiciens aiment à les imaginer. Maxwell considère une boîte partagée en deux par une cloison munie d’une trappe qu’un démon actionne sans frottement de façon à faire passer une à une des particules. En les faisant passer de gauche à droite, le démon « range les particules », il diminue l’entropie du gaz sans fournir de travail, "il ne chauffe pas", contrairement au piston : le deuxième principe de thermodynamique est contredit !

Pour lever la contradiction, les physiciens cherchèrent du côté des calculs effectués par le démon de Maxwell, considérant que si celui-ci n’exerce pas sur le gaz un travail mécanique, il exerce en quelque sorte un travail intellectuel, il observe, il acquière de l’information et il calcule. Tel fut le point de vue de Szilárd, un des principaux scientifiques du projet Manhattan connu pour son opposition farouche à l’usage de la bombe atomique^v. Puis Brillouin^vi ébaucha l’idée ensuite érigée en principe par Landauer que c’est l’effacement d’information qui augmente l’entropie, comme nous allons le préciser.

Le principe de Landauer : du gaz à l’ordinateur

Le principe de Landauer est une extrapolation de la formule de Boltzmann aux systèmes informatiques. La relation entre énergie et nombre de micro-états est étendue par analogie aux configurations d’un système informatique. Landauer pose directement ce résultat en considérant un seul bit de mémoire comme un système^vii.

La valeur d’un bit peut être 0 ou 1, deux états sont possibles. Si le bit est effacé, il n’y a plus qu’un seul état, l’entropie a donc diminué par l’effacement du bit, et ce travail d’effacement s’est dissipé en chaleur.

Formellement, en réécrivant la formule de Boltzmann en base 2, l’entropie passe de k log2 log₂ 2 – à k log2 log₂ 1, elle diminue donc de k log 2 ^viii. Comme l’énergie est liée à l’entropie par le facteur T de température, on obtient la dissipation d’énergie de k T log2 annoncée par Landauer.

Retour sur le démon de Maxwell

Pour la simplicité de l’interprétation numérique, nous avons seulement considéré plus haut le cas où le volume du gaz est réduit de moitié. Mais le parallèle entre le piston et le démon doit tenir pour tous les taux de compression. Pour pouvoir revenir aux conditions initiales, le démon doit compter les particules de gauche à droite, afin d’en renvoyer autant si l’on poursuit le parallèle. D’après Landauer, pour ne pas chauffer, il ne doit effacer aucun bit intermédiaire, ce qui n’est pas le cas avec l’addition habituelle mais est réalisé par exemple en « comptant des bâtons ». Or le démon fait partie du système physique considéré dans l’expérience de pensée, il doit donc être remis dans son état d’origine si l’on veut faire un bilan énergétique à l’issue de la compression comme c’est le cas ici. Autrement dit, il doit alors effacer sa mémoire, ce qui dégage la chaleur prévue par la physique.

Réversibilité et entropie

Pour imaginer un système informatique ne consommant théoriquement aucune énergie, ce système ne doit effacer aucune information durant ses calculs, ce qui revient à considérer des machines logiquement réversibles, où l’on peut remonter pas à pas les résultats jusqu’aux données (quitte à s’encombrer de calculs). C’est ainsi que nous avons réinterprété le démon. Les opérateurs logiques et arithmétiques usuels ne sont évidemment pas réversibles (l’addition et le ET perdent les valeurs de leurs données) . Cependant Bennett^ix^,^{^x} a montré que l’on peut rendre tout calcul logiquement réversible en donnant un modèle de machine de Turing qui conserve la trace de tous ses calculs. Ces considérations sont particulièrement prometteuses pour les ordinateurs quantiques, où la superposition d’états dans les q-bits conduit (sous les nombreuses contraintes liées à ce type de machine) à considérer directement des opérateurs réversibles.

Les physiciens continuent de se passionner pour conforter ou invalider le principe de Landauer^xii, imaginant des nano machines parfois extravagantes, à cliquets, escaliers, poulies ou trappes et construisant des expériences de plus en plus fines^xiii pour mesurer l’énergie dégagée par l’effacement d’un bit^xiv. Jusqu’à présent, le principe est confirmé, dans le cadre de la physique classique comme de la physique quantique. Il n’est cependant pas exclu que sa limite soit un jour abaissée, notamment en exploitant des propriétés de la physique quantique encore mal connues. Cela remettrait en cause les interprétations qui viennent d’être décrites, et ce serait alors une nouvelle source de progrès dans les modèles scientifiques de l’organisation de la matière et de l’information.

En guise de conclusion

La limite de Landauer commence à influencer l’architecture des systèmes et plaide pour l’informatique quantique. Elle fournit un horizon qui nous incite à méditer sur ce qu’est le traitement de l’information, que ce soit par le vivant ou la machine.

La théorie associe à l’information une masse minimale de matière bien moindre encore que celle mise en scène par les Youtubers, déjà spectaculaire par sa modicité. De même il faut peu de matière pour libérer beaucoup d’énergie (bombe, centrale nucléaire) et beaucoup d’énergie pour générer quelques particules (au LHC du CERN). Il nous semble aussi plus facile de semer la pagaïe que de structurer au nom du second principe de thermodynamique et de l’entropie. Pourtant l’univers fabrique sans cesse de nouveaux objets cosmiques et la vie s’est développée sur sur terre^xv. Nous devons nous méfier de nos appréciations sur le petit ou le grand, le beaucoup ou le peu, qui sont des jugements attachés à notre échelle et à notre condition.

_____________________________

ANNEXE

Les gaz parfaits : quatre siècles de physique et de chimie

A la fin du 17e siècle, Boyle et Mariotte constatent que pour tout gaz, à température constante, le produit PV de la pression P et du volume V est constant. Au début du 19e siècle, les recherches concourent à établir en outre que, si la température varie, PV est une fonction affine de cette température mesurée en degrés Celsius, ce qui mène au milieu du siècle Kelvin à poser par extrapolation l’hypothèse du zéro absolu et son estimation à – 273 degrés Celsius. Il s’en suit que par définition PV/T est constant avec T mesurée en degrés Kelvin, et cette constante ne dépend pas de la nature du gaz mais seulement de sa quantité. Ce résultat est connu sous le nom de loi des gaz parfaits.

Cette loi s’interprète grossièrement en termes de cinétique des particules de gaz : si on double la température, on agite davantage les molécules qui de ce fait doublent la pression ou, pour garder la pression occupent le double de volume. L’adjectif parfait capte les limites du modèle : sous forte pression les molécules sont souvent proches et les forces d’interaction entre elles ne sont plus négligeables ; il en est de même en basse température, où les molécules ralenties peuvent rester proches.

Avogadro pose par ailleurs que dans des mêmes conditions de pression et de température, à volume égal, tous les gaz comportent autant de molécules. Cette loi s’appuie sur l’observation des proportions de matières qui rentrent en réaction chimique entre elles (par exemple 12 grammes de carbone et 32 grammes de dioxyde forment 44 grammes de CO2). Ce nombre, appelé nombre d’Avogadro et noté NA (ou simplement N) est évalué au début du 20e siècle (NA = 6,022 140 76 × 1023 ). N est par définition le nombre d'atomes dans 12 grammes de carbone, donc de particules contenues dans une mole de gaz parfait, quantité qui occupe un volume de 22,4 litres environ dans des conditions usuelles de température et de pression.

Cette propriété permet d’introduite la constante R appelée constante des gaz parfaits, comme la valeur de PV/T pour une mole de gaz

(ou PV/T = nR pour n moles de gaz)

___________________________________

NOTES

i Estimation tirée d’articles universitaires. Cinquante ans avant, Richard Feynman, prix Nobel de physique , dans sa célèbre conférence de 1959 intitulée There's Plenty of Room at the Bottom, annonciatrice de l’essor des nanotechnologies, estimait que l’on pourrait coder avec les technologies de l’époque toutes les connaissances du monde dans un grain de poussière, et indiquait les pistes pour le faire.

iiRolf Landauer, Irreversibility and Heat Generation in the Computing Process, IBM Journal of Research and Development, 5(3), 183–191 (1961).

iii Die mechanische Wärmetheorie, Friedrich Vieweg und Sohn ed (1865 -1867).

ivHistoriquement, le démon trie les particules les plus rapides et les plus lentes, distribuées statistiquement autour de la valeur moyenne, pour créer une source chaude et une source froide à partir d’un milieu en équilibre thermique.

vLa première planche de La bombe, BD consacrée au projet Manhattan, illustre un cours de Szilárd sur le sujet en 1933. Alcante, Bollée, Rodier, Ed. Glénat, 2020.

viBrillouin est sans doute un des noms les moins connus de ceux cités ici. Alfred Kastler, prix Nobel de physique, lui rendait hommage dans les colonnes du Monde lors de sa disparition 1969 : Léon Brillouin : un des plus brillants physiciens français.

viiEn réalité un réseau de bits statistiquement liés, pour des raisons de phénomènes physiques.

viiiPar définition les log transforment les multiplications en additions. Donc log 1x1 = 2 log 1 = log 1, d’ouù log 1 = 0

ixC. H. Bennett, Logical reversibility of computation, IBM journal of Research and Development, 1973. C. H. Bennett, Notes on Landauer’s Principle, Reversible Computation, and Maxwell’s Demon, 2002 https://arxiv.org/abs/physics/0210005

xJ.-P. Delahaye, Vers du calcul sans coût énergétique, Pour la science, pp 78-83, janvier 2017

xiiLa plupart des références données ici sont les références historiques – il est souvent instructif de découvrir les idées « dans leur jus ». Cependant il suffit de parcourir le net pour en trouver des récentes en pagaille.

xiiiLes fluctuations statistiques ici négligées y jouent un rôle important.

xivSéminaire information en physique quantique de l’Institut Henri Poincaré, 17/11/2018

vidéos sur carmin.tv, les mathématiques vivantes.

Landauer et le démon de Maxwell, Sergio Ciliberto.

Thermodynamique et information, Kirone Mallik.

xvDans son article déjà cité, Bennett évoque l’économie de moyens de la duplication des gènes, déjà remarquée par Landauer en 1961.

mardi 12 novembre 2024

Créé le 12 novembre 2024. En construction. Patience...

samedi 28 septembre 2024

L'affaire du Perceptron, ou le Perceptron tel Janus

Research trends, Vol. VI, N°2,

 Cornell University, été 1958

 Report MARK 1 Perceptron operators’ manual,

Cornell Aeronautical Laboratory,février 1960

Crédit: Université de Cornell

Résumé : Il y a soixante ans, la première réalisation matérielle d’un neurone artificiel posa les bases de l’interfécondation entre neuro sciences et data sciences. Cette machine, le Perceptron, suscita des controverses sur des problématiques toujours d’actualité.

*************************************

Cet article a été publié sous une version remaniée dans le numéro 25 de juin 2025 du bulletin 1024 de la Société Informatique de France, sous le nom Le Perceptron tel Janus

*************************************

« The Navy revealed the embryo of an electronic computer today that it expects will be able to walk, talk, see, write, reproduce itself and be conscious of its existence. »

Quelle est donc cette machine, cette IA, vouée à se reproduire d’elle-même et à être dotée de conscience ? Ces dernières années, les médias se font régulièrement écho de telles promesses fracassantes. L’article évoqué, du très sérieux New York Times, est ancien. Il date de 1958 et fait référence au Perceptron, suite à une interview de Frank Rosenblatt, son concepteur.

Monstre sacré ou star déchue, le Perceptron a marqué les débuts de l’intelligence artificielle. Son histoire constitua toute une affaire dans la communauté naissante de l’IA, elle demeure significative des idées qui ont conduit aux réseaux de neurones artificiels célèbres aujourd’hui, et aussi aux spéculations pseudo scientifiques qui ne cessent d’entourer l’IA.

Le Perceptron marque la première réalisation matérielle de neurones artificiels. Les moyens d’observation confortant la théorie d’un cortex constitué de neurones ne datent que de la toute fin du 19e siècle. Les premières modélisations de fonctionnement viennent un demi siècle plus tard, avec la description de la transmission d’impulsion par McCulloch et Pitts, et la règle d’apprentissage de Donald Hebb, toutes deux restées sur le papier jusqu’à ce que Rosenblatt conçoive son Perceptron. Chercheur en psychologie, son but était d’étudier nos processus d’apprentissage. A cette fin, l’architecture du Perceptron reprend le modèle de McCulloch et Pitts et l’algorithme d’apprentissage s’inspire de la règle de Hebb.

Une expérience typique était de faire apprendre la machine à reconnaître des lettres de l’alphabet. La « rétine » de lecture était un tableau de 20 lignes de 20 « pixels » blancs ou noirs (les pixels noirs représentaient la lettre) fournis par une caméra ou directement par un tableau de 400 interrupteurs manuels! La machine « répondait » en allumant ou non chaque lampe d’une rangée de huit voyants. On convenait une fois pour toute d’un code pour les lettres (par exemple « A » doit allumer seulement la lampe 1, « B » doit allumer seulement la lampe 2, etc (avec 8 lampes, on peut coder 256 caractères, mais le Perceptron n’est jamais allé jusque là). L’« allumage » de pixels aboutissait à l’allumage ou non d’un voyant selon les lois de l’électricité à travers un fouillis de câblages et de relais munis de résistances variables qui simulaient les coefficients synaptiques. On présentait dans un ordre quelconque, et autant de fois qu’on le voulait, des écritures différentes de chaque lettre. Si la réponse n’était pas le code attendu de la lettre – autrement dit si « le Perceptron se trompait » - certaines résistances étaient modifiés selon la règle de Hebb, qui fait évoluer les coefficients synaptiques entre la rétine et et les lampes de sortie.

Si au bout d’un nombre indéterminé de « lectures » le Perceptron finissait par donner la bonne réponse pour chaque variante de chaque lettre, l’apprentissage était réussi. Et si alors on lui présentait de nouvelles variantes de lettres, qu’il n’avait jamais lues, il donnait en général la bonne réponse là ou un humain fait de même.

Que ce soit avec des lettres de l’alphabet, avec les chiffres, avec quelques figures géométriques simples, en général l’apprentissage réussissait mais pas toujours car un détail dans un échantillon pouvait faire échouer. On ne savait pas prédire si l’apprentissage réussirait, ni pourquoi il réussissait ou échouait, mais on constatait à l’expérience qu’il s’améliorait souvent au fil des tests, c’est-à-dire que le Perceptron commettait de moins en moins d’erreurs.

Chacune de ces expériences, prenait plusieurs jours, car les manipulateurs devaient pour beaucoup intervenir en tournant des molettes et en réglant au tournevis. Il faut se représenter ce qu’étaient les moyens techniques de l’époque. Pas de caméras numériques¹ mais des cellules photoélectriques, des fils de cuivre et des rhéostats. Le coeur du Perceptron était un enchevêtrement de câbles à faire pâlir un central téléphonique de l’époque, avec des opérateurs qui maniaient les connections comme les « Dames des PTT ». Le tout intégré à ce qui se faisait de mieux comme calculateur, un Mark1 d’IBM, de cinq tonnes, non pas électronique mais électro-mécanique. Une multiplication prenait six secondes. Durant mes études nos rares profs qui avaient eu le privilège d’accéder à de telles machines racontaient qu’à la longue ils distinguaient au son si la machine était en train de réaliser une multiplication ou une division.

Si ces conditions d’expérience font maintenant sourire, il n’en demeure pas moins que les résultats d’apprentissage soutenaient la comparaison avec l’humain, ce qui alimenta d’intenses controverses sur les capacités potentielles de ce type de machine, controverses qui aboutirent dix ans plus tard au livre de Marvin Minsky et Seymour Papert « Perceptrons: An Introduction to Computational Geometry² ». Cet épais ouvrage délimite clairement les possibilités des Perceptrons, et établit l’incapacité de ce type de dispositif à classer des exemples très simples – le cas du XOR est célèbre. XOR désigne le « OU exclusif », c’est-à-dire « l’un ou l’autre mais pas les deux », ou encore « soit l’un soit l’autre ». Il est peu usité dans le langage courant mais omniprésent dans les circuits électroniques. Ceci revient à dire que si on se donne un rétine de deux pixels en entrée et une lampe en sortie, un Perceptron devrait apprendre à allumer la lampe réponse si un des pixels est allumé mais pas les deux. On montre facilement que c’est impossible.

Si l’on mit plusieurs années à y voir clair dans les capacités d’un Perceptron, sa nature mathématique et ses limites, c’est que la machine historique⁴, son manuel d’utilisation de 67 pages⁵, aussi bien que la publication scientifique qui l’accompagna⁶ étaient particulièrement confus. En soi, le fait qu’il faille du temps et des travaux de la communauté de chercheurs pour décanter, clarifier, valider, simplifier un concept fait partie de la marche normale de la science. Aussi faut-il replacer l’« affaire » dans son contexte historique et humain pour en comprendre les ressorts.

C’est encore l’après-guerre, Hiroshima, les camps et la médecine nazie ne sont pas loin. La guerre froide bat son plein, les USA se vivent plus que jamais comme défenseurs du monde libre, ils vont s’enliser au Viêt Nam. Sur les campus, les laboratoires d’idées foisonnent, en quête de spiritualité nouvelle - le new age n'est pas loin, aussi bien que d’innovations stratégiques. Les spéculations débridées exhalent souvent un parfum de mystère, ce qui inspira « La Gnose de Princeton⁷». En 1956, une poignée de chercheurs se réunissent durant deux mois à Dartmouth dans le New Hampshire. Beaucoup deviendront des grands noms des sciences du numérique. C’est là qu’est inventé le terme Artificial Intelligence. Rosenblatt ne participe pas à cette conférence, pourtant il connaît très bien Minsky, une des fortes personnalités du groupe, ils avaient étudié ensemble un an à New York.

Rosenblatt survendit son Perceptron. En témoigne la légende de sa présentation dans la revue interne de Cornell⁸ «Le Perceptron, une machine qui perçoit, reconnaît, mémorise et répond comme l’esprit humain ». Machine que Minsky s’acharna à dénigrer.

Quand il conçut le Perceptron, Rosenblatt n’avait que trente 30 ans. Il passa vite à autre chose, il mena des expériences en injectant à de jeunes rats des extraits de cervelle de congénères expérimentés, afin de tester une hypothèse qui courait sur la possible transmission de cette façon de connaissances acquises. Evidemment, ce fut en vain. Il mourut d’un accident de bateau le jour de son 43e anniversaire. Des hommages appuyés lui furent rendus, jusqu’au Congrès des Etats-Unis, évoquant une personnalité et un scientifique hors des sentiers battus⁹.

Minsky, d’un an son aîné, mourut à 89 ans, couvert d’honneurs. La presse salua la disparition d’un père de l’IA. Il s’était fait connaître d’un large public par son ouvrage « La société de l’esprit ¹⁰», recueil de réflexions où il expose comment selon lui l’« esprit » est induit par l’interaction d’agents simples. A la fin de sa vie, il s’affirma transhumaniste¹¹, aspirant à des post-humains faits de pièces remplaçables sans fin, quitte à dériver le contenu du cerveau dans des IA le temps d’une intervention, un peu comme on dérive la circulation sanguine durant une opération cardiaque. Pour lui, la frontière entre humains et IA avait vocation à s’estomper, rendant caduque l’«escroquerie que sont les religions ». Il militait pour la cryogénisation dans l’attente que la science progresse suffisamment pour nous rendre éternels. Deux jours après son décès, la société de cryogénisation Alcor dont il était administrateur publia un communiqué entretenant le doute sur sa congélation¹².

***********

Il s’amorce à la croisée des neuro sciences et des sciences informatiques un corpus de lois de l’information comparable à celui de la physique.

Le Perceptron a mis en lumière les similitudes entre un neurone et un classifieur linéaire, ouvrla voie aux problématiques actuelles.

- Similitude entre un Perceptron, un neurone et un classifieur liénaire.Les débats suscités par le Perceptron – à commencer par les travaux de Minsky – ont mis en lumière la similitude entre un neurone (nous en avons presque cent millards) et un séparateur linéaire, outil aussi courant pour le statisticien que la règle pour l’écolier - voir l'article "Le petit neurone et la règle d'écolier" dans "Petits rien de sciences " (https://maxdauchet.fr)

- La règle de Hebb qui régit le renforcement ou l’inhibition des liaisons entre les neurones fournit un algorithme d’apprentissage qui donne des résultats bluffants en reconnaissance d’images (ce sont les expériences menées sur le Perceptron) mais bute aussi sur des exemples élémentaires.

- Cette règle permet d’apprendre à classifier des formes sans avoir à en faire la moindre analyse géométrique.

- Il est nécessaire de présenter un grand nombre de variantes pour avoir un apprentissage satisfaisant.

Rosenblatt a souvent présenté de façon brouillonne et maladroite son Perceptron, mais l’intuition est là. L’excellent article de l’université de Cornell, berceau du Perceptron, à l’occasion du soixantième anniversaire de cette machine. Son intitulé résume bien la situation : « Rosenblatt montra le chemin, 60 ans trop tôt¹⁵ ».

_____________________________

1Le terme « pixel » a été forgé dix ans plus tard.

2MIT Press, 1969.

3Voir article suivant de ce blog.

4Elle gît démantelée dans une cave de l’université de Cornell.

5Cornell Aeronautical Laboratory, Report MARK 1 Perceptron operators’ manual, février 1960. Ce document est librement consultable mais difficile à trouver. Je l’ai placé dans

https://www.dropbox.com/s/3jnkft5ufyyl0eb/P4%20236965%20manuel%20perceptron%20%281%29.pdf?dl=0

6The perceptron: a probabilistic model for information storage and organization in the brain. F Rosenblatt - Psychological review, 1958

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.335.3398&rep=rep1&type=pdf

7Raymond Ruyer, éditions Fayard, 1974. Cet ouvrage, entre fiction et réalité, eut une certaine audience. Sa tonalité frise parfois parfois le complotiste.

8Photo en tête de cet article.

9 http://csis.pace.edu/~ctappert/srd2011/rosenblatt-congress.pdf

10The Society of Mind, Simon and Schuster ed., 1987.

11The Jerusalem Post titrait en 2014, à l’occasion du prix Dan David, un article « For artificial intelligence pioneer Marvin Minsky, computers have soul »

12 https://www.alcor.org/2016/01/official-alcor-statement-concerning-marvin-minsky/

13von Neumann, Shannon et Kolmogorov furent visionnaires en la matière.

15https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon