• Les chiffres monoalphabétiques de substitution

    Chiffre de César et ses dérivés

    L'analyse de fréquences
    Principe


    Il s'agit de remplacer une lettre de l'alphabet par une autre (ou par un symbole unique).


    Cryptologie



    Il faut tout d'abord mélanger les lettres de l'alphabet selon un schéma connu d'Alice et de Bernard. Plusieurs possibilités existent afin de crypter l'alphabet :

        - le chiffre de César : conserve l'ordre des lettres ; se contente de décaler le début de l'alphabet de x rangs (historiquement, César, qui utilisait une grande quantité de chiffres durant ses campagnes, décalait de trois rangs, avec a devenant C, b devenant D, et ainsi de suite). Il fournit donc 26 alphabets possibles.

        - l'utilisation d'un mot-clef en début d'alphabet, puis reprendre l'ordre des lettres restantes: STOCKHLMBDEFGIJNPQRUVWXYZ. Facile à utiliser, cette technique augmente considérablement le nombre d'alphabets disponibles.

        - le mélange plus aléatoire des lettres, par exemple en les inscrivant horizontalement dans un tableau de 5x5 (le I et le J étant alors confondus) et en réécrivant l'alphabet en lisant verticalement le tableau.


    Cryptanalyse


    Le niveau de sécurité offert par les chiffres monoalphabétiques de substitution est très faible. Un cryptanalyste entraîné n'aura ainsi besoin que d'une vingtaine de minutes pour déchiffrer un message de plusieurs pages... Une utilisation en dehors des salles de classe est ainsi fortement déconseillée !

    Il ne faut bien entendu pas chercher toutes les clefs possibles. Bien que cette technique puisse être utilisée avec succès sur le chiffre de César, elle est inutilement longue et pénible, en plus d'être mise en échec par des chiffres un tantinet plus élaborés.

    Le moyen à utiliser consiste à analyser les fréquences d'apparition des lettres. En effet, chaque langue utilise les lettres de son alphabet avec une fréquence donnée, variant peu d'un texte à l'autre. Il faut bien entendu disposer d'un message assez long pour que l'analyse soit efficace, mais déjà à partir d'une trentaine de caractères il est possible de deviner le profil des fréquences.
    Historiquement, l'analyse fréquentielle a été découverte par Al-Kindi au IXème siècle  (Manuscrit sur le déchiffrement des messages cryptographiques) ; elle a permis à Charles Babbage, dix siècles plus tard, de faire céder le tout-puissant chiffre polyalphabétique de Vigenère, après avoir été largement utilisée dans les cours et les cabinets noirs des différentes diplomaties.
    Après avoir compté le nombre d'apparitions de chaque caractère et l'avoir rapporté au total des caractères (calculant ainsi la fréquence de chaque lettre de l'alphabet chiffré), il faut comparer les résultats à un tableau de référence. Ainsi, pour le français et l'anglais, on aura :

      Français
    Anglais
     A
     9,42  8,08
     B 1,02
    1,67
     C 2,64
    3,18
     D 3,39
    3,99
     E 15,87
    12,56
     F  0,95 2,17
     G 1,04
    1,80
     H  0,77 5,27
     I 8,41
    7,24
     J 0,89
    0,14
     K ≈ 0
    0,63
     L  5,34 4,04
     M 3,24
    2,60
     N 7,15
    7,38
     O 5,14
    7,47
     P 2,86
    1,91
     Q 1,06
    0,09
     R 6,46
    6,42
     S 7,90
    6,59
     T 7,26
    9,15
     U 6,24
    2,79
     V  2,15 1,00
     W  ≈ 0 1,89
     X  0,30 0,21
     Y 0,24
    1,65
     Z 0,32
    0,07

    NB: dans le cas où le message est court et ne permet pas une analyse de bonne qualité, si l'alphabet est dans l'ordre, la fin de l'alphabet (WXYZ) peut être repérée par une succession de 4 lettres de fréquence nulle.

    Les férus de Scrabble auront sans doute remarqué que la quantité de tuiles de chaque lettre et le nombre de point qu'elles rapportent sont correllés à la fréquence d'utilisation des lettres dans le langage usuel.

    Dans certains cas, il peut être utile de se servir d'un tableau de fréquences adapté au type de texte à déchiffrer. En effet, dans les transmission militaires, par exemple, le style télégraphique utilisé omet les prépositions et utilise des abbréviations, modifiant ainsi le profil de fréquences.

    L'analyse de fréquences peut toutefois être mise en échec par l'omission délibérée d'une lettre fréquente (comme ll'a  fait Georges Perec dans La Disparition, écrite sans la lettre e). Il sera alors possible d'utiliser la technique des mots probables : estimer qu'il est probable qu'un mot donné se trouve dans le texte chiffré, et tenter de le retrouver. Il faut pour cela avoir une idée, même grossière, du contenu, mais pas forcément.
    On peut aussi tenter de retrouver des doublons de lettres fréquents (ss, ff, ll, etc... ainsi que les appariements les plus courants : es, en, le, ede, les, lle...)

    Les chiffres monoalphabétiques de substitution ont été les premiers à être utilisés, dès l'Antiquité, et sont également les plus faciles à briser. Une simple analyse de fréquences en vient à bout, mais ils restent populaires parmi le grand public et peuvent être une bonne idée pour organiser une course au trésor pour l'anniversaire du petit dernier... Mais il vaut en revanche mieux les oublier pour transmettre des messages sensibles à ses contacts !

    Tags Tags : , , ,
  • Commentaires

    1
    Lundi 7 Janvier 2008 à 17:53
    J'utilise le 26e chiffre de César tous les jours :-)
    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :