Module Apache mod_unique_id

Langues Disponibles: en | fr | ja | ko

Description:	Fournit une variable d'environnement contenant un identifiant unique pour chaque requï¿½te
Statut:	Extension
Identificateurï¿½deï¿½Module:	unique_id_module
Fichierï¿½Source:	mod_unique_id.c

Sommaire

Ce module fournit un identifiant dont l'unicitï¿½ est garantie parmi "toutes" les requï¿½tes sous des conditions trï¿½s prï¿½cises. L'identifiant unique le sera aussi parmi plusieurs machines appartenant ï¿½ un cluster correctement configurï¿½. L'identifiant est affectï¿½ ï¿½ la variable d'environnement UNIQUE_ID pour chaque requï¿½te. Les identifiants uniques sont utiles pour diverses raisons dont la nature se situe au delï¿½ de la portï¿½e de ce document.

Directives

Ce module ne fournit aucune directive.

Sujets

Thï¿½orie

Commentaires

Thï¿½orie

Tout d'abord un bref rappel de la maniï¿½re dont le serveur Apache fonctionne sous Unix (cette fonctionnalitï¿½ n'ï¿½tant actuellement pas supportï¿½e sous Windows NT). Sous Unix, Apache crï¿½e plusieurs processus enfants, ces derniers traitant les requï¿½tes une par une. Chaque processus enfant peut traiter plusieurs requï¿½tes pendant sa durï¿½e de vie. Dans le cadre de cette discussion, nous supposerons que les diffï¿½rents processus enfants ne s'ï¿½changent pas de donnï¿½es entre eux. Nous nous rï¿½fï¿½rerons aux processus enfants sous le nom de processus httpd.

Votre site web est rï¿½parti entre une ou plusieurs machines dont vous ï¿½tes l'administrateur, et que nous nommerons cluster de serveurs. Chaque serveur peut exï¿½cuter plusieurs instances d'Apache. L'ensemble de ces derniï¿½res sera considï¿½rï¿½ comme "l'Univers", et sous certaines hypothï¿½ses, nous montrerons qu'il est possible dans cet univers, de gï¿½nï¿½rer des identifiants uniques pour chaque requï¿½te, sans pour autant nï¿½cessiter une communication importante entre les diffï¿½rents serveurs du cluster.

Les machines de votre cluster doivent satisfaire ces conditions (mï¿½me si le cluster ne comporte qu'une machine, vous devez synchroniser son horloge avec NTP) :

Les temps des machines sont synchronisï¿½s via NTP ou tout autre protocole de synchronisation du temps en rï¿½seau.
Les nom d'hï¿½tes des machines sont tous diffï¿½rents, de faï¿½on ï¿½ ce que le module puisse recevoir une adresse IP diffï¿½rente pour chaque machine du cluster en effectuant une recherche sur le nom d'hï¿½te.

Au vu des caractï¿½ristiques actuelles du systï¿½me d'exploitation, nous supposerons que les pids (identifiants processus) sont codï¿½s sur 32 bits. Si le systï¿½me d'exploitation utilise plus de 32 bits pour un pid, la correction est triviale mais doit ï¿½tre effectuï¿½e dans le code.

Ces hypothï¿½ses posï¿½es, ï¿½ un instant donnï¿½, nous pouvons distinguer tout processus httpd sur toute machine du cluster de tous les autres processus httpd. Pour ce faire, il suffit d'utiliser l'adresse IP de la machine et le pid du processus httpd. Un processus httpd peut traiter plusieurs requï¿½tes simultanï¿½ment si vous utilisez un module MPM multi-threadï¿½. Pour identifier les threads, Apache httpd utilise en interne un index de threads. Ainsi, afin de gï¿½nï¿½rer des identifiants uniques pour chaque requï¿½te, il suffit d'effectuer une distinction en fonction du temps.

Pour dï¿½terminer le temps, nous utiliserons un repï¿½re de temps Unix (les secondes ï¿½coulï¿½es depuis le 1er janvier 1970 UTC), et un compteur 16 bits. La prï¿½cision du repï¿½re de temps n'ï¿½tant que d'une seconde, le compteur va reprï¿½senter 65536 valeurs par seconde. Le quadruplet (adresse IP, pid, repï¿½re de temps, compteur) est en mesure de distinguer 65536 requï¿½tes par seconde par processus httpd. Il peut cependant arriver que le mï¿½me pid soit rï¿½utilisï¿½ au cours du temps, et le compteur est lï¿½ pour pallier cet inconvï¿½nient.

Lorsqu'un processus enfant httpd est crï¿½ï¿½, le compteur est initialisï¿½ avec (nombre de microsecondes actuel divisï¿½ par 10) modulo 65536 (cette formule a ï¿½tï¿½ choisie pour ï¿½liminer certains problï¿½me de variance avec les bits de poids faibles du compteur de microsecondes sur certains systï¿½mes). Lorsqu'un identifiant unique est gï¿½nï¿½rï¿½, le repï¿½re de temps utilisï¿½ est le moment oï¿½ la requï¿½te arrive sur le serveur web. Le compteur est incrï¿½mentï¿½ ï¿½ chaque crï¿½ation d'identifiant (et peut repasser ï¿½ 0 lorsqu'il a atteint sa valeur maximale).

Le noyau gï¿½nï¿½re un pid pour chaque processus lors de sa crï¿½ation, et le compteur de pid est rï¿½initialisï¿½ ï¿½ une certaine valeur lorsqu'il a atteint sa valeur maximale (les pid sont codï¿½s sur 16 bits sous de nombreux Unixes, mais les systï¿½mes les plus rï¿½cents les ont ï¿½tendus ï¿½ 32 bits). La mï¿½me valeur de pid pourra donc ï¿½tre rï¿½utilisï¿½e au cours du temps. Cependant, tant qu'elle n'est pas rï¿½utilisï¿½e dans la mï¿½me seconde, elle ne remet pas en cause l'unicitï¿½ de notre quadruplet. Nous supposerons donc que le systï¿½me ne crï¿½era pas plus de 65536 processus en une seconde (ce nombre peut ï¿½tre de 32768 sous certains Unixes, mais mï¿½me dans ce cas, on est en gï¿½nï¿½ral loin de cette situation).

Il est possible que le temps se rï¿½pï¿½te pour une raison quelconque. Supposons par exemple que l'horloge systï¿½me soit retardï¿½e et repasse par un temps passï¿½ (ou bien, comme elle avanï¿½ait, elle a ï¿½tï¿½ remise ï¿½ l'heure, et elle repasse par un temps futur). Dans ce cas, il peut ï¿½tre facilement dï¿½montrï¿½ que le couple pid/repï¿½re de temps peut ï¿½tre rï¿½utilisï¿½. Le choix de la formule d'initialisation du compteur a ï¿½tï¿½ effectuï¿½ dans l'intention de pallier ce problï¿½me. Notez qu'un nombre vraiment alï¿½atoire serait souhaitable pour initialiser le compteur, mais il n'existe pas de tel nombre directement lisible sur la plupart des systï¿½mes (c'est ï¿½ dire que vous ne pouvez pas utiliser rand() car vous devez dï¿½clencher le gï¿½nï¿½rateur avec une valeur unique, et vous ne pouvez pas utiliser le temps ï¿½ cet effet car celui-ci , au moins ï¿½ la seconde prï¿½s, s'est rï¿½pï¿½tï¿½). Il ne s'agit donc pas d'une dï¿½fense parfaite.

Mï¿½me si elle n'est pas parfaite, quel est le degrï¿½ d'efficacitï¿½ de cette dï¿½fense ? Supposons qu'une de vos machines serve au plus 500 requï¿½tes par seconde (ce qui constitue une limite supï¿½rieure trï¿½s raisonnable au moment oï¿½ ce document est ï¿½crit, car les systï¿½mes ne se contentent en gï¿½nï¿½ral pas de dï¿½biter des fichiers statiques). Pour y parvenir, un certain nombre de processus enfants sera nï¿½cessaire, qui dï¿½pendra du nombre de clients simultanï¿½s prï¿½sents. Mais soyons pessimiste et supposons qu'un seul processus enfant soit capable de servir 500 requï¿½tes par secondes. Il existe 1000 valeurs de dï¿½marrage possibles du compteur pour lesquelles deux sï¿½quences de 500 requï¿½tes puissent se recouvrir. Il y a donc 1,5% de chance que le processus enfant rï¿½pï¿½te une valeur de compteur si le temps se rï¿½pï¿½te (avec une rï¿½solution d'une seconde), et l'unicitï¿½ sera alors remise en cause. C'est cependant un exemple trï¿½s pessimiste, et avec les valeurs du monde rï¿½el, il y a bien moins de chances que cela ne se produise. Si vous estimez que ceci a tout de mï¿½me quelque chances de se produire sur votre systï¿½me, vous pouvez migrer vers un compteur ï¿½ 32 bits (en modifiant le code).

On pourrait supposer que ceci a plus de chance de se produire lors du passage ï¿½ l'heure d'hiver oï¿½ l'horloge est "retardï¿½e". Cela ne constitue cependant pas un problï¿½me car les temps pris en compte ici sont des temps UTC, qui vont "toujours" de l'avant. Notez que les Unixes ï¿½ base de processeur x86 peuvent nï¿½cessiter une configuration particuliï¿½re pour que ceci soit vrai -- il doivent ï¿½tre configurï¿½s pour assumer que l'horloge systï¿½me est en UTC et compenser de maniï¿½re appropriï¿½e. Mais mï¿½me dans ce cas, si vous utilisez NTP, votre temps UTC sera correct peu aprï¿½s le redï¿½marrage.

La variable d'environnement UNIQUE_ID est construite par codage du quadruplet de 144 bits (adresse IP sur 32 bits, pid sur 32 bits, repï¿½re de temps sur 32 bits, compteur 16 bits et index de threads sur 32 bits) en utilisant l'alphabet [A-Za-z0-9@-] d'une maniï¿½re similaire ï¿½ celle du codage MIME base64, et sa valeur se prï¿½sente sous la forme d'une chaï¿½ne de 24 caractï¿½res. L'alphabet MIME base64 est en fait [A-Za-z0-9+/] ; cependant, les caractï¿½res + et / nï¿½cessitent un codage particulier dans les URLs, ce qui rend leur utilisation peu commode. Toutes les valeurs sont codï¿½es dans l'ordre des octets d'une adresse rï¿½seau de faï¿½on ï¿½ ce que le codage soit comparable entre des architectures oï¿½ l'ordre des octets est diffï¿½rent. L'ordre rï¿½el de codage est : repï¿½re de temps, adresse IP, pid, compteur. Cet ordre de codage possï¿½de un but prï¿½cis, mais il faut souligner que les applications n'ont aucun intï¿½rï¿½t ï¿½ entrer dans les dï¿½tails de ce codage. Les applications doivent se contenter de traiter la variable UNIQUE_ID comme un symbole opaque, qui peut ï¿½tre comparï¿½ avec d'autres UNIQUE_IDs en ne testant que leur ï¿½galitï¿½.

L'ordre a ï¿½tï¿½ choisi de faï¿½on ï¿½ ce qu'il soit possible de modifier le codage dans le futur sans avoir ï¿½ se prï¿½occuper de conflits ï¿½ventuels avec une base de donnï¿½es de UNIQUE_IDs existante. Les nouveaux codages doivent conserver le repï¿½re de temps comme premier ï¿½lï¿½ment, et pour le reste, utiliser les mï¿½me alphabet et longueur en bits. Comme les repï¿½res de temps constituent essentiellement un sï¿½quence croissante, il suffit que toutes les machines du cluster arrï¿½tent de servir et de requï¿½rir dans la mï¿½me seconde repï¿½re, et n'utilisent alors plus l'ancien format de codage. Ensuite, elles peuvent reprendre le traitement des requï¿½tes en utilisant les nouveaux codages.

Nous pensons que ceci apporte une solution relativement portable au problï¿½me. Les identifiants gï¿½nï¿½rï¿½s possï¿½dent une durï¿½e de vie pratiquement infinie car les identifiants futurs pourront ï¿½tre allongï¿½s selon les besoins. Pratiquement aucune communication n'est requise entre les machines du cluster (seule la synchronisation NTP est requise, ce qui reprï¿½sente une charge trï¿½s faible), et aucune communication entre les processus httpd n'est nï¿½cessaire (la communication est implicite et incluse dans le pid assignï¿½ par le noyau). Dans des situations trï¿½s spï¿½cifiques, l'identifiant peut ï¿½tre raccourci, mais dans ce cas, d'avantage d'informations doivent ï¿½tre admises (par exemple, les 32 bits de l'adresse IP sont excessifs pour la plupart des sites, mais il n'existe pas de valeur de remplacement portable plus courte).

Module Apache mod_unique_id

Sommaire

Directives

Sujets

Thï¿½orie

Commentaires