
Quel est le set avec le plus grand nombre de pièces ?

Tout baigne, on retrouve le Taj-Mahal en number 1, rien de nouveau sous le soleil. Pour info, les 9 suivants.
Pour la suite, j'ai cherché à estimer la diversité des sets lego. Là ce n'est pas aussi trivial que celà en à l'air, car tout dépend de comment on définit ce qu'on appelle "diversité". On touche alors à une thématique très discutée en écologie (scientifique, pas politique). En écologie, on cherche à estimer la diversité biologique d'un écosystème, sur la base des fréquences de chaque espèce. En legotique, on va estimer la diversité d'un set sur la base des comptages de chaque pièce.
Pour chacune de ces analyses, je présente trois types de calculs:
- sur la base des pièces individuelles, où une pièce est une combinaison element_id - couleur
- sur la base des element_id, quelque soit leur couleur
- sur la base des couleurs uniquement, quelque soit l'element_id
Les résultats sont présentés sous forme de "Top 10", avec les données telles que disponibles au 05 juin 2015.
Quel est le set avec la plus grande "richesse" ?
La première estimation possible de la diversité, c'est la richesse, à savoir, le nombre total de pièces distinctes, en prenant en compte la couleur (1), ou pas (2) :
1:


Et le grand vainqueur est le SeaCow !!! (awesome!).
Si on regarde le nombre de couleurs différentes, quelque soient les pièces, on obtient:
3:

Avec les lego filles en tête, du Creator et les Simpsons.
Quel est le set avec la plus grande "richesse", relativement à sa taille ?
Les classements précédents sont naturellement biaisés vers les gros sets : plus on a de pièces, plus on a de chances d'avoir des pièces et des couleurs différentes, en toute logique. Du coup, il est intéressant de rapporter la richesse à la taille du set (ici en pourcentage, la encore en prenant en compte la couleur (1) ou pas (2)). Pour ces calculs, je ne considère que les sites de plus de 100 pièces.
1:


Au passage, le pourcentage > 100 est lié aux pièces surnuméraires, non comptées dans la taille du set.
C'est quoi le 4562??? Ben c'est ça:

(pour le fun, jetez un oeil au listing des pièces sur rebrickable, notamment les "spare parts"... ceci explique celà). Et le 7414 alors ? Ben c'est un set de 2003, avec plein de pièces spécialisées :

Si je ne m'abuse, c'est justement ce type de sets avec plein de pièces uniques qui a mis TLC dans la panade et lui a vallu un redressement quelque peu drastique par la suite.
Quant aux couleurs, ça donne ça:
3:

On a en tête le 10684:

un set Junior de 2015, suivi d'un set Belville de 2004

(à ne surtout pas confondre avec des sets plus récents...)
Quel est le set avec la plus grande quantité d'une pièce ?
Une autre mesure de diversité, ou plutôt de "non-diversité", c'est de regarder l'abondance maximale, à savoir la quantité maximale dune pièce / couleur donnée. Ce qui nous donne (en prenant en compte la couleur (1) ou pas (2) ) :
1:


Pas de grosse surprise, on trouve en tête la Robie House (lego Archi), avec ses 771 plates 1x2 rouges ! Si on ne prend en compte que la forme du moule, celle-ci se fait devancer par le Taj Mahal et ... le 1513. Tiens, encore un alien, et de 1972 siuplait ! Voici la bête :

Quant aux couleurs, ça nous donne :
3:

Là y'a pas photo, on retrouve en tête les sets du thème "sculpture", avec le Taj-Mahal, la statue de la liberté, la tour Eiffel... et la Death Star II ( ;-) ).
Comme précédemment, on peut raporter ces mesures à la taille des sets. Celà revient à regarder la fréquence maximale parmi toutes les pièces d'un set, ce qui donne (en pourcentage, encore une fois) :
1:


3:

La c'est un peu moins intéressant, on retrouve en tête pas mal de sets de type "kit". A noter quand même la Farnsworth House, avec ses #%*µ$" de tiles 1x1 blanches.
Quel est le set avec la plus grande entropie ?
Pour finir, voici une estimation un peu plus avancée. Il s'agit de l'indice de diversité de Shannon, équivalent à l'entropie d'un système en thermodynamique (aussi utilisée en "théorie de l'information").
L'entropie se définie comme suit:
H = somme sur i ( - p_i * log(p_i) )
où les p_i sont les fréquences non-nulles de chaque pièce et log désigne le logrithme, de base quelconque (la base du log définit simplement le maximum observable, on s'en fiche tant qu'on utilise toujours le même. Ici j'ai pris le log naturel). C'est une mesure synthétique, qui prend en compte toutes les fréquences de toutes les pièces. On peut montrer que les diverses mesures évoquées sont des cas particulier de la mesure entropique (ou plutôt de l'exponentielle de cette dernière). La diversité sera maximale si on a un grand nombre de pièces en fréquences égales et moindre si une pièce domine. L'entropie sera nulle si le set n'est composé que d'une seule pièce. On a donc:
1:


(nb: les valeurs indiquées sont l'exponentielle de l'entropie du set, définie sur la base du logarithme naturel).
On retrouve pas mal de sets assez récents, le tout dernier Simpson en tête ! Il s'agit donc du set le plus varié jamais créé par TLC
.gif)
Côté couleurs, ça nous donne
3:

tiens, des sets Creator de 2015
.gif)
Ce sera tout pour maintenant... la prochaine étape consiste à synthétiser ces résultats par thème, puis regarder les tendances au cours du temps.