Des statistiques et des Lego

Postez ici ce qui ne correspond à aucune des autres rubriques !
Avatar de l’utilisateur
jyd80
Level 6
Level 6
 
Messages: 277
Localisation: Plön (Allemagne)
Âge: 43 ans
moceurtechnicexpert

Messagepar jyd80 » Mar Juin 09, 2015 8:25 am

Ce poste est un peu spécial... il s'agit d'un projet qui me trotte dans la tête depuis pas mal de temps. Depuis que je fréquente les Peeron, Brickset et autre Rebrickable, je n'ai qu'une envie, celle de mettre la main sur ces données et faire tout plein de statistiques (ouaip, c'est sûrement pas très sain tout ça, je vais songer à consulter :D). Bref, j'ai récemment découvert l'API publique de Rebrickable... et du coup, j'ai pû faire quelques petits scripts qui m'ont permi de récupérer toutes ces données sous forme exploitable statistiquement. L'idée principale derrière tout ça je vous la dévoilerai quand j'aurai progressé un peu (et si ça vous intéresse), mais en attendant, je ne résiste pas à l'envie de partager quelques résultats très basiques (qui ne surprendront pas les érudits de ce forum).

Quel est le set avec le plus grand nombre de pièces ?

Image

Tout baigne, on retrouve le Taj-Mahal en number 1, rien de nouveau sous le soleil. Pour info, les 9 suivants.

Pour la suite, j'ai cherché à estimer la diversité des sets lego. Là ce n'est pas aussi trivial que celà en à l'air, car tout dépend de comment on définit ce qu'on appelle "diversité". On touche alors à une thématique très discutée en écologie (scientifique, pas politique). En écologie, on cherche à estimer la diversité biologique d'un écosystème, sur la base des fréquences de chaque espèce. En legotique, on va estimer la diversité d'un set sur la base des comptages de chaque pièce.
Pour chacune de ces analyses, je présente trois types de calculs:
  • sur la base des pièces individuelles, où une pièce est une combinaison element_id - couleur
  • sur la base des element_id, quelque soit leur couleur
  • sur la base des couleurs uniquement, quelque soit l'element_id

Les résultats sont présentés sous forme de "Top 10", avec les données telles que disponibles au 05 juin 2015.

Quel est le set avec la plus grande "richesse" ?

La première estimation possible de la diversité, c'est la richesse, à savoir, le nombre total de pièces distinctes, en prenant en compte la couleur (1), ou pas (2) :
1:Image 2:Image

Et le grand vainqueur est le SeaCow !!! (awesome!).

Si on regarde le nombre de couleurs différentes, quelque soient les pièces, on obtient:

3:Image

Avec les lego filles en tête, du Creator et les Simpsons.

Quel est le set avec la plus grande "richesse", relativement à sa taille ?

Les classements précédents sont naturellement biaisés vers les gros sets : plus on a de pièces, plus on a de chances d'avoir des pièces et des couleurs différentes, en toute logique. Du coup, il est intéressant de rapporter la richesse à la taille du set (ici en pourcentage, la encore en prenant en compte la couleur (1) ou pas (2)). Pour ces calculs, je ne considère que les sites de plus de 100 pièces.

1:Image 2:Image

Au passage, le pourcentage > 100 est lié aux pièces surnuméraires, non comptées dans la taille du set.

C'est quoi le 4562??? Ben c'est ça:

Image

(pour le fun, jetez un oeil au listing des pièces sur rebrickable, notamment les "spare parts"... ceci explique celà). Et le 7414 alors ? Ben c'est un set de 2003, avec plein de pièces spécialisées :

Image

Si je ne m'abuse, c'est justement ce type de sets avec plein de pièces uniques qui a mis TLC dans la panade et lui a vallu un redressement quelque peu drastique par la suite.

Quant aux couleurs, ça donne ça:

3:Image

On a en tête le 10684:

Image

un set Junior de 2015, suivi d'un set Belville de 2004

Image

(à ne surtout pas confondre avec des sets plus récents...)


Quel est le set avec la plus grande quantité d'une pièce ?

Une autre mesure de diversité, ou plutôt de "non-diversité", c'est de regarder l'abondance maximale, à savoir la quantité maximale dune pièce / couleur donnée. Ce qui nous donne (en prenant en compte la couleur (1) ou pas (2) ) :

1:Image 2:Image

Pas de grosse surprise, on trouve en tête la Robie House (lego Archi), avec ses 771 plates 1x2 rouges ! Si on ne prend en compte que la forme du moule, celle-ci se fait devancer par le Taj Mahal et ... le 1513. Tiens, encore un alien, et de 1972 siuplait ! Voici la bête :

Image

Quant aux couleurs, ça nous donne :

3:Image

Là y'a pas photo, on retrouve en tête les sets du thème "sculpture", avec le Taj-Mahal, la statue de la liberté, la tour Eiffel... et la Death Star II ( ;-) ).

Comme précédemment, on peut raporter ces mesures à la taille des sets. Celà revient à regarder la fréquence maximale parmi toutes les pièces d'un set, ce qui donne (en pourcentage, encore une fois) :

1:Image 2:Image

3:Image

La c'est un peu moins intéressant, on retrouve en tête pas mal de sets de type "kit". A noter quand même la Farnsworth House, avec ses #%*µ$" de tiles 1x1 blanches.


Quel est le set avec la plus grande entropie ?

Pour finir, voici une estimation un peu plus avancée. Il s'agit de l'indice de diversité de Shannon, équivalent à l'entropie d'un système en thermodynamique (aussi utilisée en "théorie de l'information").
L'entropie se définie comme suit:

H = somme sur i ( - p_i * log(p_i) )

où les p_i sont les fréquences non-nulles de chaque pièce et log désigne le logrithme, de base quelconque (la base du log définit simplement le maximum observable, on s'en fiche tant qu'on utilise toujours le même. Ici j'ai pris le log naturel). C'est une mesure synthétique, qui prend en compte toutes les fréquences de toutes les pièces. On peut montrer que les diverses mesures évoquées sont des cas particulier de la mesure entropique (ou plutôt de l'exponentielle de cette dernière). La diversité sera maximale si on a un grand nombre de pièces en fréquences égales et moindre si une pièce domine. L'entropie sera nulle si le set n'est composé que d'une seule pièce. On a donc:

1:Image 2:Image

(nb: les valeurs indiquées sont l'exponentielle de l'entropie du set, définie sur la base du logarithme naturel).

On retrouve pas mal de sets assez récents, le tout dernier Simpson en tête ! Il s'agit donc du set le plus varié jamais créé par TLC :) Ca illustre assez bien la tendance du TLC post-2003: on créé de nouvelles pièces, oui, mais on essaye de les rentabiliser au maximum en les réutilisant.

Côté couleurs, ça nous donne

3:Image

tiens, des sets Creator de 2015 :)

Ce sera tout pour maintenant... la prochaine étape consiste à synthétiser ces résultats par thème, puis regarder les tendances au cours du temps.

Avatar de l’utilisateur
Anio
Administrateur
Administrateur
 
Messages: 19497
Âge: 37 ans
revieweurmoceurstarwarsexpertambassadeur

Messagepar Anio » Mar Juin 09, 2015 10:43 am

jyd80 a écrit:Si je ne m'abuse, c'est justement ce type de sets avec plein de pièces uniques qui a mis TLC dans la panade et lui a vallu un redressement quelque peu drastique par la suite.

Oui et non.
Un nombre élevé de références dans un set n'est pas forcément synonymes de mauvais set. C'est juste un set plus couteux. D'ailleurs, le set avec l'éléphant que tu montres semble assez réussi en terme de design, jouabilité, détails, etc.

Ce set présente donc peut-être un peu le syndrome du "trop de ref". Mais le syndrome du "trop de ref" chez Lego était surtout imputable à des pièces très spécialisées peu réutilisables. Jack Stone, Znap, etc. Mais le coût de production (nombre de ref, complexité du produit), n'est pas forcément un problème majeur. Tant que tu arrives à le vendre, ça va à peu près. Un cout plus élevé, ca te fait juste une marge un peu moins forte.

Le problème majeur, c'est que les volumes de ventes se cassaient la gueule du fait de la piètre qualité des produits : Jack Stone c'est moche, Znap c'est une abomination de la nature, Time Cruisers, c'est des trucs qu'un gamin de 5 ans n'oserait même pas présenter à son père, ou énormément de sets sans intérêt comme celui-ci : http://www.bricklink.com/catalogItem.asp?S=1272-1

Donc oui, faire de sets complexes (en terme de production, logistique), a augmenté les couts. Mais c'est surtout la nette baisse de qualité des sets qui a fait que les ventes se sont écroulées.
Think outside the box.

Tout plein de liens utiles dans mon profil ! :P

Avatar de l’utilisateur
BUZ
Level 9
Level 9
 
Messages: 1410
Localisation: Région de la quenelle // Avignon
expertgbb

Messagepar BUZ » Mar Juin 09, 2015 10:56 am

Anio a écrit:Le problème majeur, c'est que les volumes de ventes se cassaient la gueule du fait de la piètre qualité des produits : Jack Stone c'est moche, Znap c'est une abomination de la nature, Time Cruisers, c'est des trucs qu'un gamin de 5 ans n'oserait même pas présenter à son père, ou énormément de sets sans intérêt comme celui-ci : http://www.bricklink.com/catalogItem.asp?S=1272-1


le 1272 d'Anio de 2000
Image

et le 886 de 1979 (trop minions tout plein !)
Image

comme quoi, y'a vraiment eu un raté de style a un moment ...

pour les chiffres en généralement, je ne sais pas trop quoi dire.
Parler d'un Taj avec son trololo nombre de pièces, c'est bien, mais on oubli surtout la répétabilité du truc ...

Avatar de l’utilisateur
jyd80
Level 6
Level 6
 
Messages: 277
Localisation: Plön (Allemagne)
Âge: 43 ans
moceurtechnicexpert

Messagepar jyd80 » Mar Juin 09, 2015 12:11 pm

Anio a écrit:Oui et non.
Un nombre élevé de références dans un set n'est pas forcément synonymes de mauvais set.


Tout à fait, ce n'était pas mon propos. Je soulignais juste le fait du nombre de références élevé, que je trouvais symptomatique. Mais je suis bien d'accord que la cause première de la chutte ça a surtout été la qualité des sets eux-même, qui est une autre mesure que leur simple diversité, surtout telle que basée seulement sur les comptages.

BUZ a écrit:pour les chiffres en généralement, je ne sais pas trop quoi dire.
Parler d'un Taj avec son trololo nombre de pièces, c'est bien, mais on oubli surtout la répétabilité du truc ...


Là aussi, tout à fait d'accord. Les comptages ne sont qu'un aspect. Idéalement, si tous les sets étaient digitalisés, on pourrait développer des estimateurs bien meilleurs basés sur les assemblages etc (mais là ce serait autrement plus compliqué, et les données ne sont de toute façon pas là, du moins dans le domaine public !).

Avatar de l’utilisateur
ramoutcho_7387
Level 11
Level 11
 
Messages: 2602
Localisation: France, Franche-Comté, Doubs, Besançon, 25000
Âge: 37 ans
collectionneur

Messagepar ramoutcho_7387 » Mar Juin 09, 2015 3:08 pm

Brickset a depuis peu un outil de "statistiques" en plus de proposer quasiment tous les sets produits par Lego et tiers (DK pour les livres notamment), le tout avec inventaires. Il y a peut-être à creuser chez eux pour faire ton projet, non?

Avatar de l’utilisateur
jyd80
Level 6
Level 6
 
Messages: 277
Localisation: Plön (Allemagne)
Âge: 43 ans
moceurtechnicexpert

Messagepar jyd80 » Dim Juil 05, 2015 9:25 pm

Bonsoir,

Voici le second volet de mes statistiques...
Les comptages sont les mêmes que précédemment, je présente seulement les moyennes par "thème". La catégorisation en thème est selon la nomenclature du site Rebrickable, donc pas forcément officielle...

Les thèmes avec les plus gros sets

Image

On a clairement un gros trio de tête, avec les set "sculture" (pas vraiment un thème officiel je pense, plutôt l'ancêtre des creator experts ?), les modular buildings et la FIRST LEGO League. Pour ceux qui, comme moi jusqu'alors, ignorent ce qu'est la FIRST LEGO League, on peut dire que c'est une série de sets de type "education" ([url]=> wikipedia[/url]).



Les thèmes les plus "riches"

Par la suite, et comme précédement, je considère trois methodes de comptage (dans cet ordre à chaque fois) :
  • par élément-couleur
  • par élément, quelque soit leur couleur
  • par couleur seulement, ignorant le type d'élément


On commence par regarder le nombre de pièces distinctes:

1)Image

Les modulars tiennent bien la tête du classement, suivi des FLL. En troisième position, on a les model team (ah nostalgie...), et ensuite des thèmes assez récents (Jurrassic World, Agents, etc) qui reflètent bien la diversité actuelle.
Si on ignore l'aspect couleur, on a somme toute quelque chose d'assez similaire, les model team descendent un peu, surement parce que le nombre de couleurs était moindre à cette époque:

2)Image

Finalement, si on compare seulement la richesse colorifique, alors notre trio de tête est détroné par les lego filles, Elves et Disney Princess:

3)Image

Là encore, on voit qu'on a majoritairement des thème récents dans cette tête de liste.

On peut faire le même exercice en corrigeant pour la taille des sets, on comparant les richesses relatives moyennes par thème:

1)Image 2)Image
3)Image

Le numéro 1 unanime de ces classements est cette fois le thème Ninja. Ninja (attention, c'est pas Ninjago !) est un thème de 1999 contenant des sets de relative petite taille (cf http://rebrickable.com/search?q=ninja&theme=063&numpieces=0&maxpieces=1050&year=1970&yearto=2015&official=1&exclude=1&pt=0&c=-1&sets=&showprints=1).



Les thèmes avec la plus grande quantité d'une pièce

1)Image 2)Image
3)Image

Bon, rien de bien nouveau ici, à part l'arrivée du thème architecture dans le trio de tête. Si on normalise par le taille des sets:

1)Image 2)Image
3)Image

Alors là par contre ça bouge un peu : on a minitalia et Ben 10 en haut du classement. Ben 10, c'est un thème de 6 sets de 2010, un des premiers à utiliser les pièces de type "hero factory". Et encore, on est loin de la complexité de ces derniers... du coup ce sont des sets très simples à petit nombre de pièces. Minitalia par contre, c'est une autre histoire ! Ce sont des sets des années 70, produits en italie pour des histoires de réglementation. J'imagine que, vu que TLC a dû développer une chaîne de fabrication complète ex-situ, ils ont surement simplifié la chose et réduit le nombre de pièces au catalogue. Côté couleur, le numéro 1 est le thème Spybiotics de 2002, contenant 4 sets... essentiellement noirs (ou very very dark grey).



Les thèmes avec la plus grande entropie

On finit avec cette mesure synthétique d'"entropie" (cf premier post). Pour rappel, une entropie max présente une plus grande diversité. Les résultats sont très proches de ceux obtenus par les mesures de "richesse" :

1)Image 2)Image
3)Image


Ce post termine la partie purement descriptive. Au prochain épisode, je vais essayer de montrer l'évolution des tendances au cours du temps.
Dernière édition par jyd80 le Lun Juil 06, 2015 9:32 am, édité 1 fois au total.

Avatar de l’utilisateur
Kwear
Level 12
Level 12
 
Messages: 3207
Localisation: Auvergne/Rhone Alpes (Haute Loire/Loire)

Messagepar Kwear » Lun Juil 06, 2015 1:32 am

Ecoute, ton étude est une de celle que j'ai le plus scrutée. D'abord merci pour ce travail de stats.
Je donnerai mes "conclusions d'impression" après. d'abord 2 remerciements. Le premier au delà de l'étude, parce que j'ai appri un nouveau mot, "entropie"; Je suis donc allé me cogner (joyeusement) définitons et historiques. Celle de l'information développée par C.Shannon est sans doute la plus intéressante. Avec ses corrélations dans les lois de la physique qui explique mieux pourquoi certains souhaitent tant maîtriser la dite info.

Deuxième remerciement à Anio, parce que j'ai appris l'existence de thèmes que je ne connaissais pas, comme Time Cruiser, un ancêtre du style Steam Punk. Toujours étrange, mais rigolo à défaut d'être aussi intéressant qu'un Sea Cow.

Pour la petite voiture comparée avec perspicacité avec la voiture de l'espace (mon tout premier set Lego) space classic, c'est là qu'on voit que ça tient à peu de chose, le style. Car on a des pièces très proches, une simplicité de conception qu'on peut difficilement dépasser pour un set officiel. Et pourtant en effet, l'un est sans intérêt, alors que le véhicule lunaire a charmé et charme encore avec sa bouille et ses 9 pièces au garot.

L'étude sous plusieurs critères, bravo. 8)
"La mesure qui vous sert pour les autres servira aussi pour vous. Pardonnez et vous serez pardonnés." Jésus-Christ

Avatar de l’utilisateur
mathieulego
Level 8
Level 8
 
Messages: 930
Localisation: Région de Sarreguemines - Strasbourg
Âge: 25 ans

Messagepar mathieulego » Lun Juil 06, 2015 8:43 am

Intéressant ces étude :think: merci à toi ;)


Retourner vers Autres

Qui est en ligne ?

Utilisateurs parcourant actuellement ce forum : Aucun utilisateur inscrit et 7 invités

cron