*** ## Concepts importants ``` dataview TABLE length(file.outlinks) AS "Liens sortants", length(file.inlinks) AS "Liens entrants" WHERE file.path = this.file.path ``` Types of data : [[categorical variables]] [[numerical variables]] all the value possible combined = the sample space #### Comment compter le pourcentage de 3 points qu'a mis un joueur On plonge dans les proportions La variable est composée de categorical nominal data such as "failed a 3-point" or "succeeded a 3-point" -> agregate thoses informations to provide a numerical summary figure ex : 0.4567 over 128 shots askew distributions of a continuous data over individuals for example x : 1 à 100 (euros par exemple) la courbe = distribution des gens en fonction de comment ils se placent ![[Capture d’écran 2026-01-17 à 00.00.52.png]] This curve is called the normal curve = si on sélectionne une personne au hasard parmi toute la population de genre 1 million de personnes (n = 1) Si y'a pile le même nombre de gens sur chacun des points de la variable continue alors la courbe est plate Si y'a plus de gens vers les 100 euros = left askew et inverse = right askew Mais qu'est-ce qui se passe si on sélectionne plus que 10 personnes sur l'ensemble de la population et qu'on fait la moyenne de leur revenu (n = 10) ![[Capture d’écran 2026-01-17 à 00.06.28.png]] La courbe est plus fine car il y a quasiment aucune chance pour que je séletionne 10 fois d'affilée des individus avec très peu d'argent. **Plus l'échantillon (sampler) est grand et moins il y a de chances d'obtenir des moyennes extrêmes** La distribution est plus fine, la variance est réduite Mais comment savoir si notre échantillon était [[significatif|significant]] ? On va apprendre à le faire Ex : si on prend un échantillon de 1500 individus et qu'on dit que leur salaire moyen est de 35 euros alors qu'a côté on prend 15 individus et on trouve que leur salaire moyen c'est 45 euros, quel échantillon est le + pertinent ? Celui de 15 individus est moins significant... Avec theta = **Commande ⌘ + Contrôle ⌃ + Espace** -> 𝛳 On va essayer de trouver quel est l'exact revenu de la population Et à partir des échantillons, theta sera + ou - large permet de mesurer l'incertitude ![[Capture d’écran 2026-01-17 à 00.31.17.png]] Create a null hypothesis ![[Vidéo sur les stats]] En gros dans son exemple on a un joueur qui a 6/15 réussi ses shoots soit 0.6 proportion de shoots réussis La question est : est-ce qu'il a au-dessus de 0.5 ? On pose donc l'hypothèse que l'inverse est vrai, on a besoin de beaucoup de données allant dans ce sens et après on fait l'autre hypothèse H1 = 𝛳 > 0.5 En gros tu fais la distribution des shoots en fonction comme s'il avait 0.5% de chances d'en réussir à chaque fois Et ensuite tu vas sur ta distribution et tu regardes quels résultats sont plausibles ou ceux que tu juges trop extrêmes pour rentrer dans l'hypothesis null généralement le seuil c'est 5% ("une étoile") mais ça pourraît aussi être 0.1% (trois étoiles) **Si on obtient un résultat extrême, on va rejeter the null hypothesis puisque ça ne peut pas être du à la chance** (en jaune) ![[Capture d’écran 2026-01-17 à 00.44.35.png]] Résultats : ![[Capture d’écran 2026-01-17 à 00.49.39.png]] Le sample size est trop petit hypothesis tests = regarde si le sample est suffisamment extrême pour rejeter the null hypothesis p-values = measure how extreme our sample is ex : le test statistique était dans les 30% les plus hauts of the distribution p-value = small, more likely to reject H0 p-value = large, less likely to reject H0 Si p-value < level of significance = rejects HO Good research : 1) Theorise an effect 2) Collect data 3) Test only that effect 4) if p-value < 0.05 = strong evidence for effect Bad research (p-hacking) : 1) collect data without theorising a precise effect 2) Test many effects 3) Find effects where p < 0.05 4) conclude strong evidence for these effects problem = if you test 20 different things, probabilities to have something with the good p-value by chance and just pretend to say that was what we were searching for