blog.idnes.cz selected analysis

Výsledky

Toto jsou individuální statistiky některých blogerů.

Aby měli všichni stejný - nebo alespoň podobný - základ tak jsem při zpracování vzal v potaz jen posledních cca 120 blogů (6 stránek v archivu).

Ve výsledcích občas dělím slova podle jejich četnosti v tomto souboru (ale pozor, je velký 5 mega, takže se bude chvíli natahovat) - a to na slova častá (s četností nad 9000), těch je 482, dále na slova běžná (s četností méně než 9000 ale více než 100), takových je 33282, a konečně na slova vzácná (s četností méně než 100), což je zbytek souboru (těch je v nezkrácené verzi něco kolem 800 tisíc).

Ve výsledcích používám desetinnou tečku.

Vysvětlivky:

Většina slov, které používáme se opakuje, proto u položky "slov" uvádím i kolik z nich je různých (v rámci daného blogerského souboru). Stejně tak ne všechny znaky, které používáme jsou písmenka (některé jsou mezery, čísla, interpunkce atd), a proto u znaků uvádím též kolik procent z nich jsou písmenka.

U frekvencí vybraných slov jsem vzal v úvahu i jejich gramatické varianty, takže např. frekvence pro slovo "který" v sobě zahrnuje i tvary "která", "které" atd. V tabulkách už ale každá gramatická varianta kope jen sama za sebe.

Genderový stereotyp ukazuje, zda je používání častých slov u blogera poplatnější mužskému či ženskému průměru. Rozdělovací hranice je cca kolem 0.15 - vše pod touto hodnotou se blíží mužskému průměru, nad touto hodnotou ženskému. Z těch častých slov jsem vyházel ta, kde se jejich výskyt u žen a u mužů moc neliší a také ta, kde gramatická forma sama o sobě indikuje určitý rod (tedy slova jako byl/byla, který/která apod.).

Prominence je veličina, která ukazuje o kolik je dané slovo u blogera častější než u zbytku populace. Je to nastaveno tak, že čím je prominence vyšší (kladnější), tím je dané slovo u blogera běžnější (opět ve srovnání se zbytkem blogerské populace).

tudyma zpátky na index