Główny notebook projeku: Projektv4
Zbiór danych, który będziemy analizować zawiera dane dotyczące użytkowników serwisu Twitter. Opisane są m. in. opis profilu, tekst tweetu oraz kolory profilu użytkownika.
Celem projektu jest przewidywanie płci użytkownika na podstawie informacji dostępnych na jego profilu w serwisie Twitter.
- sprawdzenie zależności między posiadanymi danymi,
- zbadanie ich zakresów i stopnia zmienności,
- analiza stopnia wypełnienia danych,
- przetwarzanie języka naturalnego,
- wizualizacja.
- opracowanie modelu klasyfikacji,
- dobór cech,
- wyciągnięcie wniosków z zależności.
- Multinomial Naive Bayesian Classifier,
- KNeighbors Classifier,
- Random Forest Classifier.