Also für den Kontext:
- Das erste statistik-script (hört auf den namen "tool" engl. Werkzeug), war komplett in Bash und hat direkt auch Beiträge gezählt. Datensätze aus Name und Anzahl wurden Zeilenweise als .txt gespeichert.
- Das zweite script bestand aus "loot" ("tool" rückwärts und ich fand das passend, weil es das Forum looted) in Bash und "Untitled" (ja, ich habe es nicht benannt) in Python. Ersteres hat ein CLI und lädt zu jedem Beitrag Name, Timecode und auf Wunsch die erste Zeile des Beitrages runter und speichert diese Datensätze zeilenweise als .txt Datei. Das python script lädt diese und und wertet aus.
- Jetzt habe ich "loot 2.0" geschrieben, das alle Seiten lädt und zunächst als rohdatensatz zeilenweise in einer .txt.gz ablegt (.gz heißt komprimiert, die eigentliche .txt wäre fast 0,25 GB groß). Diese .txt kann eingelesen und alle interessanten Daten werden extrahiert (Spieler Id, Spielernamen, Post Id, Zeitstempel, Likes, Zitate, Text,...).
- Aus performancegründen schreibe ich "loot 2.1" was auf dem unfertigen "loot 2.0" beruht, aber auf eine geringere RAM aulastung optimiert ist.