Data is fun! - Auf einem Streifzug durch meine Daten

10 Jan 2015
3.445
Hallo, liebste Community,

wer mich kennt, weiß, dass ich das Sammeln und Auswerten von Daten seitens bestimmter Dienstleister zwar nicht besonders gut heiße, aber wie schon ein weiser Mann (aka. @SteuerungC :waaah:) mal formuliert hat:

Am Ende muss ich, wenn ich das Internet und meine Geräte nutzen möchte, so, wie ich das kenne, einer Firma meine Daten anvertrauen.

Da ich prinzipiell gerne Musik höre, aber vor dem selben Problem stehe, wie der Spotify-Gründer, dass ich schlicht einfach das Geld nicht habe, um mir diese Musik zu kaufen, habe ich vor etwas mehr als einem Jahr einen Spotify-Account angelegt. Da ich es mir weiterhin zum Spaß mache, meine Daten nach DSGVO bei den Dienstleistern anzufordern, habe ich dies auch mit meinen Spotify-Daten gemacht.

Da ich als studentische Hilfskraft in einem Institut Daten auswerte, bin ich mit einigen Tools dafür vertraut und habe mir für meine Spotify-Daten, die im JSON-Format vorliegen, mithilfe der KNIME Analytics Platform und der Programmiersprache R, sowie der Bibliotheken-Sammlung "Tidyverse" und der Bibliothek "wesanderson", beides für R, eine automatisierte Auswertepipeline für meinen Streamingverlauf geschrieben.

Spotify übergibt dir deine Daten, wie bereits erwähnt, in einem Format, das sich JSON nennt und zwar nicht unbedingt perfekt menschen-, dafür aber hervorragend maschinenlesbar ist. Relevant aus den Daten, die man erhält, ist für meine Auswertung lediglich die "SreamingHistory", die scheinbar nach Clients aufgeteilt ausgeliefert wird.

1607184132920.png


Ich habe also, wie ich es jedes Mal mache, wenn ich mir meine Daten eines Dienstleisters anschaue, die einzelnen Dateien geöffnet und näher betrachtet. Besonders uninteressant sind für mich die Dateien Payments, Identity, Follow, Userdata und YourLibrary, denn ich weiß, wer ich bin, was für Daten ich bei Spotify hinterlegt habe und welche Zahlungen ich an Spotify vorgenommen habe, ferner weiß ich auch, welche Musik ich in meiner Spotify-Bibliothek gespeichert habe. Auch meine SearchQueries sind eher uninteressant, da ich Musik sehr gezielt auswähle, denn ich höre auf Spotify nur Musik, die ich nicht bereits besitze. Die Datei Inferences ist wiederum etwas interessanter, denn sie weist deinem Account Eigenschaften zu, die auf deinem Nutzerverhalten basieren. Diese Eigenschaften machen es einfacher, dir Musik zu empfehlen, die du magst (oder zumindest glaubst, zu mögen...).

Letztlich wende ich mich aber der StreamingHistory zu, der Datei, die jeweils Abspieldatum, Artist, Track und Abspieldauer enthält. Die Abspieldauer ist insofern relevant, als dass ein Song bei Spotify nur dann als angehört gilt, wenn du ihn für eine bestimmte Dauer gehört hast. In dieser Datei sind weder Genre noch Album hinterlegt, weil diese Zuweisungen vermutlich intern von Spotify, bzw. als Playlists organisiert werden.

Aus der Abspielzeit lässt sich zunächst errechnen, wie viele Stunden Spotify ich am Tag bzw. im Monat gehört habe:
dotuV9H.png
AyIgdQn.png

Aus diesen Daten kann man bereits viel über mein Nutzerverhalten interpretieren, z.B., dass ich erst vor Kurzem angefangen habe, Spotify auch Zuhause aktiver zu nutzen, oder, dass ich März und April deutlich mehr gehört habe, was auch auf die Situation in der ganzen Welt zurückzuführen ist.

Ich habe mir auch meine Top 100 Artists und meine Top 100 Tracks ausgewertet:

ASrwzdQ.png
0ULwaHX.png

Hieraus sieht man mMn sehr gut, dass ich vor Allem ein Albenhörer bin - natürlich sieht man das hier nicht direkt heraus, aber würde ich den Tracks Farben abhängig davon, zu welchen Alben sie gehören, zuweisen, dürfte sich daraus ein recht regelmäßiges Bild ergeben, das auch zeigt, dass ich die letzten Tracks eines Albums tendentiell weniger höre, weil es durchaus vorkommt, dass ich auch mal das Album mitten drin wechsle.

(Und man sieht super, dass ich nichtmal auf 100 Artists komme...)

Ich könnte hier noch sehr viel mehr ins Detail gehen und z.B. Wochen- oder Monatsgewohnheiten aus meinen Daten ableiten, aber besonders interessant hierbei ist, dass das lediglich die Musik ist, die ich auf Spotify höre, da ist meine private Musiksammlung oder das Hören von Musik auf z.B. Youtube (auf dieser Plattform ist mein Wiedergabeverlauf konsequent pausiert) nicht mit aufgefasst.

yEiXyRL.png

(Das Bild ist leider durchsichtig, lesbarer wird es mit dem hellen Thema des Forums...)

(Das Forum hat leider kein Syntax Highlighting für R, müsst ihr halt damit leben, dass da jetzt Bash steht...)
Bash:
# Code für die Darstellung Artists vs. Anzahl, wie oft man einen Track dieses
# Artists gehört hat.

# Bibliotheken laden
library("ggplot2") # ggplot2 ist Teil des erwähnten "Tidyverse"
library("wesanderson")

# Falls mehr als 100 Artists gehört wurden, muss die Menge auf 100 begrenzt werden,
# sonst ist die Beschrifung nicht mehr lesbar

if (length(knime.in$"Artist") > 100){
    n <- 100
    } else {
    n <- length(knime.in$"Artist")
    }

# Kreiere Farbpalette, Schreibe Daten in einen eigenen Datenframe
palette = wes_palette("Zissou1", n, type = "continuous")

my.df <- data.frame(
    x <- knime.in$"Artist"[1:n],
    y <- knime.in$"Count(msPlayed)"[1:n]
    )

p <- ggplot(my.df, aes(x,y, colors = palette)) +
    geom_bar(stat = "identity", color = "grey", fill = palette) +
    theme_bw() +
    theme(axis.text.x = element_text(angle = 90, size = 20)) +
    xlab("Artist") +
    ylab("Amount of Tracks listened to")
p

Ich bin gespannt, was ich sonst noch so mit diesen Daten anstelle, aber ich wollte diese Sachen gerne mit euch teilen, weil ich sie für interessant gehalten habe und interessanter als den "Jahresrückblick" von Spotify finde ich es allemal.

Beste Grüße,


Riku
 
Zuletzt bearbeitet:
Ich bin gespannt, was ich sonst noch so mit diesen Daten anstelle, aber ich wollte diese Sachen gerne mit euch teilen, weil ich sie für interessant gehalten habe und interessanter als den "Jahresrückblick" von Spotify finde ich es allemal.

Ich fands cool nochmal genau zu sehen, was Spotify mir vorher grob gezeigt hat. (Riku hat von mir meine Daten ebenfalls bekommen und sie aufgearbeitet)

War auf jeden Fall auch aufschlussreicher als der Rückblick, nur noch ein paar mehr zusätzliche Infos fehlen halt bei einer solchen Auswertung. Einige Verknüpfungen mit Genres wären noch interessant, aber ich weiß nicht wie genau Spotify selbst das regelt.

Mir gefällt es irgendwie, dass die Daten so "einfach" auszulesen sind.
 
Jap, Daten sind super! :D Ich glaube es gibt nicht so viele hier, denen solche Statistiken spaß machen, aber ich persönlich finde es super, solche Daten verständlich aufzubereiten. :thumbsup:
 

Benutzer, die dieses Thema gerade lesen

ONLINE 2 Spieler