Im ersten Schritt mal die Nomen aus den Daten (am besten englische Desription) extrahieren. Wie viel Variation haben wir hier? Macht es vielleicht Sinn die Nomen zu Clustern (je nachdem wie viel auch händisch oder eventuell existieren auch Dictionaries), z.B. Vogel für Adler, Falke, etc. und daraus dann Dummy-Variablen zu bilden.