Brain- & Codestorming zum Data Mining Cup 2017

ck a3df6d6fdf probabilities-way 4 years ago
res 1332192bf5 init 4 years ago
src a3df6d6fdf probabilities-way 4 years ago
.gitignore 1332192bf5 init 4 years ago
README.md 598a9c411d edit README2 4 years ago
build.sbt 1332192bf5 init 4 years ago

README.md

wext - wissensextraktion

Brain- & Codestorming zum Data Mining Cup 2017

Ersten Berechnungen (9. April):

Es wurde jeweils (ca. 2,8 mio. mal), in Bezug auf Differenz zwischen Fremd- und Eigenpreis, ein Vorteil, nach der Tatsache gekauft/nicht gekauft bewertet und auf Grundlage dieser folgende Werte berechnet:

Nicht gekauft

  • Summe aller Vorteile: -1759803.2000033169
  • Anzahl aller Vorteile: 2050913
  • Arithmetisches Mittel: -0.858058435439883
  • Mittlere absolute Abweichung: 1.8023634525246446
  • Varianz (mittlere quadratische Abweichung): 16.560767286209053
  • Standardabweichung: 4.069492263932818

Gekauft

  • Summe aller Vorteile: -537167.1099997611
  • Anzahl aller Vorteile: 705090
  • Arithmetisches Mittel: -0.7618419067066063
  • Mittlere absolute Abweichung: 1.4723766004321512
  • Varianz (mittlere quadratische Abweichung): 10.675836521849082
  • Standardabweichung: 3.267389863767267

calc values

Zweite Berechnungen (17. April):

Wie festgehalten, soll zu jedem Tag zusammengefasst werden, welches Produkt wie oft "ge-clickt", "ge-basket" und "ge-ordert" wird ;-) Die Summe über diese drei Status wurde als zusätzliches Attribut dem Tupel angehang (als "pcount" ~ product-count). Alle drei Status wurden aufsummiert(Ganzzahlen). Zudem wurden jeweils, die Attribute "competitorPrice" und "revenue" aufsummiert (Fließkomma). -> Attribut "pcount" ist somit stets die Summe aus Attribut "click", "basket" und "order"!

Ergebnisse

Kopfzeile: lineID | day | pid | adFlag | avaibility | competitorPrice* | click* | basket* | order* | price | revenue* | pcount* *aufsummiert

Download: http://transfer.kutzmann.eu/wext/pdp.zip

Beispielhafter Auszug mit Kopfzeile:

lineID|day|pid|adFlag|avaibility|competitorPrice|click|basket|order|price|revenue|pcount

[...]

16141|1|11339|0|2|7.0|0|1|0|10.46|0.0|1

16143|1|15815|0|1|12.03|1|0|0|14.96|0.0|1

16144|1|21052|1|1|18.12|3|0|0|4.35|0.0|3

16146|1|20149|0|1|81.9|2|1|2|20.35|40.7|5

16147|1|21525|1|1|66.76|2|1|1|16.45|16.45|4

16148|1|17297|0|1|18.48|2|2|2|3.25|6.5|6

16154|1|19022|1|1|114.48|5|3|4|10.95|54.75|12

[...]

Nachtrag

adFlag wurde von mir vergessen

calc values