Thema: "realistische" hochrechnung...

Hallo zusammen,

ich suche einen algorithmus mit dem ich die vorraussichtlichen userzahlen für mein Board hochrechnen kann. es sollen die nächsten hochrechnung sollte für die nächsten 36 monate hochgerechnet werden um entsprechend schon im vorfeld die notwendigen recourcen für das boards zur verfügung zu haben.

habt ihr eine idee wie ich das ganze möglichst realistisch hochrechnen lassen kann? die berechnung erfolgt in perl als cronjob. die erforderlichen daten werden immoment noch aus den memberprofilen (files) ausgelesen...
 
 
 
TIA
joking

Re: "realistische" hochrechnung...

was versprichst du dir davon? das ist selten wirklich realistisch.

mfG whitehouse

Re: "realistische" hochrechnung...

dadurch soll es dem "Sponsor" des boards und den späteren "kunden" ermöglicht werden den erfolg abzuschätzen und es soll auch noch die zeit sein um eventuell zusätzlich benötigte mitte genehmigen zu lassen... (z.B.: mehr Traffic oder neuere HW)
 
 
Grüße aus FFM
joking

Re: "realistische" hochrechnung...

Hallo,

weiss ja nicht obs noch aktuell ist, aber ne kurze Meinung dazu.

In Abhängigkeit von Deinen Daten kannst Du ein lineare (einfach eine Gerade durch alle Punkte und die dann bis ins Nirvana verlängern  <img border="0" title="" alt="[Winken]" src="images/icons/wink.gif" /> ), oder eine nichtlineare Regression (alles was keine Gerade ist) durchführen.

Die lineare Regression kann heutzutage jeder 5-Mark-Taschenrechner und ist auch in jedem Tafelwerk nachzulesen (einfach ein paar Summen bilden, ein paar Summen aus Produkte und das wars). Wichtig dabei ist ein Blick auf den Korrelationskoeffizienten r, der auch bei der Rechnung mit abfällt. Je näher der an der 1 liegt desdo besser, d.h. Du kann Deine Gerade tatsächlich mit grosser Wahrscheinlichkeit weiterverlängern. Wenn der Wert unter 0,5 liegen sollte, dann laß lieber die Hände davon. Auch den Versuch mit der nichtlinearen Regression würde ich Dir nicht empfehlen, da dort schon einige Rechnungen mehr zu tätigen sind.

Am besten Du ballerst mal Deine Daten ins Excel rein, stelltst die als x-y-Diagramm dar (x=Zeit,y=User) und dann hangelst Du Dich mal durch die Funktionen durch (Statistik-->da gibst auch gleich sowas wie Trends).

Re: "realistische" hochrechnung...

Hallo wintelknecht,

danke für deine Antwort, das Thema ist immernoch aktuell  <img src="http://www.desertcactussoftware.com/graphics/smilies/Yellow/yellowsmilewinkgrin.gif" alt="" />. ich hab die daten mal in Excel kopiert und dann die "trendlinie" hinzugefügt. ich weiche sehr wenig von der trendlinie ab.

ich habe noch keine, für mich verständliche, erklährung für eine lineare regression gefunden. wie müßte ich vorgehen, wenn ich die regression in perl berechnen lassen will?
 
 
 
TIA
joking

Re: "realistische" hochrechnung...

Hallo,

leider hab ich nicht einmal den geringsten Schimmer was Perl kann oder nicht kann, so dass ich Dir da auch nicht so recht weiterhelfen kann.

Wenn Du schon mal den Blick in Excel geworfen hast, dann kannst Du Dir auch die Formel für die lineare Regression von da holen.
Gehe unter Statistik auf "Steigung" und dann lass Dir die Hilfe dazu anzeigen. Da steht dann die Formel:
b=[n*summe(x*y)-summe(x)*summe(y)]/[n*summe(x^2)-(summe(x))^2]

Dabei ist das b der Anstieg der Geraden

y=a+bx

Wichtig sind die Summen:
(1) summe(x*y)=x1*y1+x2*y2+x3*y3...
(2) summe(x)=x1+x2+x3+...
(3) summe(x^2)=x1^2+x2^2+x3^2+...
(4) (summe(x))^2=summe(x)*summe(x)
n ist die Anzahl Deiner x,y-Wertepaare.

Weiter gehts in Excel mit "Achsenabschnitt":
a=Yquer-b*Xquer
Die "quer" sind die Mittelwerte:
Yquer=summe(y)/n
Xquer=summe(x)/n
Jetzt hast Du Deine Geradengleichung und musst nur noch einen x-Wert (also Zeit) einsetzen, um den zugehörigen y-Wert (also user) zu ermitteln.
Wenn Du beispielsweise über einen Zeitraum von 10 Wochen den Zugriff geloggt hast, dann gibst du als x eine 11 vor und weisst, wieviel user in der nächsten Woche zugreifen werden.

Viel Erfolg!

Re: "realistische" hochrechnung...

eine lineare Extrapolation ist doch alles andere als geeignet? oder hab ich da was falsch verstanden?

mfG whitehouse

Re: "realistische" hochrechnung...

hallo wintelknecht,

danke für die erklährung, jetzt hab ich das ding verstanden..  <img src="http://www.desertcactussoftware.com/graphics/smilies/Yellow/yellowsmilewinkgrin.gif" alt="" />
das ganze scheint soweit zu funktionieren. nur bekomme ich eine (kleine) abweichung wenn ich die datenbaasis 2 monate früher enden lasse...
z.B.: die Datenbasis endet am 11.03.2002 mit 5029 Usern, dann hab ich laut hochrechnung am 14.05.2002 5580 User. Tatsächlich waren es am 14.05.2002 aber 5507 User.

gibt es eine möglichkeit die abweichung zu kompensieren? oder währe das zu aufwendig?
 

wie sähe die nichtlineare regression aus??
 
 
 
Grüße aus FFM
joking

Re: "realistische" hochrechnung...

Hallo,

schön, dass es geklappt hat.
Zu Deiner Frage: Der Unterschied zwischen den berechneten Usern und den tatsächlichen beträgt gerade mal 1,3%! Besser kann man schon fast kein Ergebnis bekommen!

So wie es scheint genügt in Deinem Fall die lineare Regression vollkommen. Die User über der Zeit aufgetragen scheinen eine wunderbare Gerade zu ergeben (das vermute ich Aufgrund der geringen Abweichung die Dich etwas verwundert). Wären alle Punkte 100%ig auf der Geraden, dann hättest Du einen Korrelationskoeffizienten (den kann man mit den Summen auch ganz einfach berrechnen) von 1,0 und Du würdest genau die User vorhersagen, die da kommen. Das ist aber am Leben vorbei - Regression ist immer nur eine Schätzung.

Wenn Du Lust hast, dann kannst Du mal versuchen x und y zu vertauschen. Mit etwas Glück verringert sich Der Unterschied zwischen Berechnung und Realität etwas.
Deine Gerade lautete bisher:
User=a+b*Zeit
Jetzt vertauscht Du im Input einfach mal die User mit der Zeit (also x und y tauschen) und berechnest wie bisher Dein a und b (nennen wir es a_neu und b_neu). Die Gerade lautet jetzt aber:
Zeit=a_neu+b_neu*User
Um jetzt eine Zeit vorzugeben und die User zu berechnen musst Du die Gleichung umstellen:
User=(Zeit-a_neu)/b_neu
Das ist die einzige richtige Änderung die sich dadurch ergibt.

Du kannst es ja mal versuchen (ist ja wenig Arbeit) und falls Du es machst, dann poste mal bitte das Ergebnis für den gleichen Testfall.

Re: "realistische" hochrechnung...

</font><blockquote><font size="1" face="Verdana, Helvetica, sans-serif">Zitat:</font><hr /><font size="2" face="Verdana, Helvetica, sans-serif"> So wie es scheint genügt in Deinem Fall die lineare Regression vollkommen. </font><hr /></blockquote><font size="2" face="Verdana, Helvetica, sans-serif">Nur so wie es scheint.

mfG whitehouse

Re: "realistische" hochrechnung...

@WH
Hast Du die Daten gesehen und kannst Dir deshalb ein fachmänisches Urteil erlauben?

Versuch lieber mal die ganze Angelegenheit nachzuvollziehen!
Wenn Du Dir ein richtig schlaues Mathebuch zur Hand nimmst, wirst Du eventuell auch etwas über meinen letzten Beitrag finden (x und y vertauschen). Wirst Du zwar nicht verstehen (da kommen Ableitungen vor - Stoff Klasse 11/12), aber versuchen kannst Du es ja mal.
Und dann kannst Du einen konstruktiven Beitrag leisten!

Ich weiss schon, warum ich mich so lange nicht beteiligt habe...

12

Re: "realistische" hochrechnung...

N'abend wintel,

zumindest ich hab mich immer über Deine Beiträge gefreut.
Vielleicht magst Du das als - zugegeben -
schwachen Trost empfinden.

@ whitehouse:
Eine etwas ausführlichere Erläuterung wäre für meinen
Geschmack angebracht. Wir sind hier schließlich nicht
bei Robert Lembkes heiterem Beruferaten.

gruß

matho

Re: "realistische" hochrechnung...

wie man das berechnet, brauch ich doch gar nicht zu wissen... und die Daten auch nicht... ich weiß, was ne lineare funk. is. nimm mal dieses Diag (Ascii-Art):
  </font><blockquote><font size="1" face="Verdana, Helvetica, sans-serif">Code:</font><hr /><pre style="font-size:x-small; font-family: monospace;">
y A (User U, [U] = 1)
   |
   |
   |
   |
   |
   |
   |
   |                        *******
  .|                      **       *
  .|      ******         *          *
  .|            *     ***
  4|     *       *   *               *
  3|    *         * *
  2| ***           *
  1|*                                 *
  0*------------------------------------------->
   0 1 2 3 4 5 6 7 8 9 x (Zeit t, [t] = 1 Mon.)
  [/code]</blockquote><font size="2" face="Verdana, Helvetica, sans-serif">wie ist dafür die lineare Regression mit deinen Methoden? Nehmen wir an die Monate 0-a sind bekannt. Was wird dann im Monat a+5? Versteht ihr, was ich mein?
Tut mir leid, aber das ganze kommt mir wie ein Witz vor. Wenn hier 2 Leute über eine unangebrachte Methode fachsimplen... Besonders von dir, wintelknecht, hätte ich mehr Erfahrung erwartet. Sorry, falls ich etwas überreagier, aber ich fühl mich ein wenig verarscht (pardon).

mfG whitehouse

14

Re: "realistische" hochrechnung...

@ whitehouse

Besten Dank, das ist doch schon mal was.

Deine These, Du bräuchtest nicht zu wissen, wie die Daten zustandekommen, und wie
die beschaffen sind, ist natürlich ähnlich steil wie Deine function.
Ich weiß weder, wie Du zu der Meinung gelangst, die Methode sei unangebracht, noch,
warum Du Dir verarscht vorkommen mußt.

Wir wissen nicht, worum es bei dieser speziellen Website geht, und wir wissen auch
nicht, welchen etwaig notwendigen Bereinigungen die Daten unterworfen wurden.

Eine Hochrechnung muß nicht per se unrealistisch sein, wenn man mal davon absieht,
daß uns allen morgen früh ein Blumentopf aufs Hirn donnern kann (der Mensch hat
einen Kopf, und der reicht ihm nicht aus..... - Brecht).

Ein sachliches Problem liegt insofern vor, als daß die Berechnungen eine
inhaltliche Bezogenheit haben, z.B:

Du hast ne Website, und als Promotion-Event beschliesst Du, jedem Chinesen, der
mal reinguggt und rumklickt, nen Sack Gold zu schenken.

Nun hast Du morgen schon vielleicht eine Milliarde Zugriffe. Deine Hochrechnung
ergibt also in etwa 7 Milliarden Zugriffe innnerhalb der nächsten Woche - aber
hoppla, soviel Chinesen gibt's ja gar nicht, da werden bestimmt paar Leute
gemogelt haben. However, innerhalb kürzester Zeit hast Du die Erdbevölkerung
aufgebraucht, also: höchstwahrscheinlich unrealistisch.
Du solltest Deine Daten ein wenig bereinigen.

Sobald die Daten aber in einer wie auch immer bereinigten Form vorliegen,
kann eine Hochrechnung eben doch sinnvoll sein, und auch periodisch auftauchende
Hochs und Tiefs lassen sich glätten.

Ich persönlich empfinde die Frage als ausserordentlich kompliziert, aber es
gibt mE nicht den geringsten Grund, 'überzureagieren'.

gruß

matho

Re: "realistische" hochrechnung...

hmmm...

ich habe die oben gebannte Extrapolation mit der Anzahl der neuen User pro Tag durchgeführt (und des wert zusätzlich über einen faktor an die userzehlen "angepaßt". der erreichnete wert war 7.irgendwas).
Führe ich die gleiche berechnung mit der anzahl der tatsächlichen user durch, komme ich garnicht hin; ich habe einen ergebnisbereich von -1.100 bis +6.700

hab ich irgendeinen logischen fehler in der berechnung?
 

@WH:
wie sähe denn die berechnung für eine nicht lineare regression aus???
 
 
GRüße aus FFM
joking

[edit]
PS: meine HP steht im Profil drin...
 
  <small>[ 18-05-2002, 23:40: Beitrag editiert von: joking-down ]</small>

Re: "realistische" hochrechnung...

@matho: Jetz hab ich mich wieder beruhigt. Manchmal nich einfach *g*. Gut, meine Beispiel-Statistik ist viell. etwas unrealistisch (jaja, das is sie), darum geht es aber nich. Ich weiß nur, dass die lineare Regression etwas unrealistisch ist - so sieht NIEMALS MENSCHLICHES Verhalten aus. Und daß Beispiel-Daten kein Beweis für die Richtigkeit der Daten sind. Auch in der Statistik *g*. Meine - wie gesagt in unrealistischer Weise -  ziemlich steilen Bsp-Daten zeigen ja, was die lineare Regression so kann.
DU hast es schon gesagt. Das Thema ist VERDAMMT komplex. Selbst gute mathematische Verfahren versagen da schnell.
@joking:
wie man das berechnet? da gibts ETLICHE Möglichkeiten... (jeweils mit anderem Resulat *g*)

mfG whitehouse

17

Re: "realistische" hochrechnung...

N'abend joking

Besten Dank an Dich dito. Ich habe grade kurz in Deine Website
geschaut, und kann mir jetzt ein paar Vorstellungen machen.

Einfach mal ins Blaue, weil ich ja nun kein intimer Kenner dieses
Projektes bin:

Im Impressum habe ich keine Angabe gefunden, wie lange
die site bereits läuft. Das wäre schon gut zu wissen, zumal
Du Hochrechnungen für die nächsten 36 Monate erstellen möchtest.
Wie verbreitet sich das Angebot nach Deinen Erfahrungen?
Wird beworben? Mund-zu Mund-Propaganda?
Welches sind besonders wichtige Themen?
Wovon ist es abhängig, wieviele replys ein posting erhält?
Wie ist das Verhältnis zwischen anonymen und registrierten Benutzern?
Kommt es zB. in einem Forum wie 'Familienprobleme' in der
Vorweihnachtszeit oder im Zeugnisforum vor den Sommerferien
zu vermehrter Aktivität?
Welche Altersstruktur liegt vor? Gibt es zB. verschiedene
Wachstumsraten, abhängig von Altersklassen?
Wenn ihr schon den Unterschied männlein/weiblein macht, gibt
es vielleicht auch hier eine unterschiedliche Entwicklung?
Mit welcher Periodizität wechselt die durchschnittliche
Besetzung der Nutzer?

Diese letzte Frage ist enorm wichtig:
Es ist zB. ein Forum denkbar, das über Jahre die gleiche
Anzahl Teilnehmer hat, welche auch personell identisch sind.

Dann wiederum, im extremen gegenteiligen Fall eines, das
zwar ebenfalls eine gleichbleibende Anzahl Teilnehmer hat,
allerdings jeden Tag neue.

In beiden Fällen gleiche Serverauslastung, bloß hat das erste
sich in einem Jahr überhaupt nicht weiter verbreitert (jedenfalls
nicht feststellbar), das andre dagegen mindestens um das 365-fache.

Weil Du auch aus Frankfurt kommst, kann ich Dir anbieten,
daß man sich mal aufn Stündchen zum Kaffee trifft.

Wenn Du magst, schreib mir ne mail (mit Tel-Nummer). Ich ruf
Dich gern zurück.

gruß

matho

Re: "realistische" hochrechnung...

Moin, moin

Ging ja gestern noch aufgeregt hin und her. War zwar noch auf Arbeit, hatte aber keine Lust mehr nachzuschaun.

Ich kann zwar das liebe Angebot von matho nicht unterbreiten - wäre etwas weit - aber ich könnte mir, so Du willst und die Daten nicht "vertraulich" sind, Deine Zahlen mal ansehen und selber mal rechen und Dir daraufhin ne Empfehlung geben. Noch besser wäre es natürlich, wenn allen hier mal ein Auszug (kann ja was ganz altes sein und Du kannst ja einfach die User*1000 oder User/5 oder was auch immer) verfügbar gemacht wird. Dann könnte jeder schaun und sich über "realistische Hochrechnung" ein Urteil bilden. Damit wäre die allgemeine Diskussion sicher auch etwas fruchtbarer.

@WH
Deine Kurve war schon ganz nett.
Jetzt stell Dir mal vor Du bist (Strassen)Eisverkäufer - mitten aus dem Leben ein Beispiel. Du fängst an im März zu verkaufen und hörst im Oktober auf. Anfangs kauft noch keiner Eis, dann geht es allmählich los, dann im Sommer verkaufst du wie blöde (aber irgendwann jeden Tag fast die gleiche Menge) im Spätsommer wieder weniger und dann fast nix mehr.
Wenn Du bei diesem Beispiel einfach ne gerade über den gesamten Zeitraum durchknallst könnte das eventuell quatsch sein. ABER du kannst das ganze auch stückweise machen. Eine Gerade für den Beginn, eine Gerade für den ran auf das Eis, eine für die Plateauphase (jeden Tag gleich viele Verkäufe), eine für den Abfall...
Die entscheidende Frage dabei ist nur die Definition von Beginn, ran, Plateau, Abfall, Ende. Wenn man da ein ordentliches Händchen hat, ist man vollkommen sauber und könnte auch Deine schön gemalte ASCII-Kurve abbilden. Es ist nur eine Frage wie bewusst man mit den Daten umgeht!!

Re: "realistische" hochrechnung...

A ja, all das sind dann ja weniger rein mathematische Verfahren, sondern irgendwie Psycho-Informatik *g*. Die Aufteilung in mehrere (lineare) Funktionen erinnert mich irgendwie an die Spline-Berechnung...

mfG whitehouse

Re: "realistische" hochrechnung...

n'abend zusammen,

die hochrechnung hat nun funktioniert. ich hatte anfangs vergessen, das zum start des boards (im november '99) sich nur sehr wenig neue user registriert haben.

das mit dem kaffeetrinken höhrt sich gut an...  <img src="http://www.desertcactussoftware.com/graphics/smilies/Yellow/yellowsmilewinkgrin.gif" alt="" />
 
 
 
 
Grüße aus FFM
joking

Re: "realistische" hochrechnung...

eine hochrechnung "funktioniert" nicht. sie kann auch nicht in die zukunft schaun. sie ist wohl bestenfalls eine art "wettervorhersage".

mfG whitehouse

Re: "realistische" hochrechnung...

</font><blockquote><font size="1" face="Verdana, Helvetica, sans-serif">Zitat:</font><hr /><font size="2" face="Verdana, Helvetica, sans-serif">Original erstellt von whitehouse:
<strong>eine hochrechnung "funktioniert" nicht. sie kann auch nicht in die zukunft schaun. sie ist wohl bestenfalls eine art "wettervorhersage".</strong></font><hr /></blockquote><font size="2" face="Verdana, Helvetica, sans-serif">mit "funktioniert" meinte ich auch nur, das die berechnung über den daumen gepeilt hinkommt. die hochgerechneten user stimmen recht gut mit der tatsächlichen zahl überein...

Re: "realistische" hochrechnung...

dann is schön  <img border="0" title="" alt="[Winken]" src="images/icons/wink.gif" />

mfG whitehouse