[Math] Was ist "Entropie- und Informationsgewinn"?


Answers

Zunächst wäre es am besten, the measure of information zu verstehen.

Wie measure wir die Informationen?

Wenn etwas Unwahrscheinliches passiert, sagen wir, es ist eine große Neuigkeit. Wenn wir etwas Vorhersagbares sagen, ist es auch nicht wirklich interessant. Um diese interesting-ness zu quantifizieren, sollte die Funktion genügen

  • Wenn die Wahrscheinlichkeit des Ereignisses 1 (vorhersehbar) ist, dann gibt die Funktion 0 an
  • Wenn die Wahrscheinlichkeit des Ereignisses nahe bei 0 liegt, sollte die Funktion eine hohe Zahl ergeben
  • Wenn Wahrscheinlichkeit 0.5 Ereignisse passiert, gibt es one bit Information.

Ein natürliches Maß, das die Beschränkungen erfüllt, ist

I(X) = -log_2(p)

wobei p die Wahrscheinlichkeit des Ereignisses X . Und die Einheit ist in bit , der gleiche Bit-Computer verwendet. 0 oder 1.

Beispiel 1

Fairer Münzwurf:

Wie viele Informationen bekommen wir von einem Münzwurf?

Antwort: -log(p) = -log(1/2) = 1 (bit)

Beispiel 2

Wenn ein Meteor die Erde morgen trifft, p=2^{-22} dann können wir 22 Bits Information erhalten.

Wenn die Sonne morgen aufgeht, p ~ 1 dann ist es 0 Bit Information.

Entropie

Wenn wir also die Erwartungshaltung eines Ereignisses Y annehmen, dann ist es die Entropie. dh Entropie ist ein erwarteter Wert für die Interessiertheit eines Ereignisses.

H(Y) = E[ I(Y)]

Formal ist die Entropie die erwartete Anzahl von Bits eines Ereignisses.

Beispiel

Y = 1: Ein Ereignis X tritt mit der Wahrscheinlichkeit p auf

Y = 0: Ein Ereignis X tritt nicht mit der Wahrscheinlichkeit 1-p auf

H(Y) = E[I(Y)] = p I(Y==1) + (1-p) I(Y==0) 
     = - p log p - (1-p) log (1-p)

Log-Basis 2 für alle Protokolle.

Question

Ich lese dieses Buch ( NLTK ) und es ist verwirrend. Entropie ist definiert als :

Die Entropie ist die Summe der Wahrscheinlichkeit jeder Markierung mal der logarithmischen Wahrscheinlichkeit derselben Markierung

Wie kann ich Entropie und maximale Entropie in Bezug auf Text Mining anwenden? Kann mir jemand ein einfaches, einfaches Beispiel (visuell) geben?




Wenn Sie ein Buch über NLTK lesen, wäre es interessant, dass Sie über das MaxEnt Classifier Module http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.maxent lesen

Für die Text-Mining-Klassifizierung könnten die Schritte wie folgt sein: Vorverarbeitung (Tokenisierung, Bedampfung, Merkmalauswahl mit Informationsgewinn ...), Umwandlung in numerisch (Häufigkeit oder TF-IDF) (ich denke, dass dies der Schlüsselschritt zum Verstehen ist) Text als Eingabe für einen Algorithmus, der nur numerische akzeptiert) und dann mit MaxEnt klassifizieren, sicher, dass dies nur ein Beispiel ist.




Ich empfehle Ihnen wirklich, über Informationstheorie, bayesianische Methoden und MaxEnt zu lesen. Der Startpunkt ist dieses (frei zugängliche Online-) Buch von David Mackay:

http://www.inference.phy.cam.ac.uk/mackay/itila/

Diese Inferenzmethoden sind wirklich viel allgemeiner als nur Text-Mining und ich kann mir nicht vorstellen, wie man das auf NLP anwendet, ohne einige der allgemeinen Grundlagen dieses Buches oder anderer einführender Bücher zu Machine Learning und MaxEnt Bayesian zu lernen Methoden.

Der Zusammenhang zwischen Entropie und Wahrscheinlichkeitstheorie zur Informationsverarbeitung und -speicherung ist wirklich sehr tief. Um einen Vorgeschmack darauf zu geben, gibt es einen Satz von Shannon, der besagt, dass die maximale Menge an Informationen, die Sie ohne Fehler durch einen gestörten Kommunikationskanal passieren können, gleich der Entropie des Rauschprozesses ist. Es gibt auch ein Theorem, das verbindet, wie viel Sie ein Stück Daten komprimieren können, um den minimal möglichen Speicher in Ihrem Computer mit der Entropie des Prozesses, der die Daten erzeugte, zu belegen.

Ich glaube nicht, dass es wirklich notwendig ist, dass du all diese Theoreme der Kommunikationstheorie lernst, aber es ist nicht möglich, dies zu lernen, ohne die Grundlagen über Entropie zu lernen, wie es berechnet wird, wie es mit Informationen und Schlussfolgerungen zusammenhängt ...