math - সবচ - মহাবিশ্বের এনট্রপি




"এনট্রপি এবং তথ্য লাভ" কি? (5)

আমি এই বইটি পড়ছি ( NLTK ) এবং এটি বিভ্রান্তিকর। এন্ট্রপি হিসাবে সংজ্ঞায়িত করা হয় :

Entropy হল একই লেবেলের লগ সম্ভাব্যতা প্রতিটি লেবেলের সম্ভাব্যতার সমষ্টি

টেক্সট খনির ক্ষেত্রে আমি কিভাবে এনট্রপি এবং সর্বাধিক এনট্রপি প্রয়োগ করতে পারি? কেউ আমাকে একটি সহজ, সহজ উদাহরণ দিতে পারেন (চাক্ষুষ)?


অনানুষ্ঠানিকভাবে

এনট্রপি তথ্য বা জ্ঞানের প্রাপ্যতা, তথ্য অভাব ভবিষ্যতের পূর্বাভাসে অসুবিধাগুলি সৃষ্টি করবে যা উচ্চ এনট্রপি (টেক্সট খনির ক্ষেত্রে পরবর্তী শব্দ ভবিষ্যদ্বাণী) এবং তথ্য / জ্ঞান উপলব্ধি ভবিষ্যতে (কম এনট্রপি) এর আরো বাস্তবসম্মত পূর্বাভাসে সহায়তা করবে।

যেকোনো ধরনের প্রাসঙ্গিক তথ্য এনট্রোপিকে হ্রাস করবে এবং আমাদের আরো বাস্তবসম্মত ভবিষ্যতের পূর্বাভাসে সহায়তা করবে, তথ্যটি "মাংস" শব্দ বা শব্দ "মাংস" উপস্থিত থাকতে পারে না। এই তথ্য লাভ বলা হয়

আনুষ্ঠানিকভাবে

এনট্রপি পূর্বাভাসের অভাবের অভাব


আপনি যখন এনএলটিকে সম্পর্কে একটি বই পড়ছেন তখন আপনি ম্যাক্সেন্ট ক্লাসিফায়ার মডিউল http://www.nltk.org/api/nltk.classify.html#module-nltk.classify.maxent সম্পর্কে পড়তে আগ্রহী হবেন

পাঠ্য খনির শ্রেণীবিভাগের জন্য পদক্ষেপগুলি হতে পারে: প্রাক-প্রক্রিয়াকরণ (টোকেনাইজেশন, স্টিমিং, ইনফরমেশন লাভের সাথে বৈশিষ্ট্য নির্বাচন ...), সংখ্যার রূপান্তর (ফ্রিকোয়েন্সি বা টিএফ-আইডিএফ) (আমি মনে করি এটি ব্যবহার করার সময় বোঝার জন্য এটি কী পদক্ষেপ একটি সংখ্যালঘু যে শুধুমাত্র সংখ্যাসূচক গ্রহণ করতে ইনপুট হিসাবে টেক্সট) এবং তারপর MaxEnt সঙ্গে শ্রেণীবদ্ধ, নিশ্চিত এই শুধু একটি উদাহরণ।


আমি আপনাকে গ্রাফিক্স দিতে পারে না, কিন্তু সম্ভবত আমি একটি স্পষ্ট ব্যাখ্যা দিতে পারেন।

ধরুন আমরা একটি তথ্য চ্যানেল, যেমন একটি হালকা যে প্রতিদিন লাল বা সবুজ একবার flashes। এটা কত তথ্য প্রকাশ করে? প্রথম অনুমান প্রতিদিন এক বিট হতে পারে। কিন্তু যদি আমরা নীল যোগ করি, তাহলে প্রেরকের তিনটি বিকল্প আছে? আমরা একটি পরিমাপের তথ্য পেতে চাই যা দুটি শক্তি ব্যতীত অন্য কিছু পরিচালনা করতে পারে, তবে এখনো যোগযোগ্য (দুটি সম্ভাব্য বার্তা সংখ্যাটি একের পর এক করে তুলবে এমন উপায়)। আমরা লগ 2 (সম্ভাব্য বার্তাগুলির সংখ্যা) গ্রহণ করে এটি করতে পারি, কিন্তু এটি আরও সাধারণ উপায় দেখায়।

ধরুন আমরা লাল / সবুজ হয়ে গেছি, কিন্তু লাল বাল্বটি পুড়ে গেছে (এটি সাধারণ জ্ঞান) যাতে বাতি সবসময় সবুজ হয়ে যায়। চ্যানেলটি এখন নিরর্থক, আমরা জানি পরবর্তী ফ্ল্যাশটি কীভাবে ফ্ল্যাশগুলি কোন তথ্য, কোনও খবর সরবরাহ করবে না। এখন আমরা বাল্বটি মেরামত করি কিন্তু একটি নিয়ম প্রয়োগ করি যে লাল বাল্ব সারিতে দুবার ফ্ল্যাশ করতে পারে না। বাতি লাল ঝলসলে, আমরা জানি পরবর্তী ফ্ল্যাশ কী হবে। আপনি যদি এই চ্যানেলে বিট স্ট্রিম পাঠানোর চেষ্টা করেন তবে আপনি এটি দেখতে পাবেন যে আপনার বিটস (50% আরো, আসলে) এর চেয়ে আরো ফ্ল্যাশের সাথে এটি এনকোড করতে হবে। এবং আপনি যদি ফ্ল্যাশগুলির একটি ক্রম বর্ণনা করতে চান তবে আপনি কম বিট দিয়ে এটি করতে পারেন। প্রতিটি ফ্ল্যাশ স্বাধীন (প্রসঙ্গ-মুক্ত) থাকলেও একই রকম প্রযোজ্য, তবে সবুজ ফ্ল্যাশগুলি লালের চেয়ে বেশি সাধারণ: ক্রমানুসারে আরো কম বিটগুলিকে আপনি ক্রমানুসারে বর্ণনা করার জন্য এবং এটিতে থাকা কম তথ্যটি, সমস্ত উপায় সমস্ত সবুজ, বাল্ব-পুড়িয়ে আউট সীমা।

বিভিন্ন প্রতীকগুলির সম্ভাব্যতার উপর ভিত্তি করে এটি একটি সংকেতের পরিমাণ পরিমাপ করার উপায় রয়েছে। যদি আমি প্রতীক গ্রহন করার সম্ভাবনা পাই তবে আমি পরিমাণ বিবেচনা করি

-log pi

ছোট পি, এই মান বড়। এক্স যদি আমি দ্বিগুণ হিসাবে দ্বিগুণ হয়ে যায়, এই মান একটি নির্দিষ্ট পরিমাণ (লগ (2)) দ্বারা বৃদ্ধি পায়। এটি আপনাকে একটি বার্তাতে একটি বিট যোগ করার কথা মনে করিয়ে দিতে হবে।

আমরা যদি প্রতীকটি না জানি (তবে আমরা সম্ভাব্যতাগুলি জানি) তাহলে আমরা বিভিন্ন সম্ভাবনার উপর সংক্ষেপে এই মানটির গড় হিসাব করতে পারি, কতটা আমরা পেতে পারি:

I = -Σ pi log(pi)

এই এক ফ্ল্যাশ তথ্য কন্টেন্ট।

Red bulb burnt out: pred = 0, pgreen=1, I = -(0 + 0)  = 0
Red and green equiprobable: pred = 1/2, pgreen = 1/2, I = -(2 * 1/2 * log(1/2)) = log(2)
Three colors, equiprobable: pi=1/3, I = -(3 * 1/3 * log(1/3)) = log(3)
Green and red, green twice as likely: pred=1/3, pgreen=2/3, I = -(1/3 log(1/3) + 2/3 log(2/3)) = log(3) - 2/3 log(2)

এই তথ্য বিষয়বস্তু, অথবা বার্তা এর এনট্রপি ,. বিভিন্ন চিহ্ন equiprobable হয় যখন এটি সর্বাধিক। যদি আপনি একজন পদার্থবিজ্ঞানী হন তবে আপনি প্রাকৃতিক লগ ব্যবহার করেন, যদি আপনি একজন কম্পিউটার বিজ্ঞানী হন তবে আপনি লগ 2 ব্যবহার করেন এবং বিট পান।


আমি সত্যিই আপনি তথ্য তত্ত্ব, Bayesian পদ্ধতি এবং MaxEnt সম্পর্কে পড়তে সুপারিশ। ডেভিড ম্যাকয়ের বইটি শুরু করার জন্য এটি এই (অবাধে উপলব্ধ অনলাইন) বই:

http://www.inference.phy.cam.ac.uk/mackay/itila/

এই পরিপন্থী পদ্ধতিগুলি কেবল টেক্সট খনির চেয়ে অনেক বেশি সাধারণ এবং আমি এই বইটিতে থাকা সাধারণ বুনিয়াদিগুলি বা মেশিন লার্নিং এবং ম্যাক্সেন্ট বায়াসিয়ানের অন্যান্য প্রারম্ভিক বইগুলি সম্পর্কে কিছু না শিখলে কীভাবে NLP- এ এটি প্রয়োগ করতে হবে তা শিখতে পারি না। পদ্ধতি।

এনট্রপি এবং সম্ভাব্যতা তত্ত্বের মধ্যে তথ্য প্রক্রিয়াজাতকরণ এবং সংরক্ষণের মধ্যে সংযোগ সত্যিই, সত্যিই গভীর। এটির স্বাদ দিতে, শ্যানন এর কারণে একটি তত্ত্ব রয়েছে যা বলে যে কোনও শব্দ দূষণের মাধ্যমে ত্রুটি ছাড়াই আপনি সর্বাধিক পরিমাণ তথ্য প্রেরণ করতে পারেন, এটি গোলমাল প্রক্রিয়ার এনট্রোপির সমান। আপনার কম্পিউটারে সর্বনিম্ন সম্ভাব্য মেমরির ডেটা জেনারেট করার প্রক্রিয়াটির এনট্রপিতে ক্যাপচার করার জন্য আপনি কোনও ডেটা সংকোচ করতে পারেন এমন একটি থিম রয়েছে।

আমি মনে করি না যে এটি আসলেই প্রয়োজনীয় যে আপনি এই তত্ত্বগুলির সাথে যোগাযোগের তত্ত্ব সম্পর্কে শিখতে পারেন, কিন্তু এন্ট্রিপি, কীভাবে এটি গণনা করা হয়, তথ্য এবং পরিচয়ের সাথে এর সম্পর্ক কী? ...


শুরু করার জন্য, the measure of information বুঝতে ভাল হবে।

কিভাবে আমরা তথ্য measure করবেন?

কিছু অসম্ভব ঘটলে, আমরা বলি এটি একটি বড় খবর। এছাড়াও, আমরা কিছু পূর্বাভাস বলতে যখন, এটা সত্যিই আকর্ষণীয় নয়। তাই এই interesting-ness পরিমাপ, ফাংশন সন্তুষ্ট করা উচিত

  • যদি ইভেন্টের সম্ভাব্যতা 1 (পূর্বাভাসযোগ্য) হয় তবে ফাংশনটি 0 দেয়
  • ইভেন্টটির সম্ভাব্যতা 0 এর কাছাকাছি হলে, ফাংশনটি উচ্চ সংখ্যা দিতে হবে
  • যদি সম্ভাব্যতা 0.5 ঘটনা ঘটে তবে এটি তথ্য one bit প্রদান করে।

সীমাবদ্ধতা সন্তুষ্ট যে একটি প্রাকৃতিক পরিমাপ

I(X) = -log_2(p)

যেখানে পি X সম্ভাবনা সম্ভাবনা। এবং ইউনিট bit , একই বিট কম্পিউটার ব্যবহার করে। 0 বা 1।

উদাহরণ 1

ন্যায্য মুদ্রা ফ্লিপ:

আমরা এক মুদ্রা ফ্লিপ থেকে কত তথ্য পেতে পারি?

উত্তর: -log(p) = -log(1/2) = 1 (bit)

উদাহরণ 2

যদি আবহাওয়া আগামীকাল পৃথিবীকে আঘাত করে, তাহলে p=2^{-22} তারপর আমরা 22 বিট তথ্য পেতে পারি।

আগামীকাল সূর্য উঠলে, p ~ 1 তারপর এটি 0 বিট তথ্য।

এনট্রপি

তাই যদি আমরা কোন ইভেন্টের interesting-ness প্রত্যাশা করি, তবে এটি এনট্রপি। অর্থাৎ এনট্রপি একটি ইভেন্টের আকর্ষণীয়-নেস এর একটি প্রত্যাশিত মান।

H(Y) = E[ I(Y)]

আরো আনুষ্ঠানিকভাবে, এনট্রপি একটি ইভেন্টের বিট প্রত্যাশিত সংখ্যা।

উদাহরণ

Y = 1: একটি ইভেন্ট এক্স সম্ভাব্যতা সঙ্গে ঘটে

Y = 0: একটি ইভেন্ট এক্স সম্ভাবনা 1-পি সঙ্গে ঘটবে না

H(Y) = E[I(Y)] = p I(Y==1) + (1-p) I(Y==0) 
     = - p log p - (1-p) log (1-p)

সমস্ত লগ জন্য লগ বেস 2।





text-mining