javascript معلم ويب سكريبينغ جافاسكريبت في بيثون/R



شرح جافا سكريبت (1)

  1. تحتوي معظم صفحات الويب التي تتضمن عناصر ديناميكية على عناصر الصفحة التي تم إنشاؤها وإدراجها بواسطة جافا سكريبت التي ينشرها المتصفح وينفذها لك. كنت تخمين بالفعل هذا، وأظن، استنادا إلى عنوان السؤال.

    ما تراه في مصدر الصفحة هو هتمل الخام قبل بدء تشغيل جافا سكريبت وتحديثه.

  2. تريد متصفح بدون رأس : متصفح بدون واجهة مستخدم رسومية. سيؤدي ذلك إلى تحليل جافا سكريبت وتنفيذها، وتحديث صفحة هتمل وفقا لذلك.

هنا قائمة كاملة من المتصفحات بدون رأس . لاحظ أنه يمكنك القيام بهذه المهمة بأي لغة.

أفعل بعض مشاريع علوم البيانات الشخصية واحد منهم هو معرفة عدد المرات التي لعبت بعض الأغاني على الراديو.

http://www.iheart.com/live/radio-1045-3401/

وبالنظر إلى عنوان ورل أعلاه، عندما أنظر إلى مصدر الصفحة، لن يتم ملء قيم الاهتمام. لست متأكدا لماذا، ولكن عندما أستخدم عنصر التفتيش في الكروم عندما تحوم فوق رأس "التشغيل الآن"، أستطيع أن أرى القيم للأغنية والفنان يلعب الآن.

مثال:

a class="player-song" href="/artist/rem-3610/songs/-2450662/" title="Losing My Religion" data-reactid=".1hpdfx1l4ow.a.1.0.1.1">Losing My Religion</a

أسئلتي هي:

  1. لماذا لا يظهر هذا في مصدر الصفحة، ولكن يمكنني رؤيته تحت فحص العنصر؟
  2. كيف يمكنني أن كشط الويب هذه المعلومات لأنها لا تظهر في مصدر الصفحة؟




web-scraping