mashup कैसे क्रेगलिस्ट मैश अप डेटा प्राप्त करते हैं?




aggregators (7)

मैं सामग्री एग्रीगेटर्स में कुछ शोध कार्य कर रहा हूं, और मैं उत्सुक हूं कि वर्तमान कैगलिस्ट सूची के कुछ एग्रीगेटर्स अपने मैशप में डेटा कैसे प्राप्त करते हैं

उदाहरण के लिए, www.housingmaps.com और अब बंद www.chicagocrime.org

यदि कोई ऐसा यूआरएल है जिसे संदर्भ के लिए इस्तेमाल किया जा सकता है, तो यह सही होगा!


परिणाम इकट्ठा करने के लिए वैकल्पिक विकल्प YQL या Yahoo पाइप का उपयोग करना होगा।

Craiglook और हाउसिंग मैप उन्हें परिणाम इकट्ठा करने के लिए उपयोग कर रहे हैं



स्क्रैपिंग (और अवरुद्ध हो रहा है) का एक विकल्प, फ़्रेम का उपयोग करना, या Google खोज एक डेटा दलाल या डेटा विनिमय सेवा का उपयोग करना है

3 टैप्स बीटा सेवा है जो Craigslist सहित कई सेवाओं के लिए डेवलपर एपीआई प्रदान करता है उनकी टीम ने इस एपीआई के उपयोग के मामले को प्रदर्शित करने के लिए क्रेगर्स का भी निर्माण किया। संस्थापक ग्रेग किड ने मुझे बताया कि 3taps गैर Craigslist स्रोतों से Craigslist डेटा की खेती करते हैं जहां यह पहले से अनुक्रमित है और कैश की गई है ताकि यह Craigslist पर किसी भी तनाव को नहीं डालता। अन्य 3taps डेटा स्रोत भी सूचीबद्ध हैं, लेकिन ये आंकड़े यह स्पष्ट नहीं करते कि वे वर्तमान में समर्थित हैं या नहीं। उनका लक्ष्य डेटा एक्सचेंज को डेमोक्रेट करना है

8080 एक क्रॉलिंग सेवा है जो कम वास्तविक समय प्रदान करता है लेकिन संभावित रूप से अधिक व्यापक विकल्प प्रदान करता है। उनके डेटा डंप-स्टाइल सेवा में अमेज़ॅन, फेसबुक और ज़िलो सहित सैकड़ों साइट्स के लिए क्रॉल पैकेज शामिल हैं (मैं वर्तमान में क्रेगलिस्ट पर विश्वास नहीं करता)। उनकी नई कोशिश डेटाफिनीटी इस प्रकार के डेटा पर एक खोज इंजन प्रदान कर रही है।


AdRavage.com के लिए मैं मैगपी आरएसएस (खोजों से लौटा डेटा निकालने के लिए) और कस्टम स्क्रीन स्क्रैपिंग क्लास का एक संयोजन का उपयोग करता हूं ताकि खोजों के निर्माण के दौरान उपयोग किए गए शहर / श्रेणी की जानकारी को ठीक से व्यवस्थित किया जा सके।

उदाहरण के लिए, उन श्रेणियों को निकालने के लिए जिन्हें आप कर सकते हैं:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();

मैं स्क्रीन स्क्रैपिंग अनुमान लगा रहा हूं

मुझे नहीं लगता कि अभी तक एक क्रेग्सलिस्ट एपीआई है .. और मुझे नहीं लगता कि वे एक को छोड़ देंगे ..

इसलिए एकमात्र तरीका है कि डेटा को खरोंच करना है .. आप पुस्तकालय के लिए curl का इस्तेमाल कर सकते हैं और एक पृष्ठ के इच्छित आंकड़ों को परिमार्जन करने के लिए रेगेक्स को इस्तेमाल कर सकते हैं।

यदि आप एक लिंक देखते हैं .. पृष्ठ का उपयोग करें .. नया पेज डेटा को प्राप्त करें और इसे दिखाएं या उसे स्टोर करें

और इसी तरह..


इस क्षेत्र की खोज जारी रखने के दौरान, मुझे एक भयानक साइट मिली जो कि आंशिक रूप से जो मुझे इसमें दिलचस्पी है:

Crazedlist

यह क्लाइंट ब्राउज़र के HTTPReferer का उपयोग करता है, जो दिलचस्प है लेकिन आदर्श नहीं है। साइट के लेखक का भी दावा है कि सीएल पर रॉयली को टिकी है, जिसे मैं समझता हूं। यह व्यापार की जरूरत का स्पष्ट उदाहरण भी देता है, जो मेरी जरूरतों के समान है और मुझे इस विषय में क्यों दिलचस्पी है।


मैंने eBay, Craigslist, और Zillow जैसे साइटों से बहुत सारे डेटा एकत्रण किए हैं प्रत्येक स्रोत को डेटा एकत्रित करने के लिए एक अलग विधि की आवश्यकता होती है।

क्रेगलिस्ट के लिए, मुझे आरएसएस फ़ीड का इस्तेमाल करते हुए डेटा मिला। मैं केवल विशिष्ट शहरों में विशिष्ट श्रेणियों में विशिष्ट डेटा चाहता था, और आरएसएस फ़ीड मेरे लिए ठीक काम करता है यदि आप सभी डेटा प्राप्त करने का प्रयास कर रहे हैं, और आप आरएसएस फ़ीड का अति प्रयोग करते हैं, तो क्रेगलिस्ट आप पर प्रतिबंध लगाएंगे। इसके अलावा, आप Craigslist फ़ीड से सभी डेटा प्राप्त करने में सक्षम नहीं होंगे, क्योंकि फीड्स डेटा के अधिकांश दिखाती हैं लेकिन सभी नहीं। यदि आपकी विश्वसनीयता 100% होने की आवश्यकता नहीं है, तो आरएसएस ऐसा करने का सबसे आसान तरीका है।