spark (505)


Scala: Match und Parse eine ganze Zahl?

Scala: Match und Parse eine ganze Zahl?

Ich suche nach einer Möglichkeit, eine Zeichenfolge zu finden, die einen ganzzahligen Wert enthalten kann. Wenn ja, analysiere es. Ich möchte Code ähnlich dem folgenden schreiben: def getValue(s…


Wann und Warum ist XML CSV vorzuziehen?

Manchmal fühlt es sich so an, als sei XML verwendet worden, nur weil es Mode war.…


Hadoop oder Hadoop Streaming für MapReduce auf AWS

Ich bin dabei, ein MapReduce-Projekt zu starten, das auf AWS läuft, und ich habe die Wahl, entweder Java oder C++ zu verwenden. Ich verstehe, dass das Schreiben des Projekts in Java mir mehr Funk…


Funktionale Programmierung, Scala map und fold left

Was sind einige gute Tutorials auf der linken Seite? Ursprüngliche Frage, die beim Löschen wiederhergestellt wurde, um Kontext für andere Antworten bereitzustellen: Ich versuche, eine Methode zu…


python - Wie kann ich die Größe des Heapspeichers begrenzen?

Ich schreibe manchmal Python-Programme, bei denen es sehr schwierig ist zu bestimmen, wie viel Speicher sie vor der Ausführung verwenden werden. Daher rufe ich manchmal ein Python-Programm auf, das…


hadoop - Ändern Sie die Blockgröße der dfs-Datei

Meine Karte ist derzeit ineffizient, wenn eine bestimmte Gruppe von Dateien analysiert wird(insgesamt 2 TB). Ich möchte die Blockgröße von Dateien in Hadoop dfs(von 64 MB auf 128 MB) ändern. Ich…



hadoop - Pig Latin: Laden Sie mehrere Dateien aus einem Datumsbereich(Teil der Verzeichnisstruktur)

Ich habe folgendes Szenario- Schwein Version verwendet 0,70 Beispiel einer HDFS-Verzeichnisstruktur:/user/training/test/20100810/<data files>/user/training/test/20100811/<data files>/user/tra…


Mehrere Dateien in Hadoop zusammenführen

Ich bekomme mehrere kleine Dateien in mein Eingabeverzeichnis, die ich zu einer einzigen Datei zusammenführen möchte, ohne das lokale Dateisystem zu verwenden oder MapReds zu schreiben. Gibt es ein…


datetime - Wie kann man in Scala mit Datum und Uhrzeit arbeiten? Sollte ich Java-Typen verwenden oder gibt es native Scala-Alternativen?

Wie kann man in Scala mit Datum und Uhrzeit arbeiten? Soll ich Java-Typen wie java.util.Date verwenden oder gibt es native Scala-Alternativen?…


Hadoop-Abfrage bezüglich der setJarByClass-Methode der Job-Klasse

In der Hadoop-API-Dokumentation ist dies angegeben Das setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from. Was genau bedeutet diese Er…




apache tutorial sql hadoop pyspark scala dataframe example python download