distributed computing - あなたが本当に分散システムの設計を台無しにしたときに何をしますか?

関連質問: 集中型データベースを分割するための最も効率的な方法は何ですか? 私はこの質問をかなり一般的なものにして、他の人に役立つようにします。 約3年前、私はCRMとWebサイトを統合しました。 私は顧客を感動させたかったので、私は私が考えることができる最も安いアーキテクチャを実行しました。それはウェブサーバーの中央のデータベースとウェブサイトをホストすることでした。 私はWebサービスを…


resources - Hadoopを試すための無料の大規模なデータセット

無料/低コストのHadoopを試す大規模なデータセットをご存知ですか? 関連するすべてのポインタ/リンクが評価されます。 好ましいもの: 少なくとも1 GBのデータ。 Webサーバーのログデータを生成します。 これまでに私が見つけたものはほとんどありませんでした。 ウィキペディアダンプ http://wiki.freebase.com/wiki/Data_dumps http:/…


language agnostic - 大規模なグラフの分散処理のためのフレームワークのようなオープンソースのPregel?

Googleは、Massive Graphsの分散処理のための新しいフレームワークを記述しています。 http://portal.acm.org/citation.cfm?id=1582716.1582723 Hadoop(Map-Reduce)に似ていれば、このフレームワークのオープンソースの実装があるかどうかを知りたかったのですが? 私は実際にPythonとマルチプロセッシングモジ…


java - MapReduce/Hadoopを使用して大きなデータをソートする

私はMapReduceについて読んでおり、次のことは私を混乱させています。 100万エントリ(整数)のファイルがあり、MapReduceを使用してそれらをソートしたいとします。 それについて私が理解する方法は以下の通りです: 整数をソートするマッパー関数を記述します。 フレームワークは入力ファイルを複数のチャンクに分割し、それらを異なるマッパーに渡します。 各マッパーは、互いに独立したデー…


python - 並列ファイル解析、複数CPUコア

私は以前に関連するが非常に一般的な質問をしました(特にこの回答を見てください)。 この質問は非常に具体的です。 これは私が気にするすべてのコードです: result={} for line in open('input.txt'): key, value=parse(line) result[key]=value 関数parseは完全に自己完結型です(つまり、共有リソース…


parallel processing - ステートレスシステムとステートフルシステムの違いは何ですか?それらが並列性にどのように影響しますか?

ステートレスシステムとステートフルシステムの違いと、並列性に対する国の影響について説明します。…


Hadoopの大容量データをダウンロードする

Hadoopのデモを実行するには、大きなデータ(10GB以上)が必要です。 私がそれをダウンロードできる場所は誰でも知っている。 私にお知らせください。…


performance - 分散ローカルクラスタリング係数アルゴリズム(MapReduce/Hadoop)

MapReduceのパラダイムベースのローカルクラスタリング係数アルゴリズムを実装しました。 しかし、私は大きなデータセットや特定のデータセット(ノードの平均度数が高い)では重大な問題に遭遇しました。 私は自分のハープのプラットフォームとコードを調整しようとしましたが、結果は不満足でした。 いいえ、私は実際にアルゴリズムを変更/改善するために注意を向けていません。 私の現在のアルゴリズム(擬似…


Java webappに埋め込まれたクライアント用にhadoopシステムユーザを設定する

Java WebアプリケーションからMapReduceジョブをリモートHadoopクラスターに提出したいが、ジョブを提出するユーザーを指定できない。 すべてのMapReduceジョブに使用するシステムユーザを設定して使用したいと思います。 現在、クライアントシステムの現在ログインしているユーザのユーザ名の下でhadoopジョブが何を実行していても、ユーザを指定することはできません。 これによ…


Apache StormとHadoopの比較

StormとHadoopの違いは何ですか? Hadoopはオープンソースの大規模バッチ処理のデファクトスタンダードになっているようですが、Stormはhadoopに比べて利点がありますか? またはそれらは完全に異なっていますか?…





spark フレームワーク hadoop apache hdfs 一覧 python java 使い方 違い