[C++] テキスト内で25,000語を検索


Answers

かつてBoyer-Mooreアルゴリズムを使っていましたが、かなり速かったです。

Boyer-Mooreは効率的に多くの単語を検索することはできません。 実際、Wu-Manberアルゴリズムと呼ばれる、これを行うための非常に効率的なアルゴリズムがあります。 私はリファレンス実装を投稿します。 しかし、私は教育目的のためだけにこれをやったことに注意してください。 したがって、実装は直接的な使用に実際には適しておらず、より効率的にすることもできます。

また、Dinkumware STLのstdext::hash_mapも使用します。 std::tr1::unordered_mapまたは適切な実装でサブセットを作成します。

アルゴリズムの説明は、Knut Reinertが行っているFreieUniversitätBerlinの講義の講義スクリプトにあります

元の論文はオンラインでもありますが(ちょうどそれが再び見つかりました)、私はそこに提示された擬似コードが特に好きではありません。

#ifndef FINDER_HPP
#define FINDER_HPP

#include <string>

namespace thru { namespace matching {

class Finder {
public:
    virtual bool find() = 0;

    virtual std::size_t position() const = 0;

    virtual ~Finder() = 0;

protected:
    static size_t code_from_chr(char c) {
        return static_cast<size_t>(static_cast<unsigned char>(c));
    }
};

inline Finder::~Finder() { }

} } // namespace thru::matching

#endif // !defined(FINDER_HPP)
#include <vector>
#include <hash_map>

#include "finder.hpp"

#ifndef WUMANBER_HPP
#define WUMANBER_HPP

namespace thru { namespace matching {

class WuManberFinder : public Finder {
public:

    WuManberFinder(std::string const& text, std::vector<std::string> const& patterns);

    bool find();

    std::size_t position() const;

    std::size_t pattern_index() const;

private:

    template <typename K, typename V>
    struct HashMap {
        typedef stdext::hash_map<K, V> Type;
    };

    typedef HashMap<std::string, std::size_t>::Type shift_type;
    typedef HashMap<std::string, std::vector<std::size_t> >::Type hash_type;

    std::string const& m_text;
    std::vector<std::string> const& m_patterns;
    shift_type m_shift;
    hash_type m_hash;
    std::size_t m_pos;
    std::size_t m_find_pos;
    std::size_t m_find_pattern_index;
    std::size_t m_lmin;
    std::size_t m_lmax;
    std::size_t m_B;
};

} } // namespace thru::matching

#endif // !defined(WUMANBER_HPP)
#include <cmath>
#include <iostream>

#include "wumanber.hpp"

using namespace std;

namespace thru { namespace matching {

WuManberFinder::WuManberFinder(string const& text, vector<string> const& patterns)
    : m_text(text)
    , m_patterns(patterns)
    , m_shift()
    , m_hash()
    , m_pos()
    , m_find_pos(0)
    , m_find_pattern_index(0)
    , m_lmin(m_patterns[0].size())
    , m_lmax(m_patterns[0].size())
    , m_B()
{
    for (size_t i = 0; i < m_patterns.size(); ++i) {
        if (m_patterns[i].size() < m_lmin)
            m_lmin = m_patterns[i].size();
        else if (m_patterns[i].size() > m_lmax)
            m_lmax = m_patterns[i].size();
    }

    m_pos = m_lmin;
    m_B = static_cast<size_t>(ceil(log(2.0 * m_lmin * m_patterns.size()) / log(256.0)));

    for (size_t i = 0; i < m_patterns.size(); ++i)
        m_hash[m_patterns[i].substr(m_patterns[i].size() - m_B)].push_back(i);

    for (size_t i = 0; i < m_patterns.size(); ++i) {
        for (size_t j = 0; j < m_patterns[i].size() - m_B + 1; ++j) {
            string bgram = m_patterns[i].substr(j, m_B);
            size_t pos = m_patterns[i].size() - j - m_B;

            shift_type::iterator old = m_shift.find(bgram);
            if (old == m_shift.end())
                m_shift[bgram] = pos;
            else
                old->second = min(old->second, pos);
        }
    }
}

bool WuManberFinder::find() {
    while (m_pos <= m_text.size()) {
        string bgram = m_text.substr(m_pos - m_B, m_B);
        shift_type::iterator i = m_shift.find(bgram);
        if (i == m_shift.end())
            m_pos += m_lmin - m_B + 1;
        else {
            if (i->second == 0) {
                vector<size_t>& list = m_hash[bgram];
                // Verify all patterns in list against the text.
                ++m_pos;
                for (size_t j = 0; j < list.size(); ++j) {
                    string const& str = m_patterns[list[j]];
                    m_find_pos = m_pos - str.size() - 1;
                    size_t k = 0;

                    for (; k < str.size(); ++k)
                        if (str[k] != m_text[m_find_pos + k])
                            break;

                    if (k == str.size()) {
                        m_find_pattern_index = list[j];
                        return true;
                    }
                }
            }
            else
                m_pos += i->second;
        }
    }

    return false;
}

size_t WuManberFinder::position() const {
    return m_find_pos;
}

size_t WuManberFinder::pattern_index() const {
    return m_find_pattern_index;
}

} } // namespace thru::matching

使用例:

vector<string> patterns;
patterns.push_back("announce");
patterns.push_back("annual");
patterns.push_back("annually");

WuManberFinder wmf("CPM_annual_conference_announce", patterns);

while (wmf.find())
    cout << "Pattern \"" << patterns[wmf.pattern_index()] <<
        "\" found at position " << wmf.position() << endl;
Question

私はテキスト内で〜25 000語の出現を見つける必要があります。 この目的に最も適したアルゴリズム/ライブラリは何ですか?

ターゲット言語はC ++です




アルファベット順に並べ替えることもできます。 並べ替えられた配列が2つあると、線形時間で簡単に一致を見つけることができます。




Javierが述べるように、最も簡単な解決策はおそらくハッシュテーブルです。

C ++では、これはSTLセットを使用して実装できます。 最初に25,000のテスト単語をセットに追加し、set.find(current_word)を使ってテキスト内の各単語をスキャンして、その単語が25,000のテスト単語の中にあるかどうかを評価します。

set.findは対数的に高速ですので、25,000テスト単語はあまりにも大きくすべきではありません。 このアルゴリズムは、明らかにテキスト中の単語の数が線形である。




Aho-Corasickアルゴリズムは、その目的のために特別に構築されています。




コーパスが非常に大きい場合は、このようにコーパスを最適化してみてください。

チェックする必要がある各単語のハッシュを計算し、各文字に整数の素数を割り当ててから各数字を掛け合わせ、各数字 - >単語をマルチマップに格納する(単一キーで複数の値を許可する必要がある)

単語リストをスキャンしながら、各単語に対して同じ方法でハッシュを計算し、ハッシュマップ上で計算されたキーに関連付けられた単語を取得します。 整数をキーとして使用すると、O(1)を取得できます。 この方法では、処理された単語がマップ内でいくつかのアナグラム(あなたが文字を乗じたもの)を持っていれば、本当に素早く見つけることができます。

覚えておいてください:同じハッシュを持つ単語のセットをマルチマップに格納したので、この大幅に縮小されたセットで一致を見つける必要があります。 マップ上の整数の存在が関連セット内の単語の存在と同じではないため、この追加のチェックが必要です。問題の計算スペースを減らすためにここでハッシュを使用していますが、これにより衝突が発生します。識別された各アナグラムを確認するために明確にする必要があります。




viceBergさんの言葉:

かつてBoyer-Mooreアルゴリズムを使っていましたが、かなり速かったです。

Boyer-Mooreの場合、通常は1つの文字列のテキストブロックを検索していませんか?

シンプルなソリューションを実装するには、Javierによって提案されたハッシュテーブルアプローチを使用してください。 FatCat1111によって提案されたBloom Filterも、目標に応じて動作するはずです。