usar - writing strings in c++




Comparação de cadeias sem distinção entre maiúsculas e minúsculas em C++ (20)

Qual é a melhor maneira de fazer a comparação de cadeias sem distinção entre maiúsculas e minúsculas em C ++ sem transformar uma cadeia de caracteres em maiúsculas ou minúsculas?

Por favor, indique se os métodos são compatíveis com Unicode e quão portáteis eles são.


A biblioteca Boost.String tem muitos algoritmos para fazer comparações sem intercorrências e assim por diante.

Você poderia implementar o seu próprio, mas por que se preocupar quando já foi feito?


Apenas uma nota sobre qualquer método que você escolher, se esse método incluir o uso de strcmp sugerido por algumas respostas:

strcmp não funciona com dados Unicode em geral. Em geral, ele nem funciona com codificações Unicode baseadas em bytes, como utf-8, pois o strcmp só faz comparações de byte por byte e os pontos de código Unicode codificados em utf-8 podem levar mais de 1 byte. O único caso específico do Unicode que o strcmp manipula corretamente é quando uma string codificada com uma codificação baseada em byte contém apenas pontos de código abaixo de U + 00FF - então a comparação byte por byte é suficiente.


Aproveite as char_traits padrão. Lembre-se que um std::string é na verdade um typedef para std::basic_string<char> , ou mais explicitamente, std::basic_string<char, std::char_traits<char> > . O tipo char_traits descreve como os caracteres são comparados, como eles são copiados, como eles são convertidos, etc. Tudo o que você precisa fazer é digitar uma nova string sobre basic_string e fornecê-la com seus char_traits personalizados que a comparam insensivelmente.

struct ci_char_traits : public char_traits<char> {
    static bool eq(char c1, char c2) { return toupper(c1) == toupper(c2); }
    static bool ne(char c1, char c2) { return toupper(c1) != toupper(c2); }
    static bool lt(char c1, char c2) { return toupper(c1) <  toupper(c2); }
    static int compare(const char* s1, const char* s2, size_t n) {
        while( n-- != 0 ) {
            if( toupper(*s1) < toupper(*s2) ) return -1;
            if( toupper(*s1) > toupper(*s2) ) return 1;
            ++s1; ++s2;
        }
        return 0;
    }
    static const char* find(const char* s, int n, char a) {
        while( n-- > 0 && toupper(*s) != toupper(a) ) {
            ++s;
        }
        return s;
    }
};

typedef std::basic_string<char, ci_char_traits> ci_string;

Os detalhes estão no Guru da Semana número 29 .


Curto e legal. Nenhuma outra dependência, do que std C lib.

strcasecmp(str1.c_str(), str2.c_str()) == 0

retorna true se str1 e str2 forem iguais. strcasecmp pode não existir, pode haver stricmp analógicos, strcmpi , etc.

Exemplo de código:

#include <iostream>
#include <string>
#include <string.h> //For strcasecmp(). Also could be found in <mem.h>

using namespace std;

/// Simple wrapper
inline bool str_ignoreCase_cmp(std::string const& s1, std::string const& s2) {
    if(s1.length() != s2.length())
        return false;  // optimization since std::string holds length in variable.
    return strcasecmp(s1.c_str(), s2.c_str()) == 0;
}

/// Function object - comparator
struct StringCaseInsensetiveCompare {
    bool operator()(std::string const& s1, std::string const& s2) {
        if(s1.length() != s2.length())
            return false;  // optimization since std::string holds length in variable.
        return strcasecmp(s1.c_str(), s2.c_str()) == 0;
    }
    bool operator()(const char *s1, const char * s2){ 
        return strcasecmp(s1,s2)==0;
    }
};


/// Convert bool to string
inline char const* bool2str(bool b){ return b?"true":"false"; }

int main()
{
    cout<< bool2str(strcasecmp("asd","AsD")==0) <<endl;
    cout<< bool2str(strcasecmp(string{"aasd"}.c_str(),string{"AasD"}.c_str())==0) <<endl;
    StringCaseInsensetiveCompare cmp;
    cout<< bool2str(cmp("A","a")) <<endl;
    cout<< bool2str(cmp(string{"Aaaa"},string{"aaaA"})) <<endl;
    cout<< bool2str(str_ignoreCase_cmp(string{"Aaaa"},string{"aaaA"})) <<endl;
    return 0;
}

Saída:

true
true
true
true
true

Eu escrevi uma versão de char_traits sem distinção entre maiúsculas e minúsculas para uso com std :: basic_string para gerar um std :: string que não diferencia maiúsculas de minúsculas ao fazer comparações, pesquisas, etc usando as funções de membro std :: basic_string internas.

Então, em outras palavras, eu queria fazer algo assim.

std::string a = "Hello, World!";
std::string b = "hello, world!";

assert( a == b );

... qual std :: string não pode manipular. Aqui está o uso de meus novos char_traits:

std::istring a = "Hello, World!";
std::istring b = "hello, world!";

assert( a == b );

... e aqui está a implementação:

/*  ---

        Case-Insensitive char_traits for std::string's

        Use:

            To declare a std::string which preserves case but ignores case in comparisons & search,
            use the following syntax:

                std::basic_string<char, char_traits_nocase<char> > noCaseString;

            A typedef is declared below which simplifies this use for chars:

                typedef std::basic_string<char, char_traits_nocase<char> > istring;

    --- */

    template<class C>
    struct char_traits_nocase : public std::char_traits<C>
    {
        static bool eq( const C& c1, const C& c2 )
        { 
            return ::toupper(c1) == ::toupper(c2); 
        }

        static bool lt( const C& c1, const C& c2 )
        { 
            return ::toupper(c1) < ::toupper(c2);
        }

        static int compare( const C* s1, const C* s2, size_t N )
        {
            return _strnicmp(s1, s2, N);
        }

        static const char* find( const C* s, size_t N, const C& a )
        {
            for( size_t i=0 ; i<N ; ++i )
            {
                if( ::toupper(s[i]) == ::toupper(a) ) 
                    return s+i ;
            }
            return 0 ;
        }

        static bool eq_int_type( const int_type& c1, const int_type& c2 )
        { 
            return ::toupper(c1) == ::toupper(c2) ; 
        }       
    };

    template<>
    struct char_traits_nocase<wchar_t> : public std::char_traits<wchar_t>
    {
        static bool eq( const wchar_t& c1, const wchar_t& c2 )
        { 
            return ::towupper(c1) == ::towupper(c2); 
        }

        static bool lt( const wchar_t& c1, const wchar_t& c2 )
        { 
            return ::towupper(c1) < ::towupper(c2);
        }

        static int compare( const wchar_t* s1, const wchar_t* s2, size_t N )
        {
            return _wcsnicmp(s1, s2, N);
        }

        static const wchar_t* find( const wchar_t* s, size_t N, const wchar_t& a )
        {
            for( size_t i=0 ; i<N ; ++i )
            {
                if( ::towupper(s[i]) == ::towupper(a) ) 
                    return s+i ;
            }
            return 0 ;
        }

        static bool eq_int_type( const int_type& c1, const int_type& c2 )
        { 
            return ::towupper(c1) == ::towupper(c2) ; 
        }       
    };

    typedef std::basic_string<char, char_traits_nocase<char> > istring;
    typedef std::basic_string<wchar_t, char_traits_nocase<wchar_t> > iwstring;

Eu tive uma boa experiência usando os componentes internacionais para bibliotecas Unicode - eles são extremamente poderosos e fornecem métodos para conversão, suporte a localidade, renderização de data e hora, mapeamento de caso (que você não parece querer) e collation , que inclui comparação insensível a maiúsculas e minúsculas (e mais). Eu usei apenas a versão C ++ das bibliotecas, mas elas também parecem ter uma versão Java.

Existem métodos para realizar comparações normalizadas como referido por @Coincoin, e pode até mesmo considerar o código de idioma - por exemplo (e este um exemplo de classificação, não estritamente igualdade), tradicionalmente em espanhol (na Espanha), a combinação de letras "ll" classifica entre "l" e "m", então "lz" <"ll" <"ma".


Fazer isso sem usar o Boost pode ser feito obtendo o ponteiro de cadeia C com c_str() e usando strcasecmp :

std::string str1 ="aBcD";
std::string str2 = "AbCd";;
if (strcasecmp(str1.c_str(), str2.c_str()) == 0)
{
    //case insensitive equal 
}


No início de 2013, o projeto da UTI, mantido pela IBM, é uma ótima resposta para isso.

site.icu-project.org

O ICU é uma "biblioteca Unicode completa e portátil que acompanha de perto os padrões do setor". Para o problema específico da comparação de cadeias, o objeto Collation faz o que você deseja.

O Projeto Mozilla adotou a UTI para internacionalização no Firefox em meados de 2012; você pode acompanhar a discussão de engenharia, incluindo questões de sistemas de compilação e tamanho de arquivo de dados, aqui:


O Boost inclui um algoritmo prático para isso:

#include <boost/algorithm/string.hpp>
// Or, for fewer header dependencies:
//#include <boost/algorithm/string/predicate.hpp>

std::string str1 = "hello, world!";
std::string str2 = "HELLO, WORLD!";

if (boost::iequals(str1, str2))
{
    // Strings are identical
}

Para minhas necessidades de comparação de cadeias insensíveis de maiúsculas e minúsculas, prefiro não ter que usar uma biblioteca externa, nem quero uma classe de cadeia separada com traços insensíveis a maiúsculas e minúsculas que seja incompatível com todas as minhas outras strings.

Então, o que eu tenho é o seguinte:

bool icasecmp(const string& l, const string& r)
{
    return l.size() == r.size()
        && equal(l.cbegin(), l.cend(), r.cbegin(),
            [](string::value_type l1, string::value_type r1)
                { return toupper(l1) == toupper(r1); });
}

bool icasecmp(const wstring& l, const wstring& r)
{
    return l.size() == r.size()
        && equal(l.cbegin(), l.cend(), r.cbegin(),
            [](wstring::value_type l1, wstring::value_type r1)
                { return towupper(l1) == towupper(r1); });
}

Uma função simples com uma sobrecarga para char e outra para whar_t. Não usa nada fora do padrão, então deve estar bem em qualquer plataforma.

A comparação de igualdade não considerará problemas como codificação de comprimento variável e normalização Unicode, mas basic_string não tem suporte para o que eu conheço de qualquer maneira e normalmente não é um problema.

Nos casos em que a manipulação lexicográfica mais sofisticada do texto é necessária, então você simplesmente tem que usar uma biblioteca de terceiros como o Boost, o que é esperado.


Parece que as soluções acima não estão usando o método compare e o total de implementação novamente, então aqui está minha solução e espero que funcione para você (está funcionando bem).

#include<iostream>
#include<cstring>
#include<cmath>
using namespace std;
string tolow(string a)
{
    for(unsigned int i=0;i<a.length();i++)
    {
        a[i]=tolower(a[i]);
    }
    return a;
}
int main()
{
    string str1,str2;
    cin>>str1>>str2;
    int temp=tolow(str1).compare(tolow(str2));
    if(temp>0)
        cout<<1;
    else if(temp==0)
        cout<<0;
    else
        cout<<-1;
}

Se você não quiser usar a biblioteca Boost , aqui está a solução para ela usando apenas o cabeçalho io padrão C ++.

#include <iostream>

struct iequal
{
    bool operator()(int c1, int c2) const
    {
        // case insensitive comparison of two characters.
        return std::toupper(c1) == std::toupper(c2);
    }
};

bool iequals(const std::string& str1, const std::string& str2)
{
    // use std::equal() to compare range of characters using the functor above.
    return std::equal(str1.begin(), str1.end(), str2.begin(), iequal());
}

int main(void)
{
    std::string str_1 = "HELLO";
    std::string str_2 = "hello";

    if(iequals(str_1,str_2))
    {
        std::cout<<"String are equal"<<std::endl;   
    }

    else
    {
        std::cout<<"String are not equal"<<std::endl;
    }


    return 0;
}

Supondo que você esteja procurando um método e não uma função mágica que já exista, não há melhor maneira. Poderíamos todos escrever trechos de código com truques inteligentes para conjuntos de caracteres limitados, mas no final do dia em algum momento você tem que converter os caracteres.

A melhor abordagem para essa conversão é fazer isso antes da comparação. Isso permite uma boa dose de flexibilidade quando se trata de esquemas de codificação, que seu operador de comparação real deve ignorar.

É claro que você pode "ocultar" essa conversão por trás de sua função ou classe de string, mas ainda precisa converter as strings antes da comparação.


Veja std::lexicographical_compare :

// lexicographical_compare example
#include <iostream>  // std::cout, std::boolalpha
#include <algorithm>  // std::lexicographical_compare
#include <cctype>  // std::tolower

// a case-insensitive comparison function:
bool mycomp (char c1, char c2) {
    return std::tolower(c1)<std::tolower(c2);
}

int main () {
    char foo[] = "Apple";
    char bar[] = "apartment";

    std::cout << std::boolalpha;

    std::cout << "Comparing foo and bar lexicographically (foo < bar):\n";

    std::cout << "Using default comparison (operator<): ";
    std::cout << std::lexicographical_compare(foo, foo + 5, bar, bar + 9);
    std::cout << '\n';

    std::cout << "Using mycomp as comparison object: ";
    std::cout << std::lexicographical_compare(foo, foo + 5, bar, bar + 9, mycomp);
    std::cout << '\n';

    return 0;
}

Demo


Você está falando sobre uma comparação insensível a um caso estúpido ou uma comparação Unicode normalizada completa?

Uma comparação burra não encontrará cadeias que podem ser as mesmas, mas não são binárias iguais.

Exemplo:

U212B (ANGSTROM SIGN)
U0041 (LATIN CAPITAL LETTER A) + U030A (COMBINING RING ABOVE)
U00C5 (LATIN CAPITAL LETTER A WITH RING ABOVE).

São todos equivalentes, mas também possuem diferentes representações binárias.

Dito isso, a unicode.org/reports/tr15 deve ser uma leitura obrigatória, especialmente se você planeja oferecer suporte a Hangul, Thaï e outros idiomas asiáticos.

Além disso, a IBM praticamente patenteou os algoritmos Unicode mais otimizados e os disponibilizou publicamente. Eles também mantêm uma implementação: IBM ICU


boost :: iequals não é utf-8 compatível no caso de string. Você pode usar o boost::locale .

comparator<char,collator_base::secondary> cmpr;
cout << (cmpr(str1, str2) ? "str1 < str2" : "str1 >= str2") << endl;
  • Principal - ignora acentos e maiúsculas e minúsculas, comparando apenas letras de base. Por exemplo, "fachada" e "Fachada" são as mesmas.
  • Secundário - ignora o caso de caractere, mas considere acentos. "fachada" e "fachada" são diferentes, mas "Fachada" e "fachada" são as mesmas.
  • Terciário - considere o caso e os acentos: "Fachada" e "fachada" são diferentes. Ignore a pontuação.
  • Quaternário - considere todos os casos, acentos e pontuação. As palavras devem ser idênticas em termos de representação Unicode.
  • Idêntico - como quaternário, mas compare os pontos de código também.

Se você tiver que comparar uma string de origem com mais frequência com outras strings, uma solução elegante é usar o regex.

std::wstring first = L"Test";
std::wstring second = L"TEST";

std::wregex pattern(first, std::wregex::icase);
bool isEqual = std::regex_match(second, pattern);

Uma maneira simples de comparar duas cadeias em c ++ (testado para windows) é usar _stricmp

// Case insensitive (could use equivalent _stricmp)  
result = _stricmp( string1, string2 );  

Se você estiver olhando para usar com std :: string, um exemplo:

std::string s1 = string("Hello");
if ( _stricmp(s1.c_str(), "HELLO") == 0)
   std::cout << "The string are equals.";

Para mais informações, acesse: https://msdn.microsoft.com/it-it/library/e0z9k731.aspx


bool insensitive_c_compare(char A, char B){
  static char mid_c = ('Z' + 'a') / 2 + 'Z';
  static char up2lo = 'A' - 'a'; /// the offset between upper and lowers

  if ('a' >= A and A >= 'z' or 'A' >= A and 'Z' >= A)
      if ('a' >= B and B >= 'z' or 'A' >= B and 'Z' >= B)
      /// check that the character is infact a letter
      /// (trying to turn a 3 into an E would not be pretty!)
      {
        if (A > mid_c and B > mid_c or A < mid_c and B < mid_c)
        {
          return A == B;
        }
        else
        {
          if (A > mid_c)
            A = A - 'a' + 'A'; 
          if (B > mid_c)/// convert all uppercase letters to a lowercase ones
            B = B - 'a' + 'A';
          /// this could be changed to B = B + up2lo;
          return A == B;
        }
      }
}

isso provavelmente poderia ser muito mais eficiente, mas aqui está uma versão volumosa com todos os seus bits nus.

não é tudo que portátil, mas funciona bem com o que está no meu computador (não faço ideia, eu sou de fotos, não de palavras)







string