how - java inputstream utf 8




Как читать/конвертировать InputStream в String в Java? (20)

Apache Commons позволяет:

String myString = IOUtils.toString(myInputStream, "UTF-8");

Конечно, вы можете выбирать другие кодировки символов, кроме UTF-8.

Также см .: ( Docs )

Если у вас есть объект java.io.InputStream , как вы должны обработать этот объект и создать String ?

Предположим, что у меня есть InputStream который содержит текстовые данные, и я хочу преобразовать его в String , так что, например, я могу записать это в файл журнала.

Каков самый простой способ взять InputStream и преобразовать его в String ?

public String convertStreamToString(InputStream is) { 
    // ???
}

Вот самое изящное, чисто-Java (без библиотеки) решение, которое я придумал после некоторых экспериментов:

public static String fromStream(InputStream in) throws IOException
{
    BufferedReader reader = new BufferedReader(new InputStreamReader(in));
    StringBuilder out = new StringBuilder();
    String newLine = System.getProperty("line.separator");
    String line;
    while ((line = reader.readLine()) != null) {
        out.append(line);
        out.append(newLine);
    }
    return out.toString();
}

Для полноты здесь решение Java 9 :

public static String toString(InputStream input) throws IOException {
    return new String(input.readAllBytes(), StandardCharsets.UTF_8);
}

readAllBytes в настоящее время находится в основной базе JDK 9, поэтому он может появиться в выпуске. Вы можете попробовать прямо сейчас, используя сборки моментальных снимков JDK 9 .


Если вы используете Google-Collections / Guava, вы можете сделать следующее:

InputStream stream = ...
String content = CharStreams.toString(new InputStreamReader(stream, Charsets.UTF_8));
Closeables.closeQuietly(stream);

Обратите внимание, что второй параметр (т.е. Charsets.UTF_8) для InputStreamReader не нужен, но, как правило, рекомендуется указывать кодировку, если вы ее знаете (что вам нужно!)


Как насчет:

import java.io.BufferedInputStream;
import java.io.ByteArrayOutputStream;
import java.io.InputStream;
import java.io.IOException;    

public static String readInputStreamAsString(InputStream in) 
    throws IOException {

    BufferedInputStream bis = new BufferedInputStream(in);
    ByteArrayOutputStream buf = new ByteArrayOutputStream();
    int result = bis.read();
    while(result != -1) {
      byte b = (byte)result;
      buf.write(b);
      result = bis.read();
    }        
    return buf.toString();
}

Подводя итог другим ответам, я нашел 11 основных способов сделать это (см. Ниже). И я написал некоторые тесты производительности (см. Результаты ниже):

Способы преобразования InputStream в строку:

  1. Использование IOUtils.toString (Apache Utils)

    String result = IOUtils.toString(inputStream, StandardCharsets.UTF_8);
    
  2. Использование CharStreams (Guava)

    String result = CharStreams.toString(new InputStreamReader(
          inputStream, Charsets.UTF_8));
    
  3. Использование Scanner (JDK)

    Scanner s = new Scanner(inputStream).useDelimiter("\\A");
    String result = s.hasNext() ? s.next() : "";
    
  4. Использование Stream API (Java 8). Предупреждение . Это решение преобразует различные разрывы строк (например, \r\n ) в \n .

    String result = new BufferedReader(new InputStreamReader(inputStream))
      .lines().collect(Collectors.joining("\n"));
    
  5. Использование параллельного Stream API (Java 8). Предупреждение . Это решение преобразует различные разрывы строк (например, \r\n ) в \n .

    String result = new BufferedReader(new InputStreamReader(inputStream)).lines()
       .parallel().collect(Collectors.joining("\n"));
    
  6. Использование InputStreamReader и StringBuilder (JDK)

    final int bufferSize = 1024;
    final char[] buffer = new char[bufferSize];
    final StringBuilder out = new StringBuilder();
    Reader in = new InputStreamReader(inputStream, "UTF-8");
    for (; ; ) {
        int rsz = in.read(buffer, 0, buffer.length);
        if (rsz < 0)
            break;
        out.append(buffer, 0, rsz);
    }
    return out.toString();
    
  7. Использование StringWriter и IOUtils.copy (Apache Commons)

    StringWriter writer = new StringWriter();
    IOUtils.copy(inputStream, writer, "UTF-8");
    return writer.toString();
    
  8. Использование ByteArrayOutputStream и inputStream.read (JDK)

    ByteArrayOutputStream result = new ByteArrayOutputStream();
    byte[] buffer = new byte[1024];
    int length;
    while ((length = inputStream.read(buffer)) != -1) {
        result.write(buffer, 0, length);
    }
    // StandardCharsets.UTF_8.name() > JDK 7
    return result.toString("UTF-8");
    
  9. Использование BufferedReader (JDK). Предупреждение. Это решение преобразует различные разрывы строк (например, \n\r ) в системное свойство line.separator (например, в Windows - «\ r \ n»).

    String newLine = System.getProperty("line.separator");
    BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
    StringBuilder result = new StringBuilder();
    boolean flag = false;
    for (String line; (line = reader.readLine()) != null; ) {
        result.append(flag? newLine: "").append(line);
        flag = true;
    }
    return result.toString();
    
  10. Использование BufferedInputStream и ByteArrayOutputStream (JDK)

    BufferedInputStream bis = new BufferedInputStream(inputStream);
    ByteArrayOutputStream buf = new ByteArrayOutputStream();
    int result = bis.read();
    while(result != -1) {
        buf.write((byte) result);
        result = bis.read();
    }
    // StandardCharsets.UTF_8.name() > JDK 7
    return buf.toString("UTF-8");
    
  11. Использование inputStream.read() и StringBuilder (JDK). Предупреждение . Это решение имеет проблемы с Unicode, например, с русским текстом (работает корректно только с текстом, отличным от Unicode)

    int ch;
    StringBuilder sb = new StringBuilder();
    while((ch = inputStream.read()) != -1)
        sb.append((char)ch);
    reset();
    return sb.toString();
    

Предупреждение :

  1. Решения 4, 5 и 9 конвертируют разные разрывы строк в один.

  2. Решение 11 не может работать корректно с текстом Unicode

Тесты производительности

Тесты производительности для небольшого String (длина = 175), url в github (режим = Среднее время, система = Linux, оценка 1,343 - лучшая):

              Benchmark                         Mode  Cnt   Score   Error  Units
 8. ByteArrayOutputStream and read (JDK)        avgt   10   1,343 ± 0,028  us/op
 6. InputStreamReader and StringBuilder (JDK)   avgt   10   6,980 ± 0,404  us/op
10. BufferedInputStream, ByteArrayOutputStream  avgt   10   7,437 ± 0,735  us/op
11. InputStream.read() and StringBuilder (JDK)  avgt   10   8,977 ± 0,328  us/op
 7. StringWriter and IOUtils.copy (Apache)      avgt   10  10,613 ± 0,599  us/op
 1. IOUtils.toString (Apache Utils)             avgt   10  10,605 ± 0,527  us/op
 3. Scanner (JDK)                               avgt   10  12,083 ± 0,293  us/op
 2. CharStreams (guava)                         avgt   10  12,999 ± 0,514  us/op
 4. Stream Api (Java 8)                         avgt   10  15,811 ± 0,605  us/op
 9. BufferedReader (JDK)                        avgt   10  16,038 ± 0,711  us/op
 5. parallel Stream Api (Java 8)                avgt   10  21,544 ± 0,583  us/op

Тесты производительности для большой String (длина = 50100), url в github (режим = Среднее время, система = Linux, оценка 200 715 - лучшая):

               Benchmark                        Mode  Cnt   Score        Error  Units
 8. ByteArrayOutputStream and read (JDK)        avgt   10   200,715 ±   18,103  us/op
 1. IOUtils.toString (Apache Utils)             avgt   10   300,019 ±    8,751  us/op
 6. InputStreamReader and StringBuilder (JDK)   avgt   10   347,616 ±  130,348  us/op
 7. StringWriter and IOUtils.copy (Apache)      avgt   10   352,791 ±  105,337  us/op
 2. CharStreams (guava)                         avgt   10   420,137 ±   59,877  us/op
 9. BufferedReader (JDK)                        avgt   10   632,028 ±   17,002  us/op
 5. parallel Stream Api (Java 8)                avgt   10   662,999 ±   46,199  us/op
 4. Stream Api (Java 8)                         avgt   10   701,269 ±   82,296  us/op
10. BufferedInputStream, ByteArrayOutputStream  avgt   10   740,837 ±    5,613  us/op
 3. Scanner (JDK)                               avgt   10   751,417 ±   62,026  us/op
11. InputStream.read() and StringBuilder (JDK)  avgt   10  2919,350 ± 1101,942  us/op

Графики (тесты производительности в зависимости от длины входного потока в системе Windows 7)

Тест производительности (среднее время) в зависимости от длины входного потока в системе Windows 7:

 length  182    546     1092    3276    9828    29484   58968

 test8  0.38    0.938   1.868   4.448   13.412  36.459  72.708
 test4  2.362   3.609   5.573   12.769  40.74   81.415  159.864
 test5  3.881   5.075   6.904   14.123  50.258  129.937 166.162
 test9  2.237   3.493   5.422   11.977  45.98   89.336  177.39
 test6  1.261   2.12    4.38    10.698  31.821  86.106  186.636
 test7  1.601   2.391   3.646   8.367   38.196  110.221 211.016
 test1  1.529   2.381   3.527   8.411   40.551  105.16  212.573
 test3  3.035   3.934   8.606   20.858  61.571  118.744 235.428
 test2  3.136   6.238   10.508  33.48   43.532  118.044 239.481
 test10 1.593   4.736   7.527   20.557  59.856  162.907 323.147
 test11 3.913   11.506  23.26   68.644  207.591 600.444 1211.545

Хороший способ сделать это - использовать Apache commons IOUtils для копирования InputStream в StringWriter ... что-то вроде

StringWriter writer = new StringWriter();
IOUtils.copy(inputStream, writer, encoding);
String theString = writer.toString();

или даже

// NB: does not close inputStream, you'll have to use try-with-resources for that
String theString = IOUtils.toString(inputStream, encoding); 

Кроме того, вы можете использовать ByteArrayOutputStream если вы не хотите смешивать свои потоки и писатели


Чистое решение Java с использованием Stream s работает с Java 8.

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.stream.Collectors;

// ...
public static String inputStreamToString(InputStream is) throws IOException {
    try (BufferedReader br = new BufferedReader(new InputStreamReader(is))) {
        return br.lines().collect(Collectors.joining(System.lineSeparator()));
    }
}

Как упоминалось Кристоффером Хаммарстремом ниже другого ответа, более безопасно явно указывать Charset . Т.е. конструктор InputStreamReader может быть изменен следующим образом:

new InputStreamReader(is, Charset.forName("UTF-8"))

Я бы использовал некоторые трюки Java 8.

public static String streamToString(final InputStream inputStream) throws Exception {
    // buffering optional
    try
    (
        final BufferedReader br
           = new BufferedReader(new InputStreamReader(inputStream))
    ) {
        // parallel optional
        return br.lines().parallel().collect(Collectors.joining("\n"));
    } catch (final IOException e) {
        throw new RuntimeException(e);
        // whatever.
    }
}

По сути, такие же, как некоторые другие ответы, кроме более кратким.


Я провел несколько тестов времени, потому что время имеет значение, всегда.

Я попытался получить ответ в String 3 разными способами. (показано ниже)
Я оставил блоки try / catch для удобства чтения.

Чтобы дать контекст, это предыдущий код для всех трех подходов:

   String response;
   String url = "www.blah.com/path?key=value";
   GetMethod method = new GetMethod(url);
   int status = client.executeMethod(method);

1)

 response = method.getResponseBodyAsString();

2)

InputStream resp = method.getResponseBodyAsStream();
InputStreamReader is=new InputStreamReader(resp);
BufferedReader br=new BufferedReader(is);
String read = null;
StringBuffer sb = new StringBuffer();
while((read = br.readLine()) != null) {
    sb.append(read);
}
response = sb.toString();

3)

InputStream iStream  = method.getResponseBodyAsStream();
StringWriter writer = new StringWriter();
IOUtils.copy(iStream, writer, "UTF-8");
response = writer.toString();

Таким образом, после выполнения 500 тестов для каждого подхода с теми же данными запроса / ответа, вот цифры. Еще раз, это мои выводы, и ваши результаты могут быть не совсем одинаковыми, но я написал это, чтобы дать некоторые указания другим относительно различий в эффективности этих подходов.

Звания:
Подход №1
Подход № 3 - на 2.6% медленнее, чем # 1
Подход №2 - на 4,3% медленнее, чем №1

Любой из этих подходов является подходящим решением для захвата ответа и создания из него String.


Guava предоставляет гораздо более короткое эффективное решение для автоматической блокировки, если поток ввода поступает из ресурса classpath (который, кажется, является популярной задачей):

byte[] bytes = Resources.toByteArray(classLoader.getResource(path));

или же

String text = Resources.toString(classLoader.getResource(path), StandardCharsets.UTF_8);

Существует также общая концепция ByteSource и CharSource которые осторожно заботятся об открытии и закрытии потока.

Так, например, вместо явного открытия небольшого файла для чтения его содержимого:

String content = Files.asCharSource(new File("robots.txt"), StandardCharsets.UTF_8).read();
byte[] data = Files.asByteSource(new File("favicon.ico")).read();

или просто

String content = Files.toString(new File("robots.txt"), StandardCharsets.UTF_8);
byte[] data = Files.toByteArray(new File("favicon.ico"));

Вот более или менее ответ sampath, немного очищенный и представленный как функция:

String streamToString(InputStream in) throws IOException {
  StringBuilder out = new StringBuilder();
  BufferedReader br = new BufferedReader(new InputStreamReader(in));
  for(String line = br.readLine(); line != null; line = br.readLine()) 
    out.append(line);
  br.close();
  return out.toString();
}

Если вы не можете использовать Commons IO (FileUtils / IOUtils / CopyUtils), вот пример использования BufferedReader для чтения файла по строкам:

public class StringFromFile {
    public static void main(String[] args) /*throws UnsupportedEncodingException*/ {
        InputStream is = StringFromFile.class.getResourceAsStream("file.txt");
        BufferedReader br = new BufferedReader(new InputStreamReader(is/*, "UTF-8"*/));
        final int CHARS_PER_PAGE = 5000; //counting spaces
        StringBuilder builder = new StringBuilder(CHARS_PER_PAGE);
        try {
            for(String line=br.readLine(); line!=null; line=br.readLine()) {
                builder.append(line);
                builder.append('\n');
            }
        } catch (IOException ignore) { }
        String text = builder.toString();
        System.out.println(text);
    }
}

или, если вы хотите получить необработанную скорость, я бы предложил вариант, предложенный Paul De Vrieze (который избегает использования StringWriter (который использует StringBuffer внутри):

public class StringFromFileFast {
    public static void main(String[] args) /*throws UnsupportedEncodingException*/ {
        InputStream is = StringFromFileFast.class.getResourceAsStream("file.txt");
        InputStreamReader input = new InputStreamReader(is/*, "UTF-8"*/);
        final int CHARS_PER_PAGE = 5000; //counting spaces
        final char[] buffer = new char[CHARS_PER_PAGE];
        StringBuilder output = new StringBuilder(CHARS_PER_PAGE);
        try {
            for(int read = input.read(buffer, 0, buffer.length);
                    read != -1;
                    read = input.read(buffer, 0, buffer.length)) {
                output.append(buffer, 0, read);
            }
        } catch (IOException ignore) { }

        String text = output.toString();
        System.out.println(text);
    }
}

Еще один, для всех пользователей Spring:

import java.nio.charset.StandardCharsets;
import org.springframework.util.FileCopyUtils;

public String convertStreamToString(InputStream is) throws IOException { 
    return new String(FileCopyUtils.copyToByteArray(is), StandardCharsets.UTF_8);
}

Методы утилиты org.springframework.util.StreamUtilsаналогичны тем, в которых FileCopyUtilsони содержатся , но они оставляют поток открытым, когда это делается.


Пользователи Kotlin просто делают:

println(InputStreamReader(is).readText())

в то время как

readText()

это встроенный метод расширения стандартной библиотеки Kotlin.


Самый простой способ в JDK состоит в следующем: snipplets кода.

String convertToString(InputStream in){
    String resource = new Scanner(in).useDelimiter("\\Z").next();
    return resource;
}

Вот как это сделать, используя только JDK с использованием буферов массива байтов. Это на самом деле то, как все коммерческие IOUtils.copy()методы все работают. Вы можете заменить byte[]с , char[]если вы копирования с Readerвместо InputStream.

import java.io.ByteArrayOutputStream;
import java.io.InputStream;

...

InputStream is = ....
ByteArrayOutputStream baos = new ByteArrayOutputStream(8192);
byte[] buffer = new byte[8192];
int count = 0;
try {
  while ((count = is.read(buffer)) != -1) {
    baos.write(buffer, 0, count);
  }
}
finally {
  try {
    is.close();
  }
  catch (Exception ignore) {
  }
}

String charset = "UTF-8";
String inputStreamAsString = baos.toString(charset);

Вот мое решение на основе Java 8 , которое использует новый Stream API для сбора всех строк из InputStream:

public static String toString(InputStream inputStream) {
    BufferedReader reader = new BufferedReader(
        new InputStreamReader(inputStream));
    return reader.lines().collect(Collectors.joining(
        System.getProperty("line.separator")));
}


Примечание. Это, вероятно, не очень хорошая идея. Этот метод использует рекурсию:

public String read (InputStream is) {
    byte next = is.read();
    return next == -1 ? "" : next + read(is); // Recursive part: reads next byte recursively
}

Пожалуйста, не уменьшайте это только потому, что это плохой выбор; это было главным образом творческим :)







inputstream