concurrency completablefuture线程池 - Java 8并行流中的自定义线程池




parallel-processing java-8 java-stream (8)

是否可以为Java 8 并行流指定自定义线程池? 我无法在任何地方找到它。

想象一下,我有一个服务器应用程序,我想使用并行流。 但是这个应用程序很大且多线程,所以我想划分它。 我不想在另一个模块的应用程序块任务的一个模块中执行运行缓慢的任务。

如果我不能为不同的模块使用不同的线程池,这意味着我不能在大多数真实世界的情况下安全地使用并行流。

试试下面的例子。 有一些CPU密集型任务在不同的线程中执行。 这些任务利用并行流。 第一项任务被破坏,所以每一步都需要1秒(由线程休眠模拟)。 问题在于其他线程卡住了,等待中断的任务完成。 这是一个人为的例子,但想象一下servlet应用程序和某人向共享fork连接池提交长时间运行的任务。

public class ParallelTest {
    public static void main(String[] args) throws InterruptedException {
        ExecutorService es = Executors.newCachedThreadPool();

        es.execute(() -> runTask(1000)); //incorrect task
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));
        es.execute(() -> runTask(0));


        es.shutdown();
        es.awaitTermination(60, TimeUnit.SECONDS);
    }

    private static void runTask(int delay) {
        range(1, 1_000_000).parallel().filter(ParallelTest::isPrime).peek(i -> Utils.sleep(delay)).max()
                .ifPresent(max -> System.out.println(Thread.currentThread() + " " + max));
    }

    public static boolean isPrime(long n) {
        return n > 1 && rangeClosed(2, (long) sqrt(n)).noneMatch(divisor -> n % divisor == 0);
    }
}

Answers

去获得AbacusUtil 。 线程号可以通过为并行流指定。 以下是示例代码:

LongStream.range(4, 1_000_000).parallel(threadNum)...

披露:我是AbacusUtil的开发人员。


如果您不介意使用第三方库,使用cyclops-react您可以在同一管道中混合顺序流和并行流,并提供定制的ForkJoinPools。 例如

 ReactiveSeq.range(1, 1_000_000)
            .foldParallel(new ForkJoinPool(10),
                          s->s.filter(i->true)
                              .peek(i->System.out.println("Thread " + Thread.currentThread().getId()))
                              .max(Comparator.naturalOrder()));

或者如果我们希望继续在顺序流内处理

 ReactiveSeq.range(1, 1_000_000)
            .parallel(new ForkJoinPool(10),
                      s->s.filter(i->true)
                          .peek(i->System.out.println("Thread " + Thread.currentThread().getId())))
            .map(this::processSequentially)
            .forEach(System.out::println);

[披露我是独眼巨人反应的首席开发者]


并行流使用默认的ForkJoinPool.commonPool默认情况下,由于您有处理器 ,所以缺省少一个线程 ,如Runtime.getRuntime().availableProcessors()所返回的Runtime.getRuntime().availableProcessors() (这意味着并行流使用所有处理器,因为它们也使用主线程):

对于需要单独或自定义池的应用程序,可以使用给定的目标并行性级别构建ForkJoinPool; 默认情况下,等于可用处理器的数量。

这也意味着,如果您嵌套并行流或并行启动多个并行流,它们将共享同一个池。 优点:您永远不会使用超过默认值(可用处理器数量)。 缺点:您可能无法获得分配给您启动的每个并行流的“所有处理器”(如果您碰巧有多个处理器)。 (显然你可以使用ManagedBlocker来规避这一点。)

要改变并行流的执行方式,你也可以

  • 将并行流执行提交给您自己的ForkJoinPool: yourFJP.submit(() -> stream.parallel().forEach(soSomething)).get(); 要么
  • 您可以使用系统属性更改公共池的大小: System.setProperty("java.util.concurrent.ForkJoinPool.common.parallelism", "20")用于20个线程的目标并行度。

后者在我的机器上有8个处理器的例子。 如果我运行以下程序:

long start = System.currentTimeMillis();
IntStream s = IntStream.range(0, 20);
//System.setProperty("java.util.concurrent.ForkJoinPool.common.parallelism", "20");
s.parallel().forEach(i -> {
    try { Thread.sleep(100); } catch (Exception ignore) {}
    System.out.print((System.currentTimeMillis() - start) + " ");
});

输出是:

215 216 216 216 216 216 216 216 315 316 316 316 316 316 316 316 415 416 416 416

所以你可以看到并行流一次处理8个项目,即它使用8个线程。 但是,如果我取消评论行的注释,则输出为:

215 215 215 215 215 216 216 216 216 216 216 216 216 216 216 216 216 216 216

这一次,并行流使用了20个线程,流中的所有20个元素都被同时处理。


实际上有一个技巧是如何在特定的fork-join池中执行并行操作的。 如果您将其作为fork-join池中的任务执行,则它将停留在此处并且不会使用常见的任务。

ForkJoinPool forkJoinPool = new ForkJoinPool(2);
forkJoinPool.submit(() ->
    //parallel task here, for example
    IntStream.range(1, 1_000_000).parallel().filter(PrimesPrint::isPrime).collect(toList())
).get();

技巧基于ForkJoinTask.fork ,它指定:“如果适用,安排异步执行当前任务运行的池中的任务,如果不是inForkJoinPool(),则使用ForkJoinPool.commonPool()”


到现在为止,我使用了这个问题的答案中描述的解决方案。 现在,我想出了一个名为Parallel Stream Support的小库,

ForkJoinPool pool = new ForkJoinPool(NR_OF_THREADS);
ParallelIntStreamSupport.range(1, 1_000_000, pool)
    .filter(PrimesPrint::isPrime)
    .collect(toList())

但正如@PabloMatiasGomez在评论中指出的那样,并行流的分割机制存在很多缺点,这很大程度上取决于公共池的大小。 请参阅HashSet中的并行流不会并行运行

我正在使用此解决方案仅为不同类型的工作分开存储池,但即使不使用它,我也无法将公用池的大小设置为1。



要测量使用的线程的实际数量,可以检查Thread.activeCount()

    Runnable r = () -> IntStream
            .range(-42, +42)
            .parallel()
            .map(i -> Thread.activeCount())
            .max()
            .ifPresent(System.out::println);

    ForkJoinPool.commonPool().submit(r).join();
    new ForkJoinPool(42).submit(r).join();

这可以在4核CPU上产生如下输出:

5 // common pool
23 // custom pool

没有.parallel()它给:

3 // common pool
4 // custom pool

GUI代码中的一个常见示例是创建窗口小部件/组件并向某个静态/应用程序范围对象添加侦听器,然后在窗口小部件被销毁时不删除侦听器。您不仅会遇到内存泄漏,而且还会受到性能影响,因为无论您何时正在收听火灾事件,您的所有旧听众都会被调用。





java concurrency parallel-processing java-8 java-stream