python mean函数 - 为什么statistics.mean()这么慢?




avg函数 statistics库 (5)

我将statistics模块的mean函数的性能与简单的sum(l)/len(l)方法进行了比较,发现由于某种原因, mean函数非常慢。 我使用timeit和下面的两个代码片段来比较它们,有没有人知道是什么导致了执行速度的巨大差异? 我正在使用Python 3.5。

from timeit import repeat
print(min(repeat('mean(l)',
                 '''from random import randint; from statistics import mean; \
                 l=[randint(0, 10000) for i in range(10000)]''', repeat=20, number=10)))

上面的代码在我的机器上执行大约0.043秒。

from timeit import repeat
print(min(repeat('sum(l)/len(l)',
                 '''from random import randint; from statistics import mean; \
                 l=[randint(0, 10000) for i in range(10000)]''', repeat=20, number=10)))

上面的代码在我的机器上执行大约0.000565秒。


Answers

Python的statistics模块不是为了速度而构建的,而是为了精确而构建的

这个模块的规格中 ,它似乎

处理具有不同程度的浮动时,内置和可能会失去准确性。 因此,上述天真的意思未能通过这种“折磨测试”

assert mean([1e30, 1, 3, -1e30]) == 1

返回0而不是1,纯粹的计算误差为100%。

在mean中使用math.fsum将使浮点数据更准确,但它也具有将任何参数转换为float的副作用,即使在不必要时也是如此。 例如,我们应该期望分数列表的平均值是分数,而不是浮点数。

相反,如果我们看一下这个模块中_sum()的实现,方法的docstring的第一行似乎证实

def _sum(data, start=0):
    """_sum(data [, start]) -> (type, sum, count)

    Return a high-precision sum of the given numeric data as a fraction,
    together with the type to be converted to and the count of items.

    [...] """

所以是的, sum statistics实现,而不是对Python的内置sum()函数的简单单行调用,它本身需要大约20行,其中包含一个嵌套的for循环。

发生这种情况是因为statistics._sum选择保证它可能遇到的所有类型数字的最大精度(即使它们彼此差异很大),而不是简单地强调速度。

因此,内置sum证明快一百倍是正常的。 它的成本是一个低得多的精度,碰巧用异国情调的号码来称呼它。

其他选择

如果你需要优先考虑算法的速度,你应该看看Numpy ,其算法在C中实现。

NumPy的意思不如长期statistics那么精确,但它实现了(自2013年以来) 基于成对求和例程,例程优于天真的sum/len (链接中的更多信息)。

然而...

import numpy as np
import statistics

np_mean = np.mean([1e30, 1, 3, -1e30])
statistics_mean = statistics.mean([1e30, 1, 3, -1e30])

print('NumPy mean: {}'.format(np_mean))
print('Statistics mean: {}'.format(statistics_mean))

> NumPy mean: 0.0
> Statistics mean: 1.0

我前一段时间问了同样的问题,但是一旦我注意到_sum函数在源代码317行中被调用,我理解为什么:

def _sum(data, start=0):
    """_sum(data [, start]) -> (type, sum, count)
    Return a high-precision sum of the given numeric data as a fraction,
    together with the type to be converted to and the count of items.
    If optional argument ``start`` is given, it is added to the total.
    If ``data`` is empty, ``start`` (defaulting to 0) is returned.
    Examples
    --------
    >>> _sum([3, 2.25, 4.5, -0.5, 1.0], 0.75)
    (<class 'float'>, Fraction(11, 1), 5)
    Some sources of round-off error will be avoided:
    >>> _sum([1e50, 1, -1e50] * 1000)  # Built-in sum returns zero.
    (<class 'float'>, Fraction(1000, 1), 3000)
    Fractions and Decimals are also supported:
    >>> from fractions import Fraction as F
    >>> _sum([F(2, 3), F(7, 5), F(1, 4), F(5, 6)])
    (<class 'fractions.Fraction'>, Fraction(63, 20), 4)
    >>> from decimal import Decimal as D
    >>> data = [D("0.1375"), D("0.2108"), D("0.3061"), D("0.0419")]
    >>> _sum(data)
    (<class 'decimal.Decimal'>, Fraction(6963, 10000), 4)
    Mixed types are currently treated as an error, except that int is
    allowed.
    """
    count = 0
    n, d = _exact_ratio(start)
    partials = {d: n}
    partials_get = partials.get
    T = _coerce(int, type(start))
    for typ, values in groupby(data, type):
        T = _coerce(T, typ)  # or raise TypeError
        for n,d in map(_exact_ratio, values):
            count += 1
            partials[d] = partials_get(d, 0) + n
    if None in partials:
        # The sum will be a NAN or INF. We can ignore all the finite
        # partials, and just look at this special one.
        total = partials[None]
        assert not _isfinite(total)
    else:
        # Sum all the partial sums using builtin sum.
        # FIXME is this faster if we sum them in order of the denominator?
        total = sum(Fraction(n, d) for d, n in sorted(partials.items()))
    return (T, total, count)

与仅调用内置sum相比,发生了大量操作,因为doc字符串mean计算高精度和

你可以看到使用mean vs sum可以给你不同的输出:

In [7]: l = [.1, .12312, 2.112, .12131]

In [8]: sum(l) / len(l)
Out[8]: 0.6141074999999999

In [9]: mean(l)
Out[9]: 0.6141075

如果你关心速度使用numpy / scipy / pandas:

In [119]: from random import randint; from statistics import mean; import numpy as np;

In [122]: l=[randint(0, 10000) for i in range(10**6)]

In [123]: mean(l)
Out[123]: 5001.992355

In [124]: %timeit mean(l)
1 loop, best of 3: 2.01 s per loop

In [125]: a = np.array(l)

In [126]: np.mean(a)
Out[126]: 5001.9923550000003

In [127]: %timeit np.mean(a)
100 loops, best of 3: 2.87 ms per loop

结论:它会快几个数量级 - 在我的例子中它快了700倍,但可能不那么精确(因为numpy不使用Kahan求和算法)。


根据那篇文章: 在Python中计算算术平均值(平均值)

它应该是“由于统计中的和运算符的特别精确的实现”。

均值函数使用内部_sum函数进行编码,该函数应该比正常加法更精确,但速度要慢得多(此处可用代码: https://hg.python.org/cpython/file/3.5/Lib/statistics.pyhttps://hg.python.org/cpython/file/3.5/Lib/statistics.py )。

它在PEP中指定: https//www.python.org/dev/peps/pep-0450/准确度被认为是该模块的速度更重要。


如果您不关心文件加载时间或者您正在加载小文本文件, getline ,流操作符scanf可以很方便。 但是,如果性能是你关心的,那么你应该将整个文件缓冲到内存中(假设它适合)。

这是一个例子:

//open file in binary mode
std::fstream file( filename, std::ios::in|::std::ios::binary );
if( !file ) return NULL;

//read the size...
file.seekg(0, std::ios::end);
size_t length = (size_t)file.tellg();
file.seekg(0, std::ios::beg);

//read into memory buffer, then close it.
char *filebuf = new char[length+1];
file.read(filebuf, length);
filebuf[length] = '\0'; //make it null-terminated
file.close();

如果你愿意,你可以围绕缓冲区打包一个流,以便更方便地访问,如下所示:

std::istrstream header(&buffer[0], length);

另外,如果您在控制文件,请考虑使用平面二进制数据格式而不是文本。 读取和写入更可靠,因为您不必处理空白的所有含糊问题。 分析也更小,速度更快。







python performance mean