python统计数组中元素的个数 - 统计列表中元素的个数




如何统计列表项的出现次数? (12)

给定一个项目,我如何计算它在Python中的列表中的出现次数?

以下是一个示例列表:

>>> l = list('aaaaabbbbcccdde')
>>> l
['a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'e']

list.count

list.count方法

>>> l.count('b')
4

这适用于任何列表。 元组也有这种方法:

>>> t = tuple('aabbbffffff')
>>> t
('a', 'a', 'b', 'b', 'b', 'f', 'f', 'f', 'f', 'f', 'f')
>>> t.count('f')
6

collections.Counter

然后有收藏品。计数器。 您可以将任何迭代器转储到Counter中,而不仅仅是一个列表,Counter将保留一个元素计数的数据结构。

用法:

>>> from collections import Counter
>>> c = Counter(l)
>>> c['b']
4

计数器基于Python字典,它们的键是元素,所以键需要可排除。 它们基本上就像允许冗余元素进入它们的集合。

进一步使用collections.Counter

你可以在计数器中添加或减去迭代次数:

>>> c.update(list('bbb'))
>>> c['b']
7
>>> c.subtract(list('bbb'))
>>> c['b']
4

你也可以用计数器进行多套操作:

>>> c2 = Counter(list('aabbxyz'))
>>> c - c2                   # set difference
Counter({'a': 3, 'c': 3, 'b': 2, 'd': 2, 'e': 1})
>>> c + c2                   # addition of all elements
Counter({'a': 7, 'b': 6, 'c': 3, 'd': 2, 'e': 1, 'y': 1, 'x': 1, 'z': 1})
>>> c | c2                   # set union
Counter({'a': 5, 'b': 4, 'c': 3, 'd': 2, 'e': 1, 'y': 1, 'x': 1, 'z': 1})
>>> c & c2                   # set intersection
Counter({'a': 2, 'b': 2})

为什么不是熊猫?

另一个答案表明:

为什么不使用熊猫?

熊猫是一个普通的图书馆,但它不在标准图​​书馆。 将它作为依赖项添加并不重要。

在列表对象本身以及标准库中都有这种用例的内置解决方案。

如果你的项目不需要熊猫,将它作为这个功能的一个要求是愚蠢的。

给定一个项目,我如何计算它在Python中的列表中的出现次数?



为什么不使用熊猫?

import pandas as pd

l = ['a', 'b', 'c', 'd', 'a', 'd', 'a']

# converting the list to a Series and counting the values
my_count = pd.Series(l).value_counts()
my_count

输出:

a    3
d    2
b    1
c    1
dtype: int64

如果你正在寻找一个特定的元素的数量,说一个 ,请尝试:

my_count['a']

输出:

3

可能不是最高效的,需要额外的通行证才能删除重复项。

功能实现:

arr = np.array(['a','a','b','b','b','c'])
print(set(map(lambda x  : (x , list(arr).count(x)) , arr)))

返回:

{('c', 1), ('b', 3), ('a', 2)}

或者返回dict

print(dict(map(lambda x  : (x , list(arr).count(x)) , arr)))

返回:

{'b': 3, 'c': 1, 'a': 2}

如果你可以使用pandas ,那么value_counts就是为了救援。

>>> import pandas as pd
>>> a = [1, 2, 3, 4, 1, 4, 1]
>>> pd.Series(a).value_counts()
1    3
4    2
3    1
2    1
dtype: int64

它也会根据频率自动分类结果。

如果您希望结果在列表中,请按照以下操作

>>> pd.Series(a).value_counts().reset_index().values.tolist()
[[1, 3], [4, 2], [3, 1], [2, 1]]

如果你想立刻计算所有的值,你可以使用numpy数组和bincount非常快bincount按照如下步骤进行

import numpy as np
a = np.array([1, 2, 3, 4, 1, 4, 1])
np.bincount(a)

这使

>>> array([0, 3, 1, 1, 2])

您也可以使用内置模块operator countOf方法。

>>> import operator
>>> operator.countOf([1, 2, 3, 4, 1, 4, 1], 1)
3

我今天遇到了这个问题,并在我想检查SO之前推出了自己的解决方案。 这个:

dict((i,a.count(i)) for i in a)

大列表真的很慢。 我的解决方案

def occurDict(items):
    d = {}
    for i in items:
        if i in d:
            d[i] = d[i]+1
        else:
            d[i] = 1
return d

实际上比Counter解决方案快一点,至少对于Python 2.7来说。


要计算具有通用类型的不同元素的数量:

li = ['A0','c5','A8','A2','A5','c2','A3','A9']

print sum(1 for el in li if el[0]=='A' and el[1] in '01234')

3 ,而不是6


如果您只需要一个项目的计数,请使用count方法:

>>> [1, 2, 3, 4, 1, 4, 1].count(1)
3

如果要计算多个项目,请不要使用此项。 在循环中调用count需要在每次count调用时对列表进行单独传递,这对性能可能是灾难性的。 如果您想要计算所有项目,或者甚至只计算多个项目,请使用Counter ,如其他答案中所述。


from collections import Counter
country=['Uruguay', 'Mexico', 'Uruguay', 'France', 'Mexico']
count_country = Counter(country)
output_list= [] 

for i in count_country:
    output_list.append([i,count_country[i]])
print output_list

输出列表:

[['Mexico', 2], ['France', 1], ['Uruguay', 2]]

sum([1 for elem in <yourlist> if elem==<your_value>])

这将返回your_value的出现次数





count