[python] Comment faire pour initialiser Xavier sur TensorFlow



3 Answers

Juste pour ajouter un autre exemple sur la façon de définir un tf.Variable initialisé en utilisant la méthode de Xavier et Yoshua :

graph = tf.Graph()
with graph.as_default():
    ...
    initializer = tf.contrib.layers.xavier_initializer()
    w1 = tf.Variable(initializer(w1_shape))
    b1 = tf.Variable(initializer(b1_shape))
    ...

Cela m'a empêché d'avoir des valeurs nan sur ma fonction de perte en raison des instabilités numériques lors de l'utilisation de plusieurs couches avec des RELU.

Question

Je transfère mon réseau Caffe à TensorFlow mais il ne semble pas avoir d'initialisation xavier. J'utilise truncated_normal mais cela semble rendre l'entraînement beaucoup plus difficile.




J'ai regardé et je n'ai rien pu trouver. Cependant, d'après ceci:

http://andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization

L'initialisation de Xavier consiste simplement à échantillonner une distribution (généralement gaussienne) où la variance est fonction du nombre de neurones. tf.random_normal peut le faire pour vous, il vous suffit de calculer le stddev (ie le nombre de neurones représentés par la matrice de poids que vous essayez d'initialiser).




Un joli wrapper autour de tensorflow appelé prettytensor donne une implémentation dans le code source (copié directement à partir d' here ):

def xavier_init(n_inputs, n_outputs, uniform=True):
  """Set the parameter initialization using the method described.
  This method is designed to keep the scale of the gradients roughly the same
  in all layers.
  Xavier Glorot and Yoshua Bengio (2010):
           Understanding the difficulty of training deep feedforward neural
           networks. International conference on artificial intelligence and
           statistics.
  Args:
    n_inputs: The number of input nodes into each output.
    n_outputs: The number of output nodes for each input.
    uniform: If true use a uniform distribution, otherwise use a normal.
  Returns:
    An initializer.
  """
  if uniform:
    # 6 was used in the paper.
    init_range = math.sqrt(6.0 / (n_inputs + n_outputs))
    return tf.random_uniform_initializer(-init_range, init_range)
  else:
    # 3 gives us approximately the same limits as above since this repicks
    # values greater than 2 standard deviations from the mean.
    stddev = math.sqrt(3.0 / (n_inputs + n_outputs))
    return tf.truncated_normal_initializer(stddev=stddev)



Juste au cas où vous voulez utiliser une ligne comme vous le faites avec:

W = tf.Variable(tf.truncated_normal((n_prev, n), stddev=0.1))

Tu peux faire:

W = tf.Variable(tf.contrib.layers.xavier_initializer()((n_prev, n)))





Related