mysql - размер - Максимальные объемы хранения TINYTEXT, TEXT, MEDIUMTEXT и LONGTEXT




tinytext vs varchar (3)

В документах MySQL есть четыре типа ТЕКСТ:

  1. TINYTEXT
  2. ТЕКСТ
  3. MEDIUMTEXT
  4. LONGTEXT

Какова максимальная длина, которую я могу хранить в столбце каждого типа данных, если кодировка символов - UTF-8?


Из documentation :

      Type | Maximum length
-----------+-------------------------------------
  TINYTEXT |           255 (2 8−1) bytes
      TEXT |        65,535 (216−1) bytes = 64 KiB
MEDIUMTEXT |    16,777,215 (224−1) bytes = 16 MiB
  LONGTEXT | 4,294,967,295 (232−1) bytes =  4 GiB

Обратите внимание, что количество символов, которое может быть сохранено в вашем столбце, будет зависеть от кодировки символов .


Поднимаясь на вызов @ Ankan-Zerob, это моя оценка максимальной длины, которую можно сохранить в каждом текстовом типе, измеряемом словами :

      Type |         Bytes | English words | Multi-byte words
-----------+---------------+---------------+-----------------
  TINYTEXT |           255 |           ±44 |              ±23
      TEXT |        65,535 |       ±11,000 |           ±5,900
MEDIUMTEXT |    16,777,215 |    ±2,800,000 |       ±1,500,000
  LONGTEXT | 4,294,967,295 |  ±740,000,000 |     ±380,000,000

На английском языке 4,8 буквы на слово, вероятно, являются хорошим средним (например, norvig.com/mayzner.html ), хотя длина слов будет варьироваться в зависимости от домена (например, разговорного языка или академических документов), поэтому нет смысла быть слишком точным. Английский - это, в основном, однобайтные символы ASCII, с очень случайными многобайтовыми символами, настолько близкими к одному байту за букву. Дополнительный символ должен быть разрешен для межсловных пространств, поэтому я закруглялся с 5.8 байт на каждое слово. Языки с большим количеством акцентов, например, польский, будут хранить немного меньше слов, как, например, немецкий с более длинными словами.

Языки, требующие многобайтовых символов, таких как греческий, арабский, иврит, хинди, тайский и т. Д. И т. Д., Обычно требуют двух байтов на символ в UTF-8. Угадывая дико на 5 букв в слове, я закруглялся с 11 байт на каждое слово.

CJK-скрипты (Hanzi, Kanji, Hiragana, Katakana и т. Д.) Я ничего не знаю; Я считаю, что в большинстве случаев для UTF-8 характерны 3 байта, и (с массивным упрощением) они могут считаться использующими около 2 символов на слово, поэтому они будут находиться где-то между двумя другими. (Сценарии CJK, вероятно, потребуют меньше хранилища с использованием UTF-16, в зависимости).

Это, конечно, игнорирует накладные расходы на хранение и т. Д.


Это приятно, но не отвечает на вопрос:

«VARCHAR всегда следует использовать вместо TINYTEXT». Tinytext полезен, если у вас широкие строки - поскольку данные хранятся вне записи. Накладные расходы на производительность, но это действительно полезно.





innodb