Word frequency data 60,000 [wordfrequency.info]

Огромная база актуальных инфопродуктов
Самый большой склад обучающих материалов в СНГ. Более 40000 уникальных курсов, схем заработка, книг, вебинаров, мануалов, тренингов
Получить доступ

Bot

Администратор
Команда форума
23 Янв 2020
138,639
751
113
Данные COCA 2020 (новинка)
Этот сайт содержит, пожалуй, наиболее точные данные по частоте употребления слов в английском языке. Данные основаны на миллиардном словарном запасе Corpus of Contemporary American English (COCA) - единственном корпусе английского языка, который является большим, современным и сбалансированным между многими жанрами.

Приобретая данные, вы получаете доступ к четырем различным наборам данных, и вы можете использовать те из них, которые являются наиболее полезными для вас. Ниже приведены краткие примеры для каждого из этих наборов данных, и вы также можете увидеть гораздо более полные примеры.

Спойлер: Состав
1) Самые основные данные показывают частоту каждого из верхних 60 000 слов (лемм) в каждом из восьми основных жанров корпуса. В отличие от данных о частоте слов, которые основаны только на веб-страницах, данные COCA позволяют увидеть частоту по всем жанрам, чтобы узнать, является ли слово более неформальным (например, блоги или субтитры к телевидению и фильмам) или более формальным (например, академическим). Ниже приведены лишь несколько записей слов на разных уровнях частоты (ранг), 1-60 000.
2) Другой набор данных показывает частоту не только в восьми основных жанрах, но и почти в 100 "поджанрах" (Журнал-Спорт, Газета-Финансы, Академическое-Медицинское, Web-Reviews, Блоги-Личные, или ТВ-комедии и т.д.).

3) Третий набор данных показывает частоту словосочетаний в топ-формах 60 000 лемм:

4) Окончательный набор данных показывает 219 000 лучших слов (не лемм) в миллиардном словарном корпусе - каждое слово, которое встречается не менее 20 раз и в 5 различных текстах. А для каждого слова он показывает, в каких жанрах он наиболее распространен (опять же, чтобы показать +/- формальное), и какие проценты являются заглавными (полезно для определения +/- правильного существительного).


Насколько эти данные новее? Происходит изменение языка. Если список слов основан на текстах 15-20-летней давности (или, что гораздо хуже, на 100-летних романах, являющихся общественным достоянием), то в нем будет отсутствовать много слов из современного языка. COCA основана на текстах 1990-2019 годов (28 миллионов слов каждый год, плюс блоги и другие веб-страницы с 2012-13 годов).
Информация:
Цена:
(к сожалению действует временный запрет на покупки нового списка из России и Китая)