TF-IDF можно сравнить с другими популярными методами анализа текстовой релевантности на странице:

https://towardsdatascience.com/text-data-representation-with-one-hot-encoding-tf-idf-count-vectors-co-occurrence-vectors-and-f1bccbd98bef

Обратите внимание на составление матрицы из ключевых слов.

 

Блокнот с кодом для понимания того, как рассчитать TF-IDF:

https://colab.research.google.com/drive/1Hq_tVjo83mwNwOqHNP_Xk7Nznblr8o9r?usp=sharing

Очень полезно почитать про машинное обучение на сайте:

https://scikit-learn.org/stable/index.html

 

Подсчет TF-IDF с помощью пакета sklearn. Пакет взят с сайта указанного по ссылке выше.

Ссылка на колаб:

https://colab.research.google.com/drive/1WNJLlNNU9RrgMf3-Y6VB-MyfmkMTJC4S?usp=sharing

 

Подготовка к анализу текста. Препроцессинг. С помощью данной программы вы можете подсчитать частотность ключей в документе.

Ссылка на блокнот:

https://colab.research.google.com/drive/1lkQDcr6aS5ZGT9ZZH_oNndfs0KntqCpG?usp=sharing

 

Видео инструкция доступна по ссылке:

 

Next
Как я работаю с LSI Keywords, LTK и семантическим коконом