Привет! Я Алена, 5 лет в контексте и аналитике. Когда «умер» KeyCollector , я устала зависеть от сторонних инструментов и написала свое решение: Wordstat DeepDive. Это парсер на Python, который автоматизирует сбор семантики через API Вордстата.
Читать еще:
Главный вызов был не в том, чтобы просто дернуть API, а в том, чтобы реализовать «глубокий» рекурсивный парсинг вложенных фраз. Я решила эту задачу через многопоточный подход с гибкими настройками, а сам скрипт обернула в простое десктопное приложение.
Разберем для начала возможности парсера:
- Многопоточный глубокий парсинг – позволяет парсить фразы “во внутрь”, благодаря нескольким потокам процесс парсинга занимает несколько секунд.
- Безопасное подключение к API Вордстат – вы получаете собственный токен, с помощью которого происходит авторизация.
- Гибкие настройки – добавление стартовых фраз для парсинга, возможность исключения фраз, выбор регионов
- Контроль глубины парсинга – задавайте минимальную частоту для углубления, устанавливайте кол-во потоков, и лимит фраз.
Как запустить программу?
Программа имеет бесплатную триал версию на 7 дней. За это время вы сможете сполна протестировать все возможности и решить, нужна ли она вам в работе.
- Скачайте zip-архив по ссылке с помощью тг-бота
- Распакуйте папку на своем компьютере
- Запустите файл Wordstat DeepDive v2.exe
Программа не требует установки, достаточно запустить и вы увидите стартовое окно
Для активации триала – нажмите Начать триал. Далее будет запущен основной интерфейс программы:
Разберем настройки интерфейса:
- Токен Yandex Wordstat API – ваш личный токен, с помощью которого вы подключаетесь к API Яндекс.
- Файл с ключевыми словами (Обязательно): Нажмите “Выбрать…” и укажите .txt файл. Этот файл должен содержать “стартовые” ключевые фразы, с которых начнется парсинг. Каждая фраза должна быть на новой строке.
- Файл со стоп-словами (Необязательно): Укажите .txt файл со словами, которые нужно исключить. Если программа найдет фразу, содержащую стоп-слово, она запишет ее в отчет, но не будет парсить ее “вглубь”. Это экономит время и отсеивает мусор.
- Регионы: Нажмите “Выбрать…”, чтобы указать географию парсинга (например, “Москва и область”). Если поле оставить пустым, парсинг будет идти по всему миру.
- Мин. частота для углубления: Это “глубина” парсинга. Программа будет “проваливаться” только в те фразы, частотность которых равна или выше этого значения.
- Макс. кол-во ключей: Общий лимит на количество собранных уникальных фраз.
- Количество потоков: Скорость работы. Рекомендуемое значение: 5-10. Слишком высокие значения могут привести к временной блокировке со стороны Яндекса.
Процесс парсинга
Для того, чтобы начать парсинг:
- Логинимся и получаем токен доступа.
- С помощью Вордстат выбираем фразы для парсинга (высокочастотные ключи), сохраняем их в файл txt как стартовые фразы. (каждая фраза с новой строки). Вместе с программой идет пример такого файла start_keywords_example.txt
3. Загружаем файл txt в программу
4. По желанию добавляем файл со стоп-словами – они нужны для того, чтобы парсер не парсил “в глубь” таких фраз. Пример файла идет с программой – stop_words_example.txt. Это поле не обязательное
5. Выставляем регионы для парсинга. Здесь все просто – регионы, где вы собираетесь показывать рекламу.
6. Дополнительные настройки – вы можете оставить их по умолчанию или задать свои.
- Мин. частота углубления (30) – ниже этой частоты парсер не будет углубляться внутрь фраз. Если нужно максимально полный список – то делаем на уменьшение.
- Макс.кол-во ключей для парсинга (200) – максимальное кол-во ключей, которые можно собрать углубляясь в запросы. Чем выше значение, тем больше вы получите фраз.
- Кол-во потоков (10) – Кол-во одновременных запросов к API. Слишком высокое значение может привести к временной блокировке от Яндекс
7. Запускаем парсинг с помощью кнопки.
8. В логах выполнения будет отображен процесс работы программы
9. По окончанию вам будет предложено сохранить результат в CSV файл.
Примерно так выглядит готовый результат работы программы:
Итого
Процесс парсинга занимает несколько секунд, программа доступна в привычном user-friendly интерфейсе, в результате уже присутствует минимальная группировка.
Решение планируется предоставлять на платной основе (пожизненная лицензия), триал версия доступна всем – 7 дней. Более подробно – см. по ссылке ниже.
Чат-бот для скачивания триала: https://t.me/wordstat_deepdive_bot
Буду рада обратной связи о работе программы с помощью формы – https://forms.gle/KWYysxkdjQAjQYhC8




