Как сделать свой парсер в ВК

SMM в Инстаграм, ВКонтакте, раскрутка и продвижение

Сколько зарабатывает Церебро: пишем свой парсер

Привет. Давно ничего не писал и пора это исправлять. Это наверное 25 вариант начала статьи. Совсем потерял «стиль», если таковой и был.

В этой статье я расскажу как можно с помощью нескольких строчек программного кода, умения пользоваться готовыми решениями, головы на плечах и терпения написать свой простой «парсер». Бонусом будет то, что если подойти к этому с головой, то можно еще узнать сколько примерно в месяц зарабатывает Церебро на своих пользователях

  • 1 Как сделать свой парсер
  • 2 Что потребуется чтобы написать свой первый парсер на Python с нуля без знаний программирования
  • 3 Бонус
  • 4 Выводы

Как сделать свой парсер

Если вы думаете что это сложно, то вы заблуждаетесь. Сложно из этого сделать продукт с именем такие как Церебро или Сегменто-Таргер. Если делать для себя и без особых требований к интерфейсу, обработке ошибок и еще кучи разных вещей, то большую часть тех же парсеров, которые есть в Церебро можно сделать достаточно быстро…. относительно быстро. Насколько относительно я расскажу на своём примере

Парсинг аккаунтов ВКонтакте БЕЗ СЕРВИСОВ — Валентин Куколев

filename11 - Excel 2016-03-09 22.40.52

  • 15 февраля 2016 я пошёл на курсы по Python (надо же на чём-то уметь писать, иначе никак)
  • До этого я особо ничего не умел. Пробовал конечно простые вещи типа математических операций или «if … else», но до функций и циклов никогда самостоятельно не доходил, а есть еще классы (ооп), которое я вообще не понимаю
  • Я знал, что на github.com есть готовые решения для взаимодействия с api vk, через которые все скрипты данные и получают. Нужно было только разобраться как с ними работать
  • Учитывая сколько времени потрачено на сериалы, то можно было бы уложиться недели в 2 или в неделю (поменьше сериалов, ага)
  • 9 марта в 00:50 мне удалось получить данные из конкретного обсуждения группы (https://vk.com/topic-73662138_30552450) и записать данные в эксель файл

Итого: для написания парсера конкретного топика обсуждения из заданной группы потребовалось 3 недели. А ведь это мой первый опыт программирования как таковой.

Что потребуется чтобы написать свой первый парсер на Python с нуля без знаний программирования

  1. Качаем и устанавливаем PyCharm + можно еще https://www.continuum.io/downloads (тут автоматом ставит всё под винду + рекомендую попробовать Jupyter Notebook для начала (скрин — http://take.ms/T4YoS)
  2. http://pythonworld.ru/http://pythontutor.ru/ — разобраться с синтаксисом Python
  3. Научиться устанавливать готовые пакеты с github.com
  4. Установить пакет vk-requests (не пугайтесь, как я написал выше можно не понимать что это, главное понимать что на выходе — []и как с этим работать), пакет xlsxwriter для записи в эксель (если требуется, можно и в csv без проблем)
  5. Написать код

Вот что получилось у меня (100% это говно-код и можно его улучшить)

Парсинг в Python за 10 минут!

Вы можете взять мой скрипт, изменить в нём

Group_id = 73662138 Topic_id = 30552450

и получить данные из того топика, который вам нужен
Как выглядит выполнение скрипта в PyCharm
На выходе у нас получается вот такой вот Эксель-файл (в гугло-доках).

Бонус

Почему меня заинтересовало именно это обсуждение? В этом обсуждении пользователи Церебро публиковали заявки на подключение к системе до появления сайта. Каждая такая заявка содержит дату публикации, сумму оплаты, способ оплаты, автора и тд.

Оставить заявку _ Церебро Таргет - Google Chrome 2016-03-09 23.44.31

Следовательно, выгрузив комментарии из этого топика, сможем увидеть динамику заявок в Церебро на подключение и сделать предположения и доходах данного сервиса с некоторой погрешностью

Еще по теме:  Как в ВК ссылку на инстаграм в профиле

Прежде чем строить этот график нужно было конечно подготовить данные: удалить ответы админа, удалить сообщения не «заявки». Это около 50-60%.

Как видно на графике после 25 марта 2015 идёт резкий обвал обращений через топик. Предполагаю, что большая часть новых и повторных покупок ушла на сайт.

Если нарисовать линию тренда, то получится примерно так

Церебро - Google Sheets - Google Chrome 2016-03-09 23.55.44

60% как было написано выше — это «плохие» обращения. В итоге получаем 100 заявок на оплату в сутки. Если чек составляет 700 рублей, то выходит 70 000 рублейв день или
2 100 000 руб. в месяц.

Теперь вы понимаете почему так много было аналогов в 2015 году?

Выводы

Написать простой скрипт для сбора данных из ВКонтакте можно достаточно быстро и с нуля. Навык программирования более устойчивый во времени и более универсальный чем навыки по SMMинтернет-маркетингу.

Скрипты для сбора данных из ВК отличный вариант для начала изучения языка программирования для SMM-специалиста, так как на выходе у вас получаются данные, которые можно использовать для анализа, ретаргетинга и тд.

Остались вопросы или пожелания? Оставляйте их в комментариях

Запись опубликована 17 марта, 2016 автором Sergey Shmakov в рубрике SMM инструменты.

Добавить комментарий

Для отправки комментария вам необходимо авторизоваться.

Источник: freesmm.ru

Делаем парсеры контента своими руками

В статье описана технология создания парсера контента своими руками. Для этого нам понадобится: сайт источник (к примеру, доска объявлений), информацию с которого мы скачиваем программой Teleport Pro, либо полностью, либо только из какой-то конкретной рубрики. Потом выбираем движок для будущего сайта, пишем заготовку sql запроса, скачиваем программу text pipe pro, подготавливаем скрипт, парочка фишек и все, парсер контента собственными руками готов.

14.12.2009 01:54

noxon.su вне форума

Banned

  • Регистрация: 08.09.2009
  • Сообщений: 1,478
  • Webmoney BL: ?

всевозможные доски объявлений, со спаршеным контентом живут в индексе яндекса превосходно. Несмотря на то, что инфа на многих досках дублируется, яндекс не выкидывает их из индекса, до тех пор пока вебмастер в силу природной жадности не начинает размещать всякие попандеры и прочую хрень.

Итак сейчас я покажу вам на примере, как можно быстро без особых усили и не имея навыков программирования создать такую вот досочку, скажем на 500 страниц.

Для того, что бы исключить непонятки — поясню, что под парсером я имею в виду некую прогу которая тырит контент и делает его удобоимпортируемым в наш дизайн.

Итак начнём. Для начала давайте выберем «жертву», пусть это будет какая ни будь отдельная рубрика Яндекс.каталога (о том, как разделять спаршенный контент, расскажу в слудующей статье, пока у нас будет одна категория).

Скачиваем рубрику «как есть» прогой Teleport Pro (бесплатная, делает дубликаты сайтов). качаем только контент без сохранения структуры и картинок. Это просто.

Далее выбираем движок. Предлагаю использовать DLE, устанавливаем его на денвер или на хостинг. Заходим в используемую базу, откываем таблицу где храняться все записи (в DLE это таблица dle_post в других движках другие)

Составляем заготовку slq запроса (для тех, кто не вкурсе — это написанная на языке sql инструкция, которую можно скопировать во вкладку slq в phpmyadmin и она что то там сделает с базой. При помощи sql запросов можно работать с базой напрямую, без всяких навороченых админок с визуальными редакторами)

она будет выглядеть так:

INSERT INTO dle_post (title,autor,short_story,full_story) VALUES (»,’admin’,»,»)
Оставляем вкладку с phpmyadmin пока открытой и ищем прогу text pipe pro.

Утилита для пакетной обработки текстовой информации. Программа служит для форматирования и конвертирования текстовых файлов, замены в них текста, выполнения сложных преобразований, конвертирования текста из одного формата в другой. В TextPipe Pro встроено почти полторы сотни фильтров. линк на демо

Где вы её найдёте, думайте сами. Но в демоверсии ограничение максимум на 100 обработанных файлов.

Еще по теме:  Создание группы в ВК для бизнеса пошаговая инструкция

Открываем, сразу запускаем мастер фильтров

Выбираем самый верхний фильтр «Поиск и замена по схеме».

теперь подходим к самому основному — создание схемы по которой прога и будет выдирать нужную нам инфу. Писать мы будем на регулярных выражениях, точнее используем самую простую схему.

Открываем наш яндекс каталог в виде html и копируем кусок html кода который содержит заголовок и описание (собсно то. что нам и нужно)

«r(this, ‘ctya’)»>»Яндекс» — поисковая система по русскому интернету
Поиск информации в интернете с учетом русской морфологии, возможность регионального уточнения. Параллельный поиск по новостям, картинкам, товарам, блогам, адресам организаций.

Теперь нужную нам текстовую информацию заменяем вот таким образом

(.*?) — на языке регулярных выражений означает вытащить максимальное количество символов после того, что слева от скобки до того что справа от закрывающей скобки. Проще говоря — то что надо. Обратите внимание на слэши перед «нормальными» скобками, их нужно экранировать обязательно иначе прога решит, что это инструкции для неё.

Скидываем это всё в поле «найти схему», предварительно в выпадающем списке выбрав тип поиска — Схема perl, а внизу поставить галку «Извлечь соответсвия»

В поле замена на пишем наш sql запрос

INSERT INTO dle_post (title,autor,short_story,full_story) VALUES (‘$1′,’admin’,’$2′,’$2′)

Цифры $1 и $2 означают, что в это место будет вставляться содержимое первого «(.*?)» и второго «(.*?)» соответсвенно. Как видим полное и краткое описание у меня будет одинаковым.

у вас должно быть что то типа такого:

На вкладке «Зона учебного прогона», в левое поле копируем поностью html код страницы каталога-донора (откуда выдрали кусок с вхождением названия и описания сайта). Жмём «Тестовый прогон», если получилось что то типа этого, значит всё ок.

Возвращаемся на первую вкладку, Файл вывода ставим «выводить в один файл».

На вкладке «файлов в обработке», указываем папку куда скачали сайт через teleport pro. Запускаем!

Если всё ок, то в указанной нами файле будет сохранён дамп со всеми найденными соответствиями схеме. Теперь просто импортируем через phpmyadmin (вкладка импорт) этот файл в базу. Готово!

Миниатюры

Источник: webmasters.ru

Как сделать парсер контента на PHP

Как сделать парсер контента на PHP

У многих из Вас возникают вопросы по поводу создания парсера на PHP. Например, есть какой-то сайт, и Вам необходимо получить с него контент. Я долго не хотел писать эту статью, поскольку конкретного смысла в ней нет. Чтобы сделать парсер на PHP, нужно знать этот язык. А те, кто его знает, такой вопрос просто не зададут.

Но в этой статье я расскажу, как вообще создаются парсеры, а также, что конкретно нужно изучать.

Итак, вот список пунктов, которые необходимо пройти, чтобы создать парсер контента на PHP:

  1. Получить содержимое страницы и записать его в строковую переменную. Наиболее простой вариант — это функция file_get_contents(). Если контент доступен только авторизованным пользователям, то тут всё несколько сложнее. Здесь уже надо посмотреть, каков механизм авторизации. Далее, используя cURL, отправить правильный запрос на форму авторизации, получить ответ и затем отправить правильные заголовки (например, полученный идентификатор сессии), а также в этом же запросе обратиться к той странице, которая нужна. Тогда уже в этом ответе Вы получите конечную страницу.
  2. Изучить структуру страницы. Вам нужно найти контент, который Вам необходим и посмотреть, в каком блоке он находится. Если блок, в котором он находится не уникален, то найти другие общие признаки, по которым Вы однозначно сможете сказать, что если строка удовлетворяет им, то это то, что Вам и нужно.
  3. Используя строковые функции, достать из исходной строки нужный Вам контент по признакам, найденным во 2-ом пункте.

Отмечу так же, что всё это поймёт и сможет применить на практике только тот, кто знает PHP. Поэтому те, кто его только начинает изучать, Вам потребуются следующие знания:

  1. Строковые функции.
  2. Библиотека cURL, либо её аналог.
  3. Отличное знание HTML.
Еще по теме:  За что популярность Вконтакте

Те же, кто ещё вообще не знает PHP, то до парсеров в этом случае ещё далеко, и нужно изучать всю базу. В этом Вам поможет мой курс, либо какие-нибудь книги по PHP.

Безусловно, Америки я в этой статье не открыл, но слишком много вопросов по теме парсеров, поэтому этой статьёй я постарался лишь дать развёрнутый ответ.

Создано 13.01.2014 13:21:08

  • Михаил Русаков
  • Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

    Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
    Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

    Если Вы не хотите пропустить новые материалы на сайте,
    то Вы можете подписаться на обновления: Подписаться на обновления

    Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

    Порекомендуйте эту статью друзьям:

    Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

    1. Кнопка:
      Она выглядит вот так:
    2. Текстовая ссылка:
      Она выглядит вот так: Как создать свой сайт
    3. BB-код ссылки для форумов (например, можете поставить её в подписи):

    Комментарии ( 6 ):

    rysich 14.01.2014 07:22:03

    Первым делом стоит поинтересоваться, есть ли у сервиса, откуда вы хотите доставать данные, специальный API для извлечения данных. Тогда всё значительно проще, надо только отправить запрос на него и прочитать данные. А если нету API, то да, всё как в этой статье.

    leo_master 24.11.2015 04:29:02

    Ага, так тебе и предоставили, как частному лицу для себя.

    ivbutusov 30.11.2015 09:53:14

    Почему же, на крупных сервисах вроде YouTube и VK выложены руководства по извлечению данных с API, на VK их даже искать не надо, а вот на YouTube они лежат далеко и там не всё на русском, но разобраться можно. Так что можно там обойтись и без шаманств, да и кроме того, некоторые данные можно достать только через API.

    leo_master 30.11.2015 10:47:48

    В том и дело, что мне не нужен ютуб или вк. Тут надо парсить напрямую с кода. В начале 2000-х я уже делал такое с внесением в базу SQL.

    ivbutusov 01.12.2015 15:29:46

    Значит, мы просто пишем о разных вещах. Но с течением времени даже у многих мелких сайтов будут появляться (или уже появились) встроенные API-сервисы, потому что у них есть приложения для iOS или Android, которые работают через API. Кроме того, такие механизмы есть у крупных CMS, где тоже некоторые данные можно получить либо с API, либо через RSS/Atom. Так что логичнее использовать вещи, которые легче реализовать и которые менее требовательны по ресурсам. Парсинг во многих случаях не обязателен или лучше его комбинировать с теми методами, о которых я написал выше, хотя в вашем конкретном случае парсинг может быть и единственным выходом. Да, и если Вы не нашли, где у сайта API или его описание, это не значит, что его там нет 🙂

    leo_master 24.11.2015 04:20:43

    Я давно не занимался программированием в силу других приоритетов. Библиотеку cURL поднял на серваке и попробую на днях пошаманить с бубном. За совет спасибо сразу, а то ломал голову как обойти авторизацию. Просто надоело смотреть где что новое из фильмов появилось. Лично для себя скриптик написать со сбросом на мыло. Вот ссылку на разработчика с мэньюалом могли бы и сразу вписать 🙂

    Для добавления комментариев надо войти в систему.
    Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

    Источник: myrusakov.ru

    Рейтинг
    ( Пока оценок нет )
    Загрузка ...