Как и следовало ожидать в год выборов, в наши дни социальные сети наводнены политическим дискурсом — отчасти разумным и продуктивным, а по большей части — подстрекательским. Было написано множество статей о поляризующих эффектах эхо-камеры социальных сетей, а также о целевых кампаниях по дезинформации и фейковых новостях.
С целью изучения политического дискурса на YouTube я объясню, как использовать бесплатный API данных YouTube для сбора комментариев YouTube в интересный набор данных. Затем мы будем использовать некоторые инструменты науки о данных, такие как Pandas и Plotly, для визуализации этого набора данных и поиска закономерностей. Количество данных на YouTube огромно, поэтому я делаю код этого проекта с открытым исходным кодом, чтобы побудить других также проводить свой собственный анализ. Пожалуйста, следуйте за кодом, если хотите!
Сбор данных с помощью API данных YouTube
YouTube Data API позволяет выполнять до 10 000 запросов в день бесплатно для получения информации о видео YouTube, плейлистах, комментариях и каналах. Все это общедоступно на YouTube, но API значительно упрощает поиск. Первый шаг — сгенерировать свой личный API-ключ. Вам нужно будет использовать это, чтобы заменить заполнители в сопроводительном коде, чтобы делать запросы API.
Как вычислить бота — лайфхаки DW
В моей программе вы указываете список каналов, которые нужно очистить, сколько видео нужно очистить с каждого канала и сколько страниц комментариев нужно очистить от каждого видео. (Для своего анализа я хотел получить сочетание основных каналов политических новостей с различными идеологическими взглядами, таких как CNN, MSNBC и Fox News.) Затем программа обрабатывает запросы API, которые возвращают ответы JSON, содержащие запрошенные данные. . После небольшого анализа эти данные могут быть добавлены в Pandas DataFrame, и когда последний запрос API завершится, этот DataFrame может быть сохранен в CSV-файл. Этот CSV-файл можно обновить позже, если мы очистим больше данных, и мы сможем загрузить его обратно в DataFrame, когда захотим провести анализ. Вот пример того, как это выглядит после запуска некоторой коллекции (обратите внимание, что единственное, что мы здесь фильтруем, — это каналы — мы не выбираем специально для политических комментариев):
В настоящее время я также изучаю больше нишевых политических каналов, чтобы увидеть, чем они отличаются от больших сетей. Я рекомендую вам попробовать собирать данные с разных каналов — возможно, тех, на которые вы подписаны, или тех, которые вам рекомендует алгоритм YouTube.
Базовый анализ: поиск по ключевым словам и разбивка «Нравится / Не нравится»
Давайте реализуем базовый поиск по ключевым словам, который будет отображать комментарии, содержащие заданный поисковый запрос. Абстракция DataFrame, предоставляемая Pandas, упрощает фильтрацию по имени канала, например по количеству и другим функциям.
Определяем БОТОВ на ютубе
# select the rows that contain the query string (case insensitive) subset = df[df[«textOriginal»].str.contains(query, case=False)]
Вот два разных результата для «covid», которые иллюстрируют сильно расходящиеся мировоззрения в отношении политики пандемии COVID-19:
Величайшая угроза Америке # 45. Дон Кон, кровь на его руках из-за 190 000 смертей от COVID-19 и ложь о его угрозе американскому обществу.
По данным CDC, COVID убил всего 9200 человек. Все остальные, кто умер от COVID, имели серьезные заболевания или умерли от чего-то совершенно другого и только что дали положительный результат. ЗАКОНЧИТЕ ВСЕ БЛОКИРОВКИ СЕЙЧАС!
Затем мы сгенерируем хронологическую гистограмму видео, показывающую, как им нравится / не нравится. Для этого нам придется вернуться к API данных YouTube, чтобы получить полные данные по каждому уникальному видео в базе данных комментариев (это потому, что ответ API на запрос CommentsThread предоставляет идентификатор видео для каждого видео комментария, но не дополнительную информацию. например, количество лайков и антипатий). Реализация, на которой я остановился, заключалась в создании отдельной базы данных видео с ее собственным соответствующим DataFrame и файлом CSV и назначении ей функции синхронизации, которая обеспечит наличие информации для всех видео, которые появляются в базе данных комментариев.
Чтобы создавать гистограммы, подобные приведенной выше, я использую Plotly Express, чья функция bar() упрощает создание эстетически приятных интерактивных диаграмм:
# take video database’s DataFrame: sort, filter, plot df = vdb.df.sort_values(by=»publishedAt») if channelName: df = df[df[«channelName»] == channelName] fig = px.bar(df, x=»videoId», y=[«likes», «dislikes»], hover_data=[«channelName», «title», «publishedAt»]) fig.show()
Промежуточный анализ: word2vec и t-SNE
Поиск по ключевым словам — это замечательно, но он должен вызывать у вас ощущение, будто мы едва использовали потенциал нашей сокровищницы из 100 000 комментариев. Давайте углубим наш анализ с помощью вложения слов, в частности word2vec.
Судя по названию, word2vec преобразует слова в многомерные векторы. Основное преимущество этого заключается в том, что слова, которые используются одинаково, будут преобразованы в похожие векторы (векторы с высоким косинусным сходством). Таким образом, разные лексические токены со схожими значениями — например, Республиканская партия и Республиканцы — могут быть сопоставлены с похожими местами в 100-мерном гиперпространстве (я знаю, это звучит как научная фантастика). Этот метод позволяет нам находить гораздо более интересные шаблоны в нашем наборе данных, и, к счастью, есть реализация Python, доступная от gensim.
Хотя визуализация многомерного гиперпространства для людей невозможна, к счастью, существуют методы, позволяющие проецировать эти многомерные вложения в двух или трех измерениях, чтобы мы могли осмыслить их. Метод t-SNE преобразует векторы word2vec в нечто, что мы можем построить и увидеть, с решающим ограничением, заключающимся в том, что он приблизительно сохраняет отношения расстояния. Таким образом, векторы, которые находятся далеко в гиперпространстве, все равно будут далеко после t-SNE, а векторы, которые изначально близки, останутся близкими.
Как узнать, кто лайкнул видео или комментарий на YouTube
Видеохостинг YouTube придерживается собственной политики конфиденциальности, а потому напрямую узнать, кто поставил лайк или дизлайк вашему видео и комментарию нельзя, однако существуют несколько способов приоткрыть завесу тайны.
Вариант 1: Лайки на видео
Внутренняя аналитика сервиса позволяет предположить, кто поставил отметку «нравится» под видео, если аудитория вашего канала небольшая и вы её хорошо знаете.
Таким образом, будучи знакомым со зрителями и поразмыслив, можно сделать весьма точные, но не конкретные предположения о том, кто ставил лайки под видео.
Вариант 2: Лайки на комментариях под видео
Любой пользователь может оценить комментарий, оставленный кем-то другим. Просмотреть, кто поставил «палец вверх» на те или иные слова невозможно, но когда автор канала лайкает комментатора, то это отображается в виде специального значка (уменьшенной аватарки с сердечком). Это отличный способ показать аудитории важность их мнения для автора контента.
- ← Добавление быстрых ссылок в Google Chrome
- Эквалайзеры для ВКонтакте →
Источник: gyzeev.ru
Как определяют накрутку кликов по рекламе на сайте и Youtube-канале
После появления в интернете такого способа заработка как баннерная и тизерная реклама на сайтах, появились владельцы веб-ресурсов которые хотели свои заработки увеличить непропорционально своим возможностям. А попросту говоря накликать по своей же рекламе.
Так как кликать по своей же рекламе со своего ай пи адреса слишком палевно, начали придумывать всякие изощренности. Вроде клуба кликеров по рекламе, или приходило в голову, к примеру, накликать по своей рекламе через разные прокси серверы. Или через разные ай пи адреса, через VPN, ТОР сервисы и так далее и тому подобное.
Но товарищи из Гула, Яндекса и других подобных контор, не будь дураками, придумывают конечно и свои контрмеры. Кликеров по рекламе вычисляют не то чтобы сильно быстро, но если вычисляют, то уже наверняка. Иначе Гуглы уже бы давно разорились.
Для примера приведу некоторые «щадящие» способы накрутки кликов по рекламе (НО ПОМНИТЕ за это вас могут забанить и скорее всего закрыть ваш аккаунт, все это вы делаете на свой страх и риск):
У Гула Адсенс, впрочем как и у Яндекса Директ плотно учитываются поведенческие факторы пользователя. Это к примеру как пользователь зашел на сайт, сколько времени смотрел страницу, какие страницы он смотрел, как вышел или как перешел на другой сайт. Это нетрудно отследить . Или бывает так, что не успел зайти на сайт а уже начинает кликать по баннерам рекламы, что конечно же подозрительно.
- Для успешной накрутки, пользователь должен как можно естественнее кликать по рекламным баннерам, что бы у рекламной сети (генераторов трафика) не возникло вопросов а тем паче желания вас забанить.
- После захода на сайт с рекламным банером, сразу не уходите, походите со страницы на страницу, порассматривайте картинки, в конце концов зарегистрируйтесь на сайте. Это будет естественное поведение живого человека, этим самым сможете увеличить стоимость клика.
- Не нужно сразу делать накрутку на молодых сайтах, лучше это будут сайты с некоторым возрастом и посещаемостью хотя бы от 200 в сутки. Здесь будет менее заметна накрутка.
- Накрутка кликов должна делаться с компьютера, с которого ни разу не заходили на любые аккаунты Гугла. Поисковые системы умеют определять хосты не только по куки и временным файлам, но есть еще ряд дополнительных параметров на хосте, считывая которые поисковые системы могут идентифицировать именно вас.
- Еще раз. Помните, что не нужно кликать по баннерам сразу после захода на сайт, а потом сразу уходить с сайта рекламодателя. Это будет выглядеть как неестественное поведение.
Основные причины, мотивы и методы накрутки кликов
- Клики специально созданных мошенниками индексирующих роботов. Практически все крупные поисковые системы на сегодня умеют выявлять подобные технологии и бороться с ними.
- Клики для повышения CTR объявлений. Такого рода накруткой занимаются сами рекламодатели, как правило, новички, считающие, что смогут сэкономить, добившись снижения цены клика за счет хорошего показателя CTR (соотношение числа переходов по объявлению к числу его показов).
- Происки конкурентов. Зачастую чтобы снизить эффективность рекламной кампании, недобросовестные конкуренты прибегают к практике накрутки кликов . Они добиваются того, что рекламный бюджет тратится не на переходы реальных пользователей, потенциальных клиентов, а на клики специально нанятых людей или банально сотрудников компании. Поисковые системы на сегодня довольно эффективно борются с подобного рода накруткой кликов.
- Голодные веб-издатели (владельцы сайтов, на которых показываются контекстные объявления). Вебмастера в стремлении заработать как можно больше на своих площадках изобретают все новые схемы и технологии обмана систем контекстной рекламы. Поскольку мотивация вебмастеров самая сильная, поисковым системам приходится неустанно бороться с этим источников накрутки кликов.
Как же генераторы трафика определяют накрутку кликов или накрутку голосов?
Итак навскидку. Ай пи адрес клика, и ай пи адрес, с которого владелец рекламной площадки заходил в свой аккаунт совпадают. Нет логики. Каждый посетитель кликает по рекламе. Неестественно. Клики по рекламе из одного географического региона.
Сговор. Клики по рекламе даже не дождавшись полной загрузки страницы. Боты.
Так вот у крупных рекламных площадок стоят автоматизированные алгоритмы проверок кликов. Что это за алгоритмы и как они работают конечно же никто не скажет, это коммерческая тайна. Это деньги и очень большие деньги. Эти алгоритмы проверки постоянно совершенствуются. В ответ кликеры совершенствуют свои методы надувательства.
Тут перманентная война рекламных площадок с кликерами-халявщиками.
Но некоторый анализ в этой области все же можно провести. Все клики в Адсенсе как и в Яндекс директе да и в других подобных проектах поменьше, проходят проверку. Изначально процесс проверки роботизирован, а особо подозрительное проверяют модераторы рекламной системы. У этих модераторов и есть разнарядка что как и почему. И каких школьников-кликеров за какие места хватать и когда банить.
Проверяются параметры:
- Длительность сессии
- Просмотров за сессию
- Просмотров на посетителя
- Частота переходов с сайтов
- Точки входа
- Точки выхода
- Внутренние переходы
Далее модераторы пользуются специальными инструментами и логическими схемами отслеживания кликеров по рекламе. Прежде всего определяют робот это или живой человек.
Выявить кликеров можно по таким параметрам, как количеству переходов с одного ай пи адреса и версия браузера — если несколько переходов были с одной версией браузера, то посетителей не может быть несколько. Еще подозрительный момент — заходы на сайт с «анонимайзеров» — прокси-серверов, которые позволяют пользователю скрывать (подменять) свой реальный ай пи адрес.
Большая часть фиктивных кликов исходит из одних и тех же ай пи адресов. Рекламные сети создают «черные списки» адресов, попавшихся на накрутке кликов. Сложные ситуации возникают с «конкурентными войнами», когда конкуренты накликивают баннеры оппонента специально, чтобы вызвать подозрения. Тут модераторам приходится принимать решения, руководствуясь здравым смыслом. Хотя конечно сетям выгоднее отказаться от таких проблемных клиентов чем разбираться в этих склоках.
Ограничение на показ объявлений в Вашем аккаунте AdSense
Если алгоритмы и нейросеть гугол адсенсе обнаруживает подозрительную активность на вашем рекламном аккаунте, то вы можете получить моментальный бан или же более мягкий вариант, если долго сотрудничаете и обладаете репутацией в сети. Ниже будет приведен текст такого письма от 27.11.2020.
Недавно мы выявили в Вашем аккаунте AdSense недействительный трафик, поэтому показ объявлений на Вашем сайте был ограничен. По мере наблюдения за трафиком аккаунта сроки и статус ограничения будут автоматически обновляться. Почему это произошло?
Мы обнаружили в Вашем аккаунте потенциально недействительный трафик, который использовался для получения дохода от рекламы. Напоминаем, что это строго запрещено правилами программы. Клики по объявлениям Google должны отражать интерес пользователя к рекламе. Нельзя просить кого-либо нажимать на объявления.
В частности, запрещено призывать пользователей поддержать сайт, предлагать им вознаграждение за просмотр объявлений, а также обещать передачу собранных таким образом средств третьей стороне. Кроме того, запрещены клики по собственным объявлениям, автоматические генераторы трафика, средства «накрутки» кликов, специальные роботы и другие подобные программы.
Мы понимаем, что Вы хотели бы узнать больше о выявленных недопустимых действиях. Однако информация о конкретных действиях в аккаунте и пользователях, которые их совершали, может применяться для обхода наших алгоритмов защиты, поэтому мы не раскрываем ее издателям.
Обратите внимание, что, если во время действия ограничения будут обнаружены нарушения правил программы AdSense, в отношении Вашего аккаунта могут быть приняты дополнительные меры, вплоть до его полного отключения. Что нужно сделать? Вы по-прежнему можете входить в аккаунт. Информацию о проблеме на уровне аккаунта можно найти в Центре правил.
Ограничение обычно применяется к издателям менее чем на 30 дней, но в некоторых случаях это может продолжаться дольше. Советуем самостоятельно проверять, соответствует ли Ваш рекламный трафик Правилам программы AdSense. Благодарим за понимание и сотрудничество. С уважением, команда Google AdSense
Накрутка кликов на YouTube
Скорей всего все слышали, что на YouTube существует такая тема, как накрутка просмотров, кликов по рекламе. Есть различные методы, как это можно делать. Но хотим заранее сказать, чтобы вы понимали, вообще накручивать клики, просмотры строго запрещено, а если это делать, то очень аккуратно. Сегодня об этом и поговорим – накрутка кликов по рекламе на YouTube.
Внимание! В статье рассмотрен лишь способ накрутки, мы не рекомендуем им пользоваться!