В среде вебмастеров появилась резонная обеспокоенность по поводу того, как запретить большим языковым моделям (LLM), таким как ChatGPT, использовать контент сайтов для обучения. Способ сделать это есть, но он не очевидный и работает не со 100% гарантией.
А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, реклама в Telegram или формирование репутации в интернете – на помощь приходят Rookee!
Большие языковые модели (LLM) обучаются на данных, которые поступают из различных источников. Многие из этих наборов данных имеют открытый исходный код и свободно используются для обучения ИИ.
Некоторые из таких источников:
В интернете существуют порталы и сайты, предлагающие наборы данных, которые предоставляют огромное количество информации. Один из таких порталов хостится на Amazon и предлагает тысячи наборов данных: Registry of Open Data on AWS.
Портал Amazon с тысячами наборов данных – это всего лишь один источник из множества других, содержащих ещё больше наборов данных. В Википедии перечислены 28 таких источников для загрузки наборов данных, включая порталы Google Dataset и Hugging Face, на которых можно найти тысячи датасетов.
OpenWebText – это одна из популярных баз данных веб-контента. Она состоит из URL-адресов, найденных в сообщениях Reddit, которые имеют не менее трёх голосов (лайков).
Идея заключается в том, что эти URL заслуживают доверия и содержат относительно качественный контент. Я не смог найти информацию про user-agent этого краулера, возможно, он идентифицируется, как Python.
Тем не менее, известно, что если на ваш сайт есть ссылка с Reddit, по крайней мере, с тремя лайками, то велика вероятность того, что ваш сайт есть в наборе данных OpenWebText.
Один из наиболее часто используемых наборов данных о содержимом интернета предлагается некоммерческой организацией под названием Common Crawl. Данные Common Crawl поступают от бота, который просматривает весь интернет.
Информация загружается компаниями, желающими использовать её, а затем очищаются от спамерских сайтов и тому подобных сущностей.
Имя бота Common Crawl – CCBot. Он подчиняется протоколу robots.txt, поэтому его можно заблокировать с помощью соответствующей директивы и предотвратить попадание данных вашего сайта в очередной датасет.
Если ваш сайт уже был просканирован, то, скорее всего, он уже включён в несколько наборов данных. Однако, блокируя Common Crawl, можно отказаться от включения контента вашего сайта в новые наборы данных в будущем.
CCBot User-Agent:
CCBot/2.0
Добавьте следующие строки в ваш файл robots.txt, чтобы заблокировать бота Common Crawl:
User-agent: CCBot
Disallow: /
Дополнительным способом подтверждения легитимности пользовательского агента CCBot является то, что он осуществляет поиск с IP-адресов Amazon AWS.
CCBot также подчиняется директивам nofollow мета-тега robots.
Используйте следующую конструкцию для мета-тега robots:
Поисковые системы позволяют веб-сайтам отказаться от участия в краулинге. Common Crawl также позволяет отказаться от этого. Однако в настоящее время не существует способа удалить контент вашего сайта из уже существующих наборов данных.
Более того, учёные-исследователи в принципе не предлагают сейчас вебмастерам возможности отказаться от использования их контента. В связи с этим назревает закономерный вопрос: «Насколько этично использовать, например, ChatGPT, данные веб-сайтов без разрешения или возможности отказаться от этого?»
Думаю, многие вебмастеры будут очень даже не против, если в ближайшем будущем им предоставят больше прав в отношении того, как используется их контент, особенно всевозможными сервисами на основе нейросетей, такими как ChatGPT.
А вы что думаете по этому поводу? Согласны ли отдавать свой контент бесплатно ИИ-инструментам для того, чтобы они на нём обучались, а потом брали со своих пользователей деньги за генерацию аналогов? Делитесь мнениями в комментариях!
Сообщение Как запретить ChatGPT использовать контент вашего сайта появились сначала на Блог SEO-аспиранта.
В телеграм-канале РСЯ под последней новостью интересная дискуссия разразилась. У всех, у кого договор заключался на нерезидента, доход просел в несколько раз. Ответ от партнерки на скрине.
Также правильные мысли сквозят и в комментах. В общем дело в том, что Яндекс отключил показ рекламы российских рекламодателей для владельцев нерезидентов, остались только иностранные реклы из “дружественных стран”, а их как вы понимаете с гулькин детородный орган. Таким образом, все нерезиденты остались считай без дохода с РСЯ.
Пока вижу выход из ситуации – сделать самозанятость и оформить вывод денег на карту самозанятого российского банка. Самозанятость оформляется в 2 клика. Однако, неизвестно поможет ли, когда уже знают, что вы нерезидент. Тогда идем дальше…или на родственников оформить ИП или ту же самозанятость и туда отправлять деньги.
Источник: vysokoff.ru.