Парсинг контента: чем вы занимаетесь?

Парсинг контента: чем вы занимаетесь?

Как только ваш интернет-след достигнет определенного размера, есть вероятность, что люди начнут очищать ваш контент. Сотрудница Matador Эйлин Смит делится некоторыми мыслями о том, что с ней случилось.

Однажды утром я БЫЛ твиттером перед кофе, когда я увидел твит о дегустации вин в Южной Америке, историю, которую я отправил несколькими днями ранее.

Ой, хорошо, подумал я, мой рассказ опубликован.

Будучи фрилансером, особенно тем, кто пишет для Интернета, даже с предупреждениями Google иногда трудно узнать, когда что-то из ваших работает, и вам нужно держать руку на пульсе (или следить за трафиком в блоге), чтобы узнать, что происходит .

Через пять минут я с эспрессо на плите в руке перешел по ссылке, которую отправил своим подписчикам. Вся история была нацарапана. Рассказ, который я представил, принял, исследовал и написал специально для публикации, был раскручен, продан и размещен в другом месте. Бесплатно.

Парсинг - это кража чьего-либо контента и публикация его как собственного. Раньше я видел кусочки того, что было похоже на мои вещи, и даже фотографии, которые я сделал, размещены в других местах. Я бы написал небольшое, эй, сами знаете, какое письмо, и обычно получал некоторое удовлетворение, по крайней мере, ссылку.

Но это? Мой редактор отправил мне сообщение с вопросом, не подал ли я дважды, что является серьезным запретом в этой зарождающейся отрасли. Это также заставило меня задуматься, что же пошло не так. Случилось так, что сайт, на котором была скопирована моя статья, принадлежал кому-то, кто недавно попросил меня сделать гостевой пост в блоге.

Я колебался минуту, гадая, разрешил ли я каким-то образом ему украсть контент. Классика винит менталитет жертвы.

В конце концов, мой редактор связался с нарушителем, который удалил контент. Я ретвитнул реальный URL-адрес, сел и злился, допивая еще кофе, ожидая извинений, которые так и не пришли. Я связался с некоторыми людьми с более толстой кожей и большим количеством лет на работе, чем я, и ушел с другими взглядами, и опубликовал свое разочарование в своем блоге, где я знал парсера, своих редакторов (и всех остальных посетителей, а может, даже некоторые из вас) прочитали бы это.

Вопрос о том, когда с вами произойдет очистка контента, заключается не столько в том, если, а скорее в том, когда. Сделайте что-нибудь необычное, или добейтесь небольшой известности, или напишите что-нибудь умное, расслабьтесь и расслабьтесь. Кто угодно и где угодно может поднять вашу работу и выдать ее за свою, без каких-либо упоминаний, ссылок или благодарностей.

Так что же делать творческому, плодовитому человеку?

Вы не можете публиковать что-либо и где угодно, сохраняя все для себя и под замком. Ик. Вы можете использовать водяные знаки на фотографиях или использовать штамп Flickr «Все права защищены» (хотя это означает не что иное, как «мило, пожалуйста, не кради мои фотографии, спасибо»).

Писать сложнее. Написанное слово легко вырезать и наклеить или перепечатать из печати в блог. Южноафриканский блогер по бесплодию Тертиа Альбертин нашла несколько записей из опубликованной книги, которую она написала (Так близко: бесплодие и пристрастие к надежде) размещены на сайте другого блоггера.

Джули Швитерт, управляющий редактор Matador и одна из тех, кто держал меня за руку во время моего опыта соскабливания, рассказала мне о своем друге кубинском фотографе, фото которого она видела в галерее Нью-Йорка.

По его словам, он не следит за этими случаями, потому что необходимая энергия превышает те выгоды, которые он мог бы получить. Дело не в том, что он обязательно бросает лицензии на фото, просто он знает, что на самом деле ему станет плохо, если он попытается отследить все эти нарушения.

У Дэвида Миллера, старшего редактора Matador, есть еще один подход к правам художников, который он объяснил мне однажды вечером в Сантьяго за испанской лепешкой. Он считает, что лицензии Creative Commons - это правильный выбор.

CC определяет себя как «некоммерческую корпорацию, деятельность которой направлена ​​на то, чтобы людям было проще делиться и опираться на работу других в соответствии с правилами авторского права». CC приобрел популярность через Flickr, где пользователям разрешено указывать, что работы могут быть использованы в кредит, для финансовой выгоды или нет и т. Д. Художники, использующие CC, имеют преимущество в увеличении своего присутствия в Интернете с возможностью получения вознаграждения через специальные проекты. Хороший пример - Трей Рэтклифф, самый популярный фотограф-путешественник в сети.

6 мыслей о парсинге контента

1. Ожидайте этого. Если он у вас есть, ожидайте, что он появится в другом месте.

2. Предотвратить это. Если для вас важно предотвратить это, примите меры. Скройте его, поставьте водяной знак, опубликуйте как PDF-файл, который невозможно копировать.

3. Найдите это. Выйдите и займитесь троллем вероятных воров, поищите необычные символы или цепочки слов или проверьте свои ссылки на Flickr и узнайте, откуда приходят люди. Часто кто-то ссылается на вашу фотографию с Flickr, но не размещает ее повторно, что упрощает отслеживание кражи.

4. Защищайте это. Если вас это раздражает, назначьте своих редакторов, читателей блога (например, Тертиа) и других ищущих, которых вы работаете от вашего имени, на штурм замка. Вежливо попросите удалить контент. Неуклонно становитесь более настойчивыми, если они отказываются или игнорируют.

5. Примите это. Возьмите страницу из книги подруги Джули, фотографа, и поймите, что оттачивать свое мастерство важнее, чем искать подражателей.

6. Сделайте круговой бег вокруг него. Помечая свою работу Creative Commons, вы увеличиваете экспозицию. Учтите, что распространение своей работы (даже бесплатное) не обесценивает вашу способность выражать себя, и если вы разовьете свое мастерство до такой степени, что у вас будет собственный голос и видение, никто не поверит, что все, что вы создаете, принадлежит кому-то другому.

Лично я работаю над продвижением к шагу 6, но я должен с грустью сообщить, что я все еще в капиталистическом грабительском мышлении, что то, что принадлежит мне, принадлежит мне, и это не ваше право показывать, публиковать, зарабатывать деньги или заявлять, что это ваше если я не дам вам разрешения. Посмотрим, как далеко это меня зайдет.

Сообщество связи

Матадорианцы, где вы находитесь? Ваш контент был очищен? Вы продолжили? Готовы ли вы полностью использовать Creative Commons?


Смотреть видео: Парсинг сайтов на Python: Приемы работы с библиотекой BeautifulSoup