Одно из востребованных направлений в веб-программировании - парсинг (не путать с пирсингом). Если вы все еще не знаете что означает это словечко, то просто наберите его в поисковой строке Гугла и получите в выдаче множество случаев, когда требуется парсинг. Кстати, на фриланс-биржах весьма часто заказывают «парсинг». Для наших читателей все же коротко поясним простыми словами, что это за зверь.
Если Вы хотите собрать информацию с другого сайта, то можно взять ручку и бумагу и вручную ползая по сайту ее фиксировать. Но, вам быстро надоест да и времени потребуется слишком много. Вы быстро осознаете, что надо как-то все это автоматизировать. И вот тут всплывает парсинг - автосбор неструктурированной информации, ее обработка и представление в удобном для анализа виде. Чтобы парсить информацию требуется написать программный код. Выбор языка программирования для этого почти очевиден - безусловно Python (можете спорить). Python сегодня умеет многое.
Наверное тут уместно привести работающие примеры. Но для начала покажем как с помощью Пайтона забрать с сайта некую информацию, записанную в текстовом, например, файле. Для этого воспользуемся библиотекой urllib.request
. Также нам понадобится источник, который мы положим на нашем же сайте, но пример кода, который будет приведен дальше, будет работать и с файлом с внешнего сайта. Итак, вот ссылка:
http://primat.org/files/doc/test.txt
Ну и теперь код Python, который прочитает содержимое указанного файла.
import urllib.request
def GetURL(url):
··s = 'error'
··try:
····f = urllib.request.urlopen(url)
····s = f.read().decode('utf-8')
··except urllib.error.HTTPError:
····s = "connect error"
··except urllib.error.URLError:
····s = 'url error'
··return s
text=GetURL('http://primat.org/files/doc/test.txt')
print (text)
Ну а дальше уже с полученной информацией вы можете делать что угодно: структурировать, анализировать и так далее. Вам мало примеров? Тогда вот еще подробная статья про парсер Яндекс Wordstat на Python, использующий API Директа. Там все подробно на уровне методички для студентов - автор постарался поделиться технологией в деталях. Респект.
Типичные примеры, когда нужен парсинг
- Необходимо анализировать цены в интернет-магазине конкурента.
- Вы хотите получить динамики изменения цен на конкретный товар, например на Алиэкспресс.
- У вас сеть филиалов и у них свои сайты, наполняемые вручную, а вам надо отслеживать движение товара, остатки и так далее и вам удобнее это делать не через централизованную базу а получать информацию с публичных страниц.
- Вы хотите мониторить вакансии и предлагаемые заработные платы по какой-то специальности по всем сайтам страны.
- Ваш сайт наполняется контентом, который вы отрыли в интернете, немного причесали и подаете в оригинальной трактовке.
Похожие публикации