Cоздаем скриншот любого сайта на Python с помощью QtWebKit
Здравствуй дорогой читатель! Как гласит пословица, одна картинка стоит тысячи слов. В нашем случае, стоимость одной картинке дойдет до несколько десятков строк кода. Встает вопрос, для чего вообще нужно делать скриншоты сайтов?
Тут ответы варьируют от человека к человеку, мне вот нужен был скрипт который раз в неделю сделает скриншот главной странице сайта. Вслед чего, последние две картинки сравнивались побайтно. В случае эквивалентности, скрипт прекратил работу в течение недели после чего снова картинки N и N-1 приступили к сравниванию. В случае когда байты картинок различались, скрипт автоматически запустил другой скрипт, в моем случае был (парсер or граббер or скраппер), тут на ваше усмотрение.
И так, для установки QtWebKit придется немного попотеть. Бывалые программисты/сисадмины сделают это одной левой. Тут pip3 и easy_install не катит, нужно установить бинарные пакеты.
Зайдите на сайт https://www.riverbankcomputing.com/software/sip/download для установки SIP и https://riverbankcomputing.com/software/pyqt/download для установки QtWebKit. Для пользователей Windows данный процесс пройдет легко так как нужно всего скачать и запускать нужные .exe файлы.
Если вы пользователь Linux, то, скачав архивы под нужную вам версию, разархивируйте архивы в любую папку затем с помощью команды cd через терминал зайдите в нее и выполните команду python configure.py. Важно! Сначала установите SIP и только потом PyQt. В противном случае выдаст ошибку наподобие "Error: This version of PyQt requires SIP v4.16.4 or later".
В сегодняшнем примере мы будем использовать Python 2.7. Если вы дошли до этого момента, значит у вас все получилось и вы готовы увидеть работающий скрипт.
import sys
import time
from PyQt4.QtCore import *
from PyQt4.QtGui import *
from PyQt4.QtWebKit import *
class MakeScreenshot(QWebView):
def __init__(self):
self.app = QApplication(sys.argv)
QWebView.__init__(self)
self._loaded = False
self.loadFinished.connect(self._loadFinished)
def wait_load(self, delay = 0):
while not self._loaded:
self.app.processEvents()
time.sleep(delay)
self.loaded = False
def _loadFinished(self, result):
self._loaded = True
def get_image(self, url):
self.load(QUrl(url))
self.wait_load()
frame = self.page().mainFrame()
self.page().setViewportSize(frame.contentsSize())
image = QImage(self.page().viewportSize(),
QImage.Format_ARGB32)
painter = QPainter(image)
frame.render(painter)
painter.end()
return image
Красивый получился код, согласитесь. Чистый ООП, вот к чему вам нужно стремиться.
Копируйте скрипт и сохраните его под любым именем с окончанием .py. Теперь дело осталось за малым, нужно создать экземпляр класса то есть инициализировать объект. Делается это легко, дополните код следующими строками:
s = MakeScreenshot()
image = s.get_image('http://www.python-3.ru')
image.save('website-screen.png')
Вам осталось только запустить программу из терминал с помощью "python myCode.py" или выполнив его в ваш IDE нажатием на стрелочку, зеленую такую.
Как все здесь работает?
Наш скрипт использует QWebView для загрузки URL сайта и после этого создает скриншот с помощью QPainter.
Метод get_image() принимает только один параметр - нашу цель, то есть ссылку на желаемый сайт. Зная параметр, можно легко импортировать его в другие методы и расширить функционал класса.
Для начало мы импортировали все модули:
import sys
import time
from PyQt4.QtCore import *
from PyQt4.QtGui import *
from PyQt4.QtWebKit import *
Затем мы создали название класса и указали классу что нужно наследовать все от QWebView.
class Screenshot(QWebView):
Заметьте пожалуйста что наш конструктор инициализирует новое свойство self._loaded которая вместе с _loadFinished и wait_load проверяет состояние программы во время ее работы. Данные свойства и функции нужны для того чтобы не сделать скриншот сайта преждевременно, они проверяют если наша цель(сайт) загрузилась полностью.
Самая важная функция в нашем коде является get_image() так как именно она делает скриншот сайта. Именно get_image() задает размеры окна сайта. В функции мы также задавали формат картинки ARGB32 и присваивали картинку объекту QPainter вслед чего закрыли объект с помощью метода end(). В самом конце мы возвращаем скриншот.
Делает скриншоты любого сайта - это перебор. Попробуй-ка этот https://geekbrains.ru/posts/top_april_jokes (в разделе посты, любой пост). Да и много кода, как для скриншота.
Вот этот код любой сайт сделает и кода меньше:
from selenium import webdriver
driver = webdriver.Firefox()
driver.get("https://geekbrains.ru/posts/top_april_jokes")
driver.get_screenshot_as_file('img.png')
driver.quit()
Здравствуй Владимир.
Ваш вариант да, более быстрый, простой и намного меньше кода. Сам его использую в веб-девелопе.
Я написал статью дабы ознакомить пользователей с прекрасным PyQT. Разминка никогда не бывает лишней.
Здравствуй Archy.
На Ваш сайт зашел уже после того, как нашел выше изложенное решение(через selenium). Т.к. оно меня не устраивает, хочется обойтись без браузера. Также меня не устраивает и png, намного лучше, если бы это был pdf. Картинку перевести в pdf не трудно, но интересует полноценный (так говоря) pdf, чтобы можно было скопировать содержимое в буфер. Сейчас пользуюсь решением под линукс:
$ wkhtmltopdf ya.ru out.pdf
Но оно тоже не идеально, т.е. не работает с тем сайтом, который указывал ранее.
Насчет Вашего кода могу добавить, что не плохо бы указывать разрешение, если есть такая возможность, иначе на адаптивных сайтах скриншоты получаются 624px.