Merge pull request #18 from ato/user-agent

Add user_agent option
2025-08-23 13:15:29 -04:00 · 2016-10-04 14:39:50 -07:00 · 2016-10-04 14:39:50 -07:00 · f5e138c7eb
commit f5e138c7eb
parent 692c1c48e1 743b5a4347
7 changed files with 28 additions and 2 deletions
--- a/brozzler/browser.py
+++ b/brozzler/browser.py
@ -229,6 +229,7 @@ class Browser:
    def browse_page(
            self, url, extra_headers=None, behavior_parameters=None,
            user_agent=None,
            on_request=None, on_response=None, on_screenshot=None,
            on_url_change=None):
        """
@ -243,6 +244,7 @@ class Browser:
            raise BrowsingException("browser has not been started")
        self.url = url
        self.extra_headers = extra_headers
        self.user_agent = user_agent
        self.on_request = on_request
        self.on_screenshot = on_screenshot
        self.on_url_change = on_url_change
@ -460,6 +462,9 @@ __brzl_compileOutlinks(window).join(' ');
        if self.extra_headers:
            self.send_to_chrome(method="Network.setExtraHTTPHeaders", params={"headers":self.extra_headers})
        if self.user_agent:
            self.send_to_chrome(method="Network.setUserAgentOverride", params={"userAgent": self.user_agent})
        # disable google analytics, see _handle_message() where breakpoint is caught "Debugger.paused"
        self.send_to_chrome(method="Debugger.setBreakpointByUrl", params={"lineNumber": 1, "urlRegex":"https?://www.google-analytics.com/analytics.js"})
--- a/brozzler/job.py
+++ b/brozzler/job.py
@ -85,7 +85,8 @@ def new_job(frontier, job_conf):
                    "enable_warcprox_features"),
                warcprox_meta=merged_conf.get("warcprox_meta"),
                metadata=merged_conf.get("metadata"),
-                remember_outlinks=merged_conf.get("remember_outlinks"))
+                remember_outlinks=merged_conf.get("remember_outlinks"),
                user_agent=merged_conf.get("user_agent"))
        sites.append(site)
    # insert all the sites into database before the job
--- a/brozzler/job_schema.yml
+++ b/brozzler/job_schema.yml
@ -64,6 +64,9 @@ id:
  metadata:
    type: dict
  user_agent:
    type: string
 seeds:
  type: list
  required: true
--- a/brozzler/robots.py
+++ b/brozzler/robots.py
@ -42,6 +42,8 @@ def _robots_cache(site):
            req_sesh.proxies = {"http":proxie,"https":proxie}
        if site.extra_headers():
            req_sesh.headers.update(site.extra_headers())
        if site.user_agent:
            req_sesh.headers['User-Agent'] = site.user_agent
        _robots_caches[site.id] = reppy.cache.RobotsCache(session=req_sesh)
    return _robots_caches[site.id]
--- a/brozzler/site.py
+++ b/brozzler/site.py
@ -91,7 +91,8 @@ class Site(brozzler.BaseDictable):
            enable_warcprox_features=False, reached_limit=None,
            status="ACTIVE", claimed=False, start_time=None,
            last_disclaimed=_EPOCH_UTC, last_claimed_by=None,
-            last_claimed=_EPOCH_UTC, metadata={}, remember_outlinks=None, cookie_db=None):
+            last_claimed=_EPOCH_UTC, metadata={}, remember_outlinks=None,
            cookie_db=None, user_agent=None):
        self.seed = seed
        self.id = id
@ -111,6 +112,7 @@ class Site(brozzler.BaseDictable):
        self.metadata = metadata
        self.remember_outlinks = remember_outlinks
        self.cookie_db = cookie_db
        self.user_agent = user_agent
        self.scope = scope or {}
        if not "surt" in self.scope:
--- a/brozzler/worker.py
+++ b/brozzler/worker.py
@ -260,6 +260,7 @@ class BrozzlerWorker:
                browser.start(proxy=self._proxy(site), cookie_db=site.cookie_db)
            outlinks = browser.browse_page(
                    page.url, extra_headers=site.extra_headers(),
                    user_agent=site.user_agent,
                    on_screenshot=_on_screenshot,
                    on_url_change=page.note_redirect)
            return outlinks
--- a/job-conf.rst
+++ b/job-conf.rst
@ -168,6 +168,18 @@ ignore_robots
 If set to ``true``, brozzler will happily crawl pages that would otherwise be
 blocked by robots.txt rules.
 user_agent
 ----------
 +-----------------------+---------+----------+---------+
 | scope                 | type    | required | default |
 +=======================+=========+==========+=========+
 | seed-level, top-level | string  | no       | *none*  |
 +-----------------------+---------+----------+---------+
 The ``User-Agent`` header brozzler will send to identify itself to web servers.
 It's good ettiquette to include a project URL with a notice to webmasters that
 explains why you're crawling, how to block the crawler robots.txt and how to
 contact the operator if the crawl is causing problems.
 warcprox_meta
 -------------
 +-----------------------+------------+----------+---------+