start making the scraper an object

blank __init__.py
change name of pool management object to be more clear
2018-08-28 22:29:36 +01:00 · 2018-08-28 22:29:11 +01:00 · 2018-08-28 22:28:49 +01:00 · 2018-08-28 22:28:16 +01:00 · 2018-08-28 18:29:34 +01:00
3 changed files with 117 additions and 1 deletions
--- a/scraper.py
+++ b/scraper.py
@@ -1 +1,88 @@
-#!/usr/bin/env python
+#!/usr/bin/env python
 import re
 import argparse
 import urllib.request
 from bs4 import BeautifulSoup
 class WebPage(object):
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    def __init__(self, args):
        self.url = args['url']
    def get_source(self, args=None):
        request = urllib.request.Request(self.url, headers=headers)
        page = urllib.request.urlopen(request)
        self.source = page.read()
    def find_links(self, args=None, source=None):
        soup = BeautifulSoup(self.source, 'html.parser')
        links = soup.find_all('a')
        hrefs = []
        for link in links:
            if link['href'].startswith('/'):
                hrefs.append("".join([self.url, link['href']]))
            else:
                hrefs.append(link['href'])
        return hrefs
 def run(args=None):
    source = get_source(args)
    urls = find_links(args, source)
    local_urls = parse_urls(args, urls)
    print(local_urls)
 def get_source(args=None):
    url = args.url
    useragent = 'Mozilla/5.0 (X11; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'
    headers = {'User-Agent': useragent}
    request = urllib.request.Request(url, headers=headers)
    page = urllib.request.urlopen(request)
    source = page.read()
    return source
 def find_links(args=None, source=None):
    soup = BeautifulSoup(source, 'html.parser')
    links = soup.find_all('a')
    hrefs = []
    for link in links:
        if link['href'].startswith('/'):
            hrefs.append("".join([args.url, link['href']]))
        else:
            hrefs.append(link['href'])
    return hrefs
 def parse_urls(args=None, urls=None):
    local_urls = []
    for url in urls:
        if url.startswith(args.url):
            local_urls.append(url)
    return local_urls
 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='Recursive web scraper')
    parser.add_argument("-u", "--url", required=True, help="Base url to scrape")
    args = parser.parse_args()
    if not args.url.startswith('http'):
        raise SystemExit('URL must start with a protocol (http(s)).')
    run(args)
--- a/utils/init.py
+++ b/utils/init.py
--- a/utils/helpers.py
+++ b/utils/helpers.py
@@ -3,6 +3,35 @@
 Utilities to provide various misc functions.
 '''
 class UrlPoolManager(object):
    '''
    Object to manage the lifecycle of a pool of URLs.
    '''
    def __init__(self):
        self.url_pool = dict()
        self.not_crawled = 0
        self.crawled = 1
        self.invalid = 2
    def check_duplicate(self, new_url):
        for url, status in self.url_pool.items():
            if url == new_url:
                return True
            else:
                return False
    def invalidate_url(self, url):
        self.url_pool[url] = self.invalid
    def add_to_list(self, url):
        self.url_pool[url] = self.not_crawled
        # calculate depth
        # add link, crawled status to url_pool
    def mark_as_crawled(self, url):
        self.url_pool[url] = self.crawled
 def clean_base_url(url):
    '''
Author	SHA1	Message	Date
Simon Weald	5d94991167	start making the scraper an object	2018-08-28 22:29:36 +01:00
Simon Weald	482d23dd4f	blank __init__.py	2018-08-28 22:29:11 +01:00
Simon Weald	452de87f35	change name of pool management object to be more clear	2018-08-28 22:28:49 +01:00
Simon Weald	73cb883151	add a list manager object	2018-08-28 22:28:16 +01:00
Simon Weald	5c933fc5c9	initial commit of single-page scraper	2018-08-28 18:29:34 +01:00