render results as HTML

improved content-type detection
2018-09-06 17:08:26 +01:00 · 2018-09-06 17:08:12 +01:00
3 changed files with 39 additions and 3 deletions
--- a/crawler.py
+++ b/crawler.py
@@ -4,6 +4,7 @@ Need a docstring.
 '''

 import argparse
+import jinja2
 from utils.helpers import (UrlPool, WebPage, RobotsTxt, sanitise_url)
 from pprint import pprint

@@ -67,6 +68,25 @@ def process_pool(base_url=None, uncrawled_urls=None, crawled_urls=None, robots=N
                uncrawled_urls.add_to_pool(url)


+def render_sitemap(base_url=None, crawled_urls=None):
+    '''
+    Renders the sitemap as an HTML file.
+    '''
+    urlcount = len(crawled_urls)
+    sorted_urls = sorted(crawled_urls)
+
+    tmpl = jinja2.Environment(
+        loader=jinja2.FileSystemLoader('templates')
+        ).get_template('sitemap.html.j2')
+
+    rendered_html = tmpl.render(base_url=base_url, urlcount=urlcount, urls=sorted_urls)
+
+    with open('sitemap.html', 'w') as outfile:
+        outfile.write(rendered_html)
+
+    print('Sitemap available at sitemap.html')
+
+
 def run(args=None):
    '''
    needs a docstring.
@@ -77,8 +97,10 @@ def run(args=None):
    uncrawled_urls, crawled_urls = init_crawler(base_url, robots)
    process_pool(base_url, uncrawled_urls, crawled_urls, robots)

-    pprint(crawled_urls.pool)
-    print('{0} URLs crawled'.format(len(crawled_urls.pool)))
+    render_sitemap(base_url=base_url, crawled_urls=crawled_urls.pool)
+
+    # pprint(crawled_urls.pool)
+    # print('{0} URLs crawled'.format(len(crawled_urls.pool)))


 if __name__ == '__main__':
--- a/templates/sitemap.html.j2
+++ b/templates/sitemap.html.j2
@@ -0,0 +1,14 @@
+<html>
+<head>
+ <title>Sitemap for {{ base_url }}</title>
+</head>
+<body>
+<p>
+Crawled {{ urlcount }} URLs on {{ base_url }}
+<ul>
+{% for url in urls %}
+  <li><a href="{{ url }}">{{ url }}</a></li>
+{% endfor %}
+</ul>
+</body>
+</html>
--- a/utils/helpers.py
+++ b/utils/helpers.py
@@ -62,7 +62,7 @@ class WebPage(object):
        request = urllib.request.Request(self.url, headers=self.headers)
        page = urllib.request.urlopen(request, timeout=5)
        headers = page.info()
-        if headers['content-type'] == "text/html":
+        if "text/html" in headers['content-type']:
            self.source = page.read()
Author	SHA1	Message	Date
Simon Weald	84ab27a75e	render results as HTML	2018-09-06 17:08:26 +01:00
Simon Weald	6d9103c154	improved content-type detection	2018-09-06 17:08:12 +01:00