CLI를 통해 웹 자산 나열

CLI를 통해 웹 자산 나열

브라우저를 사용하여 웹페이지를 탐색할 때 페이지에 대한 코드를 다운로드한 후 브라우저는 모든 리소스(CSS, JS 및 이미지)를 다운로드합니다.

페이지 자산(내부 및 외부 자산)에 대한 모든 URL을 나열하는 방법이 있습니까?

아이디어는 외부 및 내부 자산의 변화를 모니터링하는 것입니다.


나는 당신이 원하는 것을 할 수 있는 Python 스크립트를 작성했습니다:

#!/usr/bin/env python2
# -*- coding: ascii -*-

from bs4 import BeautifulSoup
import urllib
import sys
import jsbeautifier
import copy

# Define a function to format script and style elements
def formatted_element(element):

    # Copy the element
    formatted_element = copy.copy(element)

    # Get beautified element text
    formatted_text = jsbeautifier.beautify(formatted_element.text)

    # Indent all of the text
    formatted_text = "\n".join(["    " + line for line in formatted_text.splitlines()])

    # Update the script body
    formatted_element.string = "\n" + formatted_text + "\n    "

    # Return the beautified element

# Load HTML from a web page
html = urllib.urlopen(sys.argv[1]).read()

# Parse the HTML
soup = BeautifulSoup(html, "html.parser")

# Extract the list of external image URLs
image_urls = [image['src'] for image in soup.findAll('img') if image.has_attr('src')]

# Extract the list of external CSS URLs
css_urls = [link['href'] for link in soup.findAll('link') if link.has_attr('href')]

# Extract the list of external JavaScript URLs
script_urls = [script['src'] for script in soup.findAll('script') if script.has_attr('src')]

# Extract the list of internal CSS elements
styles = [formatted_element(style) for style in soup.findAll('style')]

# Extract the list of internal scripts
scripts = [formatted_element(script) for script in soup.findAll('script') if not script.has_attr('src')]

# Print the results

for image_url in image_urls:
    print("    %s\n" % image_url)

print("External Style-Sheets:\n")
for css_url in css_urls:
    print("    %s\n" % css_url)

print("External Scripts:\n")
for script_url in script_urls:
    print("    %s\n" % script_url)

print("Internal Style-Sheets:\n")
for style in styles:
    print("    %s\n" % style)

print("Internal Scripts:\n")
for script in scripts:
    print("    %s\n" % script)

내가 사용하는 (주요) 패키지는 다음과 같습니다.

스크립트는 외부 리소스의 URL과 내부 리소스의 요소 태그 자체(가정화/미화 포함)를 인쇄합니다. 쉽게 수정하거나 개선할 수 있는 결과 형식을 지정하는 방법에 대해 즉석에서 스타일을 선택했습니다.

실제로 이를 보려면 다음 HTML 파일 예제( assets.html)를 참조하세요.

<!doctype html>
<html lang=en>


    <meta charset=utf-8>


    <link rel="stylesheet" type="text/css" href="mystyle.css">

    body {
            background-color: linen;

    h1 {
            color: maroon;
                    margin-left: 40px;

    <script src="myscripts.js"></script>



    <script>alert( 'Hello, world!' );</script>

    <img src="">

    <p>I'm the content</p>



로컬 파일에서 스크립트를 실행하는 방법은 다음과 같습니다.

python assets.html

출력은 다음과 같습니다.


External Style-Sheets:


External Scripts:


Internal Style-Sheets:

    body {
        background - color: linen;

    h1 {
        color: maroon;
        margin - left: 40 px;

Internal Scripts:

    alert('Hello, world!');

마지막으로, 여러분에게 유용할 수 있는 참고 자료로 사용하는 몇 가지 게시물은 다음과 같습니다.

관련 정보