c# - 如何甚至从JavaScript内部下载整个网页内容(包括图像)?

今天,在我的代码中,我从这样的网站下载图像:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using HtmlAgilityPack;
using System.IO;
using System.Text.RegularExpressions;
using System.Xml.Linq;
using System.Net;
using System.Web;
using System.Threading;
using DannyGeneral;
using GatherLinks;

namespace GatherLinks
{
    class RetrieveWebContent
    {
        HtmlAgilityPack.HtmlDocument doc;
        string imgg;
        int images;

        public RetrieveWebContent()
        {
            images = 0;
        }

        public List<string> retrieveImages(string address)
        {
            try
            {
                doc = new HtmlAgilityPack.HtmlDocument();
                System.Net.WebClient wc = new System.Net.WebClient();
                List<string> imgList = new List<string>();
                doc.Load(wc.OpenRead(address));
                HtmlNodeCollection imgs = doc.DocumentNode.SelectNodes("//img[@src]");
                if (imgs == null) return new List<string>();

                foreach (HtmlNode img in imgs)
                {
                    if (img.Attributes["src"] == null)
                        continue;
                    HtmlAttribute src = img.Attributes["src"];

                    imgList.Add(src.Value);
                    if (src.Value.StartsWith("http") || src.Value.StartsWith("https") || src.Value.StartsWith("www"))
                    {
                        images++;
                        string[] arr = src.Value.Split('/');
                        imgg = arr[arr.Length - 1];
                        wc.DownloadFile(src.Value, @"d:\MyImages\" + imgg);
                    }
                }

                return imgList;
            }
            catch
            {
                Logger.Write("There Was Problem Downloading The Image: " + imgg);
                return null;  
            }
        }
    }
}


但是有时在很多情况下,图像在Java脚本的后面或下方,并且无法定期下载。我如何获取/下载图像和/或整个完整的网站内容,包括图像和所有内容,因此稍后在硬盘中,我将拥有包含其所有内容树的完整网站,以便可以脱机浏览它。

最佳答案

我将使用实际的浏览器,然后从那里保存图像。.在Watir Webdriver中查看Ruby中的解决方案。该库可帮助您实现浏览器的自动化...我将其与Nokogiri结合使用以实现您在上方所做的工作。

也存在Python等效项。

Webdriver尚不支持保存功能,但较旧的“ Watir”则支持。您可能还想研究CasperJS,它以Javascript语言提供了一些浏览器自动化功能。