题 如何从WebView获取网页内容?


在Android上,我有一个 WebView 即显示页面。

如何在不再请求页面的情况下获取页面源?

它似乎 WebView 应该有某种 getPageSource() 返回字符串的方法,但不是。

如果我启用JavaScript,那么在此调用中放入适当的JavaScript以获取内容是什么?

webview.loadUrl("javascript:(function() { " +  
    "document.getElementsByTagName('body')[0].style.color = 'red'; " +  
    "})()");  

73
2018-03-04 02:15


起源


使用jquery脚本和js接口从webview window.interface.processHTML($(\“body \”)。html())获取html内容; - DroidBot
stackoverflow.com/questions/8200945/... - trante
显然,您可以使用HTTP请求以HTML格式获取响应,但如果某个页面需要加载后期数据(例如用户凭据等),则此方法将失败。我认为这应该是它应该如何,因为如果你能做到,你可以为任何网站制作自己的Android应用程序,这会很糟糕!


答案:


我知道这是一个迟到的答案,但我发现了这个问题,因为我遇到了同样的问题。我想我找到了答案 这个帖子 在lexandera.com上。下面的代码基本上是来自网站的剪切和粘贴。它似乎做了伎俩。

final Context myApp = this;

/* An instance of this class will be registered as a JavaScript interface */
class MyJavaScriptInterface
{
    @JavascriptInterface
    @SuppressWarnings("unused")
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

final WebView browser = (WebView)findViewById(R.id.browser);
/* JavaScript must be enabled if you want it to work, obviously */
browser.getSettings().setJavaScriptEnabled(true);

/* Register a new JavaScript interface called HTMLOUT */
browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT");

/* WebViewClient must be set BEFORE calling loadUrl! */
browser.setWebViewClient(new WebViewClient() {
    @Override
    public void onPageFinished(WebView view, String url)
    {
        /* This call inject JavaScript into the page which just finished loading. */
        browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
    }
});

/* load a web page */
browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html");

138
2018-02-03 21:36



请注意,这可能不是页面的原始HTML;页面内容可能之前已通过JavaScript动态更改 onPageFinished() 被执行了。 - Paul Lammertsma
这很好,但是调用方法 browser.loadUrl 在 onPageFinished 会引发 onPageFinished 再次被召唤。您可能想检查它是否是第一次调用 onPageFinished 或不在打电话之前 browser.loadUrl。 - Yi H.
谢谢@Blundell它对我有用。我想知道这怎么可能 作为服务实施 。由于是没有布局和webview的服务来存储结果。有没有办法将数据放在与webView不同的其他对象中,以便我们可以使用javascript来获取生成的html代码? - Totalys
@Totalys更容易 String html = new Scanner(new DefaultHttpClient().execute(new HttpGet("www.the url")).getEntity().getContent(), "UTF-8").useDelimiter("\\A").next(); (缩写为适合评论:-)) - Blundell
不要忘记将runOnUiThread(new Runnable(){...插入public void processHTML。 - CoolMind


问题12987,Blundell的回答崩溃了(至少在我的2.3 VM上)。相反,我使用特殊前缀拦截对console.log的调用:

// intercept calls to console.log
web.setWebChromeClient(new WebChromeClient() {
    public boolean onConsoleMessage(ConsoleMessage cmsg)
    {
        // check secret prefix
        if (cmsg.message().startsWith("MAGIC"))
        {
            String msg = cmsg.message().substring(5); // strip off prefix

            /* process HTML */

            return true;
        }

        return false;
    }
});

// inject the JavaScript on page load
web.setWebViewClient(new WebViewClient() {
    public void onPageFinished(WebView view, String address)
    {
        // have the page spill its guts, with a secret prefix
        view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);");
    }
});

web.loadUrl("http://www.google.com");

32
2017-12-24 06:33



Thx,这适用于2.3.6 - Snicolas


这是一个基于的答案 jluckyiv的, 但我认为更改Javascript更好更简单,如下所示。

browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");

17
2018-04-17 02:26



你救了我的工作! :) - gior91


您是否考虑过单独获取HTML,然后将其加载到webview中?

String fetchContent(WebView view, String url) throws IOException {
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet get = new HttpGet(url);
    HttpResponse response = httpClient.execute(get);
    StatusLine statusLine = response.getStatusLine();
    int statusCode = statusLine.getStatusCode();
    HttpEntity entity = response.getEntity();
    String html = EntityUtils.toString(entity); // assume html for simplicity
    view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity
    if (statusCode != 200) {
        // handle fail
    }
    return html;
}

6
2017-10-25 01:59



这不会带来cookie。 - Keith Adler
这种方法触发了CAPTCHA对话框 - Hector


我设法使用@jluckyiv的答案中的代码来完成这项工作,但我必须在MyJavaScriptInterface中的processHTML方法中添加@JavascriptInterface注释。

class MyJavaScriptInterface
{
    @SuppressWarnings("unused")
    @JavascriptInterface
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

4
2018-06-04 16:47





如果您的targetSdkVersion> = 17,您还需要使用@JavascriptInterface注释该方法 - 因为SDK 17中存在新的安全要求,即所有javascript方法都必须使用@JavascriptInterface注释。否则你会看到如下错误:Uncaught TypeError:Object [object Object]在null时没有方法'processHTML':1


1
2018-06-12 23:26





如果您正在使用kitkat及更高版本,则可以使用chrome远程调试工具查找进出Webview的所有请求和响应,以及查看页面的html源代码。

https://developer.chrome.com/devtools/docs/remote-debugging


0
2018-02-23 16:08