抓取下来的网页中有多余信息。如果储存的话浪费大量磁盘空间。预处理去掉

    /**去除script
    * @param 原始内容
    * @return 过滤后内容
    */
    public static String trimScript(String content) {
    String regEx = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";

    Pattern p = Pattern.compile(regEx);
    Matcher m = p.matcher(content.toLowerCase());
    String result = content;
    if (m.find()) {
    result = m.replaceAll("");
    }
    return result;
    }