抓取下来的网页中有多余信息。如果储存的话浪费大量磁盘空间。预处理去掉

    /**去除style
    * @param 原始内容
    * @return 过滤后内容
    */
    public static String trimStyle(String content) {
    String regEx ="<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";

    Pattern p = Pattern.compile(regEx);
    Matcher m = p.matcher(content.toLowerCase());
    String result = content;
    if (m.find()) {
    result = m.replaceAll("");
    }
    return result;
    }