抓取下来的网页中有多余信息。如果储存的话浪费大量磁盘空间。预处理去掉
/**去除script
* @param 原始内容
* @return 过滤后内容
*/
public static String trimScript(String content) {
String regEx = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content.toLowerCase());
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}