将HTMLlat1.properties文件中的nbsp=\u00a0去掉。
这样原来的问号乱码就会变成&
再.replaceAll("\\&", "");就可以解决乱码问题。
代码如下
public String extraHtml(String filePath) throws Exception {
DOMParser parser = new DOMParser();
BufferedReader in = new BufferedReader(new FileReader(filePath));
parser.parse(new InputSource(in));
Document doc = parser.getDocument();
// 获得body节点,以此为根,计算其文本内容
Node body = doc.getElementsByTagName("HTML").item(0);
return TextExtractor(body).replaceAll("\\&", "");
}