将HTMLlat1.properties文件中的nbsp=\u00a0去掉。

这样原来的问号乱码就会变成&

再.replaceAll("\\&", "");就可以解决乱码问题。

代码如下

public String extraHtml(String filePath) throws Exception {
   DOMParser parser = new DOMParser();
   BufferedReader in = new BufferedReader(new FileReader(filePath));
   parser.parse(new InputSource(in));
   Document doc = parser.getDocument();
   // 获得body节点,以此为根,计算其文本内容
   Node body = doc.getElementsByTagName("HTML").item(0);

   return TextExtractor(body).replaceAll("\\&", "");
}