问题描述:在使用Apache POI读取Excel XLSX文件时,如果文件中包含多个内联字符串(Inline String),可能无法正确读取数据。
解决方法:在读取Excel文件之前,首先需要设置WorkbookFactory的解析器,将解析器设置为使用XSSF Event模式,而不是默认的XSSF模式。
以下是一个示例代码,演示了如何正确读取包含多个内联字符串的Excel文件:
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.eventusermodel.XSSFReader.SheetIterator;
import org.apache.poi.xssf.eventusermodel.XSSFSheetXMLHandler;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.usermodel.XSSFCellStyle;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.XMLReaderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.InputStream;
public class XLSXStreamingReader {
public static void main(String[] args) throws Exception {
// 读取Excel文件
OPCPackage opcPackage = OPCPackage.open("path/to/your/excel.xlsx");
XSSFReader xssfReader = new XSSFReader(opcPackage);
// 获取共享字符串表
SharedStringsTable sharedStringsTable = xssfReader.getSharedStringsTable();
// 创建XMLReader和SAXParser
XMLReader xmlReader = XMLReaderFactory.createXMLReader();
SAXParserFactory saxParserFactory = SAXParserFactory.newInstance();
SAXParser saxParser = saxParserFactory.newSAXParser();
// 设置处理器
ContentHandler contentHandler = new XSSFSheetXMLHandler(
xssfReader.getStylesTable(), sharedStringsTable, new MySheetContentHandler(), false);
xmlReader.setContentHandler(contentHandler);
// 遍历所有Sheet
SheetIterator sheetIterator = (SheetIterator) xssfReader.getSheetsData();
while (sheetIterator.hasNext()) {
InputStream sheetInputStream = sheetIterator.next();
InputSource sheetSource = new InputSource(sheetInputStream);
xmlReader.parse(sheetSource);
sheetInputStream.close();
}
// 关闭OPCPackage
opcPackage.close();
}
private static class MySheetContentHandler implements XSSFSheetXMLHandler.SheetContentsHandler {
@Override
public void startRow(int rowNum) {
// 处理每一行的开始
}
@Override
public void endRow(int rowNum) {
// 处理每一行的结束
}
@Override
public void cell(String cellReference, String formattedValue, XSSFComment comment) {
// 处理单元格
}
@Override
public void headerFooter(String text, boolean isHeader, String tagName) {
// 处理页眉页脚
}
}
}
在上面的示例代码中,我们使用XSSFReader来读取Excel文件,并且将解析器设置为使用XSSF Event模式。然后,我们遍历所有Sheet,并使用自定义的SheetContentsHandler处理每个Sheet的内容。
注意:在使用XSSFReader读取Excel文件时,需要引入对应的poi-ooxml和poi-ooxml-schemas依赖。