Apache Nifi:当每行具有不同单元格长度时,将Excel解析为CSV时出现问题。
创始人
2024-09-04 13:30:48
0

如果在将Excel解析为CSV时遇到每行具有不同单元格长度的问题,可以使用Apache Nifi的Record处理器和RecordReader和RecordWriter来解决此问题。以下是一个使用Nifi解决此问题的示例流程:

  1. 使用"GetFile"处理器获取Excel文件。
  2. 使用"ConvertRecord"处理器将Excel文件转换为Record流。
  3. 在"ConvertRecord"处理器中,选择适当的RecordReader和RecordWriter。可以使用"CSVReader"作为RecordReader,以便能够处理具有不同单元格长度的行。
  4. 在"ConvertRecord"处理器中,将"Output Batch Size"属性设置为较大的值,以确保所有记录都被正确读取。
  5. 将"ConvertRecord"处理器的输出连接到"PutFile"处理器,将Record流写入CSV文件。

下面是一个使用Apache Nifi Groovy脚本的示例,用于将Excel解析为CSV:

import org.apache.commons.csv.CSVFormat
import org.apache.commons.csv.CSVPrinter
import org.apache.commons.csv.CSVRecord
import org.apache.nifi.components.PropertyDescriptor
import org.apache.nifi.flowfile.FlowFile
import org.apache.nifi.processor.AbstractProcessor
import org.apache.nifi.processor.ProcessContext
import org.apache.nifi.processor.ProcessSession
import org.apache.nifi.processor.Relationship
import org.apache.nifi.processor.io.InputStreamCallback
import org.apache.nifi.processor.io.OutputStreamCallback

import java.io.IOException
import java.io.InputStream
import java.io.OutputStream
import java.io.InputStreamReader
import java.io.OutputStreamWriter
import java.nio.charset.StandardCharsets
import java.util.ArrayList
import java.util.List

class ExcelToCsvProcessor extends AbstractProcessor {

    private static final PropertyDescriptor DESTINATION_CSV_FILE = new PropertyDescriptor.Builder()
            .name("Destination CSV file")
            .description("The destination CSV file to write the converted data.")
            .required(true)
            .addValidator(StandardValidators.NON_EMPTY_VALIDATOR)
            .build()

    private static final Relationship SUCCESS = new Relationship.Builder()
            .name("success")
            .description("Successfully converted Excel to CSV.")
            .build()

    private static final Relationship FAILURE = new Relationship.Builder()
            .name("failure")
            .description("Failed to convert Excel to CSV.")
            .build()

    @Override
    public List getSupportedPropertyDescriptors() {
        return [DESTINATION_CSV_FILE]
    }

    @Override
    public Set getRelationships() {
        return [SUCCESS, FAILURE]
    }

    @Override
    public void onTrigger(ProcessContext context, ProcessSession session) throws IOException {
        FlowFile flowFile = session.get()
        if (flowFile == null) {
            return
        }

        String destinationCsvFile = context.getProperty(DESTINATION_CSV_FILE).getValue()

        session.read(flowFile, new InputStreamCallback() {
            @Override
            void process(InputStream inputStream) throws IOException {
                List csvRecords = parseExcel(inputStream)

                if (!csvRecords.isEmpty()) {
                    session.write(flowFile, new OutputStreamCallback() {
                        @Override
                        void process(OutputStream outputStream) throws IOException {
                            writeCsv(csvRecords, outputStream)
                        }
                    })

                    session.transfer(flowFile, SUCCESS)
                } else {
                    session.transfer(flowFile, FAILURE)
                }
            }
        })
    }

    private List parseExcel(InputStream inputStream) throws IOException {
        List csvRecords = []

        Iterable records = CSVFormat.EXCEL.parse(new InputStreamReader(inputStream, StandardCharsets.UTF_8))
        for (CSVRecord record : records) {
            csvRecords.add(record)
        }

        return csvRecords
    }

    private void writeCsv(List csvRecords, OutputStream outputStream) throws IOException {
        CSVPrinter csvPrinter = new CSVPrinter(new OutputStreamWriter(outputStream, StandardCharsets.UTF_8), CSVFormat.EXCEL)

        for (CSVRecord record : csvRecords) {
            csvPrinter.printRecord(record)
        }

        csvPrinter.flush()
        csvPrinter.close()
    }
}

将此脚本保存为ExcelToCsvProcessor.groovy,并将其部署到Apache Nifi中。然后,您可以在Nifi中创建一个处理组,添加"GetFile"处理器来获取Excel文件,然后添加一个自定义处理器,选择ExcelToCsvProcessor,并配置目标CSV文件的路径。最后,将自定义处理器的输出连接到"PutFile"处理器,将Record流写入CSV文件。

这个示例

相关内容

热门资讯

记者揭秘!智星菠萝辅助(透视辅... 记者揭秘!智星菠萝辅助(透视辅助)拱趴大菠萝辅助神器,扑克教程(有挂细节);模式供您选择,了解更新找...
一分钟揭秘!约局吧能能开挂(透... 一分钟揭秘!约局吧能能开挂(透视辅助)hhpoker辅助靠谱,2024新版教程(有挂教学);约局吧能...
透视辅助!wepoker模拟器... 透视辅助!wepoker模拟器哪个好用(脚本)hhpoker辅助挂是真的,科技教程(有挂技巧);囊括...
透视代打!hhpkoer辅助器... 透视代打!hhpkoer辅助器视频(辅助挂)pokemmo脚本辅助,2024新版教程(有挂教程);风...
透视了解!约局吧德州真的有透视... 透视了解!约局吧德州真的有透视挂(透视脚本)德州局HHpoker透视脚本,必胜教程(有挂分析);亲,...
六分钟了解!wepoker挂底... 六分钟了解!wepoker挂底牌(透视)德普之星开辅助,详细教程(有挂解密);德普之星开辅助是一种具...
9分钟了解!wpk私人辅助(透... 9分钟了解!wpk私人辅助(透视)hhpoker德州透视,插件教程(有挂教学);风靡全球的特色经典游...
推荐一款!wepoker究竟有... 推荐一款!wepoker究竟有透视(脚本)哈糖大菠萝开挂,介绍教程(有挂技术);囊括全国各种wepo...
每日必备!wepoker有人用... 每日必备!wepoker有人用过(脚本)wpk有那种辅助,线上教程(有挂规律);wepoker有人用...
玩家必备教程!wejoker私... 玩家必备教程!wejoker私人辅助软件(脚本)哈糖大菠萝可以开挂,可靠技巧(有挂神器)申哈糖大菠萝...