C#/ VB.NET中怎么从PDF文档中提取所有表格

这篇文章主要介绍了C#/VB.NET中怎么从PDF文档中提取所有表格的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇C#/VB.NET中怎么从PDF文档中提取

这篇文章主要介绍了C#/ VB.NET中怎么从PDF文档中提取所有表格的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇C#/ VB.NET中怎么从PDF文档中提取所有表格文章都会有所收获,下面我们一起来看看吧。

安装

首先,我们需要将 Spire.PDF for .NET 包中包含的 DLL 文件添加为 .NET 项目中的引用。可以从此链接下载 DLL 文件,也可以通过 NuGet 安装 DLL 文件。

PM> Install-Package Spire.PDF

从PDF文档中提取表格

Spire.PDF提供了PdfTableExtractor.ExtractTable()方法,用于从特定页面中提取表格。以下是从整个PDF文档中提取表格的详细步骤。

  • 创建一个Document类的对象,并加载源 PDF 文件。

  • 遍历文档中的页面,并使用ExtractTable()方法从特定页面获取表格列表。

  • 遍历特定表格中的单元格,并通过PdfTable.GetText()方法获取单元格值。

  • 将所提取的数据写入 TXT 文件。

[C#]

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类的对象
PdfDocument pdf = new PdfDocument();

//加载PDF文档
pdf.LoadFromFile("sample.pdf");

//创建StringBuilder类的对象
StringBuilder builder = new StringBuilder();

//实例化PdfTableExtractor类的对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);

//声明一个PdfTable类的表格数组
PdfTable[] tableLists;

//遍历PDF页面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//从页面提取表格
tableLists = extractor.ExtractTable(pageIndex);

//判断表格列表是否为空
if (tableLists != null && tableLists.Length > 0)
{
//遍历表格
foreach (PdfTable table in tableLists)
{
//获取表格中的行和列数
int row = table.GetRowCount();
int column = table.GetColumnCount();

//遍历表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//获取行和列中的文本
string text = table.GetText(i, j);

//写入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\\r\\n");
}
}
}
}
//保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}

VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'实例化PdfDocument类的对象
Dim pdf As New PdfDocument()

'加载PDF文档
pdf.LoadFromFile("sample.pdf")

'创建StringBuilder类的对象
Dim builder As New StringBuilder()

'实例化PdfTableExtractor类的对象
Dim extractor As New PdfTableExtractor(pdf)

'声明一个PdfTable类的表格数组
Dim tableLists As PdfTable()

'遍历PDF页面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'从页面提取表格
tableLists = extractor.ExtractTable(pageIndex)

'判断表格列表是否为空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍历表格
For Each table As PdfTable In tableLists
'获取表格中的行和列数
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()

'遍历表格行和列
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
'获取行和列中的文本
Dim text As String = table.GetText(i, j)

'写入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next

'保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace

C#/ VB.NET中怎么从PDF文档中提取所有表格

C#/ VB.NET中怎么从PDF文档中提取所有表格

关于“C#/ VB.NET中怎么从PDF文档中提取所有表格”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“C#/ VB.NET中怎么从PDF文档中提取所有表格”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注恰卡网行业资讯频道。

本站部分文章来自网络或用户投稿,如无特殊说明或标注,均为本站原创发布。涉及资源下载的,本站旨在共享仅供大家学习与参考,如您想商用请获取官网版权,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
开发者

nodejs怎么读取文件二进制前端响应blob或base64显示图片

2022-8-3 21:16:39

开发者

如何用C语言实现简易的三子棋小游戏

2022-8-3 21:16:42

搜索