Glide’s document-to-text extraction - column drift issues

John_Novice · May 12, 2026, 7:40am

Hi, I wanted to ask for some advice.

I have a 50-page PDF document containing claim files. Glide’s document-to-text extraction is able to extract all the text, but due to column drift issues caused by OCR, some of the text gets jumbled up and spills into the next claim item, resulting in confusion. Some of the Yes/No values also get mixed up.

The behaviour is not consistent because it depends on the structure and formatting of each PDF document.

I also tried setting up a Google Cloud Vision integration, but found that it only extracts 5 pages, which is insufficient for my needs.

Does anyone know of any integrations or workarounds that can resolve this issue?

ThinhDinh · May 13, 2026, 1:57am

I’m not sure how viable it is for a 50-page PDF, but try appending this before your URL:

https://markdown.new/

E.g:

https://markdown.new/https://pdfobject.com/pdf/sample.pdf

Would give me this:

Title: sample.pdf

URL Source: https://pdfobject.com/pdf/sample.pdf

Markdown Content:
# sample.pdf
## Metadata
- PDFFormatVersion=1.3
- IsLinearized=false
- IsAcroFormPresent=false
- IsXFAPresent=false
- IsCollectionPresent=false
- IsSignaturesPresent=false
- Title=sample
- Author=Philip Hutchison
- Creator=Pages
- Producer=Mac OS X 10.5.4 Quartz PDFContext
- CreationDate=D:20080701052447Z00'00'
- ModDate=D:20080701052447Z00'00'



## Contents
### Page 1
Sample PDFThis is a simple PDF file. Fun fun fun.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Phasellus facilisis odio sed mi.Curabitur suscipit. Nullam vel nisi. Etiam semper ipsum ut lectus. Proin aliquam, erat egetpharetra commodo, eros mi condimentum quam, sed commodo justo quam ut velit.Integer a erat. Cras laoreet ligula cursus enim. Aenean scelerisque velit et tellus.Vestibulum dictum aliquet sem. Nulla facilisi. Vestibulum accumsan ante vitae elit. Nullaerat dolor, blandit in, rutrum quis, semper pulvinar, enim. Nullam varius congue risus.Vivamus sollicitudin, metus ut interdum eleifend, nisi tellus pellentesque elit, tristiqueaccumsan eros quam et risus. Suspendisse libero odio, mattis sit amet, aliquet eget,hendrerit vel, nulla. Sed vitae augue. Aliquam erat volutpat. Aliquam feugiat vulputate nisl.Suspendisse quis nulla pretium ante pretium mollis. Proin velit ligula, sagittis at, egestas a,pulvinar quis, nisl.Pellentesque sit amet lectus. Praesent pulvinar, nunc quis iaculis sagittis, justo quamlobortis tortor, sed vestibulum dui metus venenatis est. Nunc cursus ligula. Nulla facilisi.Phasellus ullamcorper consectetuer ante. Duis tincidunt, urna id condimentum luctus, nibhante vulputate sapien, id sagittis massa orci ut enim. Pellentesque vestibulum convallissem. Nulla consequat quam ut nisl. Nullam est. Curabitur tincidunt dapibus lorem. Proinvelit turpis, scelerisque sit amet, iaculis nec, rhoncus ac, ipsum. Phasellus lorem arcu,feugiat eu, gravida eu, consequat molestie, ipsum. Nullam vel est ut ipsum volutpatfeugiat. Aenean pellentesque.In mauris. Pellentesque dui nisi, iaculis eu, rhoncus in, venenatis ac, ante. Ut odio justo,scelerisque vel, facilisis non, commodo a, pede. Cras nec massa sit amet tortor volutpatvarius. Donec lacinia, neque a luctus aliquet, pede massa imperdiet ante, at varius lorempede sed sapien. Fusce erat nibh, aliquet in, eleifend eget, commodo eget, erat. Fusceconsectetuer. Cras risus tortor, porttitor nec, tristique sed, convallis semper, eros. Fuscevulputate ipsum a mauris. Phasellus mollis. Curabitur sed urna. Aliquam nec sapien nonnibh pulvinar convallis. Vivamus facilisis augue quis quam. Proin cursus aliquet metus.Suspendisse lacinia. Nulla at tellus ac turpis eleifend scelerisque. Maecenas a pede vitaeenim commodo interdum. Donec odio. Sed sollicitudin dui vitae justo.Morbi elit nunc, facilisis a, mollis a, molestie at, lectus. Suspendisse eget mauris eu tellusmolestie cursus. Duis ut magna at justo dignissim condimentum. Cum sociis natoquepenatibus et magnis dis parturient montes, nascetur ridiculus mus. Vivamus varius. Ut sitamet diam suscipit mauris ornare aliquam. Sed varius. Duis arcu. Etiam tristique massaeget dui. Phasellus congue. Aenean est erat, tincidunt eget, venenatis quis, commodo at,quam.

John_Novice · May 13, 2026, 2:45am

Thank you for your suggestion. It seems to work well for text-based PDFs, but it is unable to extract text from image-based scanned PDFs.

Topic		Replies	Views
Extracting Key-Value Data from PDF Using Glide's Integrated OpenAI Ask for Help api	3	87	February 6, 2025
Transform a PDF file to plain text Ask for Help	6	744	May 18, 2023
Could you use the OpenAI integration to analyse documents Ask for Help	3	546	November 6, 2023
OpenAI: Generating prompts to answer questions about a document Ask for Help	7	3220	November 7, 2023
🤖✨ PDF → Glide AI → Query JSON is MAGIC Community Resources ai , tutorial , json	13	1390	March 9, 2026

Glide’s document-to-text extraction - column drift issues

Related topics