{"schema_version":"onlylabs.public_signal.v1","title":"Replicate Writing: Extract text from documents and images with Datalab Marker and OCR","description":"Replicate writing signal with public source context, captured evidence pages, related signals, and category-scoped analysis context.","url":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397","json_url":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397/signal.json","generated_at":"2026-06-07T21:15:37.241402+00:00","org":{"slug":"replicate","name":"Replicate","category":"neocloud","category_label":"Neocloud","dossier_url":"https://onlylabs.fyi/labs/replicate","dossier_json_url":"https://onlylabs.fyi/labs/replicate/dossier.json"},"related_urls":{"signal":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397","signal_json":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397/signal.json","source":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","lab_dossier":"https://onlylabs.fyi/labs/replicate","lab_dossier_json":"https://onlylabs.fyi/labs/replicate/dossier.json","analysis":"https://onlylabs.fyi/analysis/replicate","analysis_json":"https://onlylabs.fyi/analysis/replicate/analysis.json","analysis_evidence_json":"https://onlylabs.fyi/analysis/replicate/evidence.json","category":"https://onlylabs.fyi/neoclouds","category_json":"https://onlylabs.fyi/neoclouds.json","category_feed":"https://onlylabs.fyi/neoclouds/feed.xml","category_signals_json":"https://onlylabs.fyi/signals.json?category=neocloud","topic":"https://onlylabs.fyi/topics/talking","topic_signals_json":"https://onlylabs.fyi/topics/talking/signals.json?category=neocloud","topic_feed":"https://onlylabs.fyi/topics/talking/feed.xml?category=neocloud","data_business":null},"answer_pack":{"answer":"Replicate published Extract text from documents and images with Datalab Marker and OCR. This talking signal gives public context for research themes, product direction, policy, or launch framing. High-signal details: Routine feature announcement blog · Extract text from documents and images with Datalab Marker and OCR – Replicate blog Replicate Blog Extract text from documents and images with Datalab Marker and OCR.... onlylabs links this event to 1 captured evidence page and 6 related writing signals.","signal_desk":"talking","source_context":{"source_url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","source_host":"replicate.com","occurred_at":"2025-10-21T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date","context":null},"context_markers":[{"label":"Lab","value":"Replicate","source":"signal"},{"label":"Signal desk","value":"talking","source":"signal"},{"label":"Source host","value":"replicate.com","source":"source"},{"label":"Notability","value":"Routine feature announcement blog","source":"signal"},{"label":"Watch term","value":"Eval methodology","source":"evidence"},{"label":"Watch term","value":"Data pipeline","source":"evidence"}],"evidence_coverage":{"target_pages":1,"captured_pages":1,"readable_pages":1,"capture_methods":["plain"],"missing_page_urls":[],"failed_page_urls":[],"blocked_page_urls":[],"page_urls":["https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing"],"related_signals":6,"has_source_url":true,"latest_page_fetched_at":"2026-06-07T21:15:37.241402+00:00"},"data_business":{"matches":false,"lanes":[],"matched_terms":[],"score":null,"reason":null},"agent_handoff":{"signal_json":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397/signal.json","dossier_json":"https://onlylabs.fyi/labs/replicate/dossier.json","analysis_json":"https://onlylabs.fyi/analysis/replicate/analysis.json","analysis_evidence_json":"https://onlylabs.fyi/analysis/replicate/evidence.json","topic_signals_json":"https://onlylabs.fyi/topics/talking/signals.json?category=neocloud","topic_feed":"https://onlylabs.fyi/topics/talking/feed.xml?category=neocloud","category_signals_json":"https://onlylabs.fyi/signals.json?category=neocloud","data_radar_json":null,"opportunities_json":null},"analysis_playbook":{"objective":"Turn public writing and discussion into a readable map of research themes, product framing, policy posture, launch narratives, and market attention.","evidence_focus":["post title","source URL","captured page text","HN traction","linked model or paper references","publication date"],"extraction_questions":["Which themes are labs choosing to explain publicly?","Which posts are attracting outside discussion?","Which writing reframes a recent release, model, hiring wave, or policy stance?","Which posts mention data, evals, infrastructure, safety, or deployment workflows?"],"signal_questions":["What public theme, launch framing, or research direction does this writing signal expose?","Which themes are labs choosing to explain publicly?","Which posts are attracting outside discussion?","Do the 6 related writing signals show a repeated pattern?"],"output_fields":["org","theme","public_framing","traction","evidence_url"],"data_business_relevance":"Data-business lane extraction is scoped to frontier labs; for this category, keep conclusions tied to category-specific strategy, source evidence, and follow-up questions.","required_sources":[{"label":"signal_json","url":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397/signal.json","required":true},{"label":"source","url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","required":true},{"label":"dossier_json","url":"https://onlylabs.fyi/labs/replicate/dossier.json","required":true},{"label":"analysis_evidence_json","url":"https://onlylabs.fyi/analysis/replicate/evidence.json","required":true},{"label":"topic_signals_json","url":"https://onlylabs.fyi/topics/talking/signals.json?category=neocloud","required":false},{"label":"data_radar_json","url":null,"required":false}],"expected_output":["one-paragraph source-grounded interpretation","category-specific implication","confidence and missing evidence","recommended next source to inspect"],"prompt_seed":"Using only the linked onlylabs JSON, captured source context, and cited evidence, analyze Replicate's writing signal \"Extract text from documents and images with Datalab Marker and OCR\" for neocloud strategy."},"semantic_triples":[{"subject":"Replicate","predicate":"published","object":"Extract text from documents and images with Datalab Marker and OCR","text":"Replicate published Extract text from documents and images with Datalab Marker and OCR."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"is classified as","object":"writing signal","text":"Extract text from documents and images with Datalab Marker and OCR is classified as writing signal."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"belongs to","object":"talking desk","text":"Extract text from documents and images with Datalab Marker and OCR belongs to talking desk."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has evidence coverage","object":"1 captured evidence page","text":"Extract text from documents and images with Datalab Marker and OCR has evidence coverage 1 captured evidence page."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has captured page count","object":"1","text":"Extract text from documents and images with Datalab Marker and OCR has captured page count 1."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has readable page count","object":"1","text":"Extract text from documents and images with Datalab Marker and OCR has readable page count 1."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has related signal count","object":"6","text":"Extract text from documents and images with Datalab Marker and OCR has related signal count 6."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has analysis playbook objective","object":"Turn public writing and discussion into a readable map of research themes, product framing, policy posture, launch narratives, and market attention.","text":"Extract text from documents and images with Datalab Marker and OCR has analysis playbook objective Turn public writing and discussion into a readable map of research themes, product framing, policy posture, launch narratives, and market attention.."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has source host","object":"replicate.com","text":"Extract text from documents and images with Datalab Marker and OCR has source host replicate.com."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has lab","object":"Replicate","text":"Extract text from documents and images with Datalab Marker and OCR has lab Replicate."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has signal desk","object":"talking","text":"Extract text from documents and images with Datalab Marker and OCR has signal desk talking."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has source host","object":"replicate.com","text":"Extract text from documents and images with Datalab Marker and OCR has source host replicate.com."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has notability","object":"Routine feature announcement blog","text":"Extract text from documents and images with Datalab Marker and OCR has notability Routine feature announcement blog."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has watch term","object":"Eval methodology","text":"Extract text from documents and images with Datalab Marker and OCR has watch term Eval methodology."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has watch term","object":"Data pipeline","text":"Extract text from documents and images with Datalab Marker and OCR has watch term Data pipeline."}]},"intelligence":{"signal_desk":"talking","answer":"Replicate published Extract text from documents and images with Datalab Marker and OCR. This talking signal gives public context for research themes, product direction, policy, or launch framing. High-signal details: Routine feature announcement blog · Extract text from documents and images with Datalab Marker and OCR – Replicate blog Replicate Blog Extract text from documents and images with Datalab Marker and OCR.... onlylabs links this event to 1 captured evidence page and 6 related writing signals.","semantic_triples":[{"subject":"Replicate","predicate":"published","object":"Extract text from documents and images with Datalab Marker and OCR","text":"Replicate published Extract text from documents and images with Datalab Marker and OCR."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"is classified as","object":"writing signal","text":"Extract text from documents and images with Datalab Marker and OCR is classified as writing signal."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"belongs to","object":"talking desk","text":"Extract text from documents and images with Datalab Marker and OCR belongs to talking desk."},{"subject":"Extract text from documents and images with Datalab Marker and OCR","predicate":"has evidence coverage","object":"1 captured evidence page","text":"Extract text from documents and images with Datalab Marker and OCR has evidence coverage 1 captured evidence page."}]},"signal":{"id":"889633ba-63ad-4d96-8d32-4bee8b4f7397","url":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397","json_url":"https://onlylabs.fyi/signals/889633ba-63ad-4d96-8d32-4bee8b4f7397/signal.json","source_url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","title":"Extract text from documents and images with Datalab Marker and OCR","summary":"Replicate published a writing signal. onlylabs watches public writing for research themes, product direction, and model-launch context.","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2025-10-21T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date","evidence_coverage":{"target_pages":1,"captured_pages":1,"readable_pages":1,"capture_methods":["plain"],"missing_page_urls":[],"failed_page_urls":[],"blocked_page_urls":[],"page_urls":["https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing"]},"facets":{},"traction":{"github_stars":null,"hn_points":null,"hn_comments":null,"hn_story_id":null,"hf_downloads":null,"hf_likes":null},"data_radar":null},"primary_evidence_page":{"url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","final_url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","title":"Extract text from documents and images with Datalab Marker and OCR","http_status":200,"content_type":"text/html; charset=utf-8","capture_method":"plain","fetched_at":"2026-06-07T21:15:37.241402+00:00","bytes":34838,"raw_path":"b81ecb65391af219d4f58f1a998528d527f41c4ca783facc60b1a5312c456154.html","content_hash":"044d374d9a0f00932a87477e081aba35402796c037e3254ad91f34502faf679e","excerpt_chars":1200,"truncated":true,"excerpt":"Extract text from documents and images with Datalab Marker and OCR – Replicate blog Replicate Blog Extract text from documents and images with Datalab Marker and OCR Posted October 21, 2025 by andreasjansson Datalab ’s state-of-the-art document parsing and text extraction models are now on Replicate. Marker turns PDF, DOCX, PPTX, images (and more!) into markdown or JSON. It formats tables, math, and code, extracts images, and can pull specific fields when you pass a JSON Schema. OCR detects text in ninety languages from images and documents, and returns reading order and table grids. The Marker model is based on the popular open source Marker project (29k Github stars) and OCR is based on Surya (19k Github stars). Run Marker and OCR on Replicate: Marker: replicate.com/datalab-to/marker OCR: replicate.com/datalab-to/ocr Run Marker Copy import replicate output = replicate.run( \"datalab-to/marker\" , input = { \"file\" : open ( \"report.pdf\" , \"rb\" ), \"mode\" : \"balanced\" , # fast / balanced / accurate \"include_metadata\" : True , # return page-level JSON metadata }, ) print (output[ \"markdown\" ][: 400 ]) Run OCR Copy import replicate output = replicate.run( \"datalab-to/ocr\" , input = {..."},"evidence_pages":[{"url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","final_url":"https://replicate.com/blog/datalab-marker-and-ocr-fast-parsing","title":"Extract text from documents and images with Datalab Marker and OCR","http_status":200,"content_type":"text/html; charset=utf-8","capture_method":"plain","fetched_at":"2026-06-07T21:15:37.241402+00:00","bytes":34838,"raw_path":"b81ecb65391af219d4f58f1a998528d527f41c4ca783facc60b1a5312c456154.html","content_hash":"044d374d9a0f00932a87477e081aba35402796c037e3254ad91f34502faf679e","excerpt_chars":1200,"truncated":true,"excerpt":"Extract text from documents and images with Datalab Marker and OCR – Replicate blog Replicate Blog Extract text from documents and images with Datalab Marker and OCR Posted October 21, 2025 by andreasjansson Datalab ’s state-of-the-art document parsing and text extraction models are now on Replicate. Marker turns PDF, DOCX, PPTX, images (and more!) into markdown or JSON. It formats tables, math, and code, extracts images, and can pull specific fields when you pass a JSON Schema. OCR detects text in ninety languages from images and documents, and returns reading order and table grids. The Marker model is based on the popular open source Marker project (29k Github stars) and OCR is based on Surya (19k Github stars). Run Marker and OCR on Replicate: Marker: replicate.com/datalab-to/marker OCR: replicate.com/datalab-to/ocr Run Marker Copy import replicate output = replicate.run( \"datalab-to/marker\" , input = { \"file\" : open ( \"report.pdf\" , \"rb\" ), \"mode\" : \"balanced\" , # fast / balanced / accurate \"include_metadata\" : True , # return page-level JSON metadata }, ) print (output[ \"markdown\" ][: 400 ]) Run OCR Copy import replicate output = replicate.run( \"datalab-to/ocr\" , input = {..."}],"related_signals":[{"id":"d6e8d53e-0828-4603-8c02-de9ddc8bb0f3","url":"https://onlylabs.fyi/signals/d6e8d53e-0828-4603-8c02-de9ddc8bb0f3","source_url":"https://replicate.com/blog/grok-imagine","title":"How to prompt Grok Imagine Video 1.5","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2026-05-21T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date"},{"id":"0e34b741-f8ae-4be3-ad69-15d851d6d977","url":"https://onlylabs.fyi/signals/0e34b741-f8ae-4be3-ad69-15d851d6d977","source_url":"https://replicate.com/blog/seedance-2","title":"How to make remarkable videos with Seedance 2.0","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2026-04-15T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date"},{"id":"0e40f2b5-8bdf-4299-a1a4-2d6775485512","url":"https://onlylabs.fyi/signals/0e40f2b5-8bdf-4299-a1a4-2d6775485512","source_url":"https://replicate.com/blog/how-to-prompt-seedream-5","title":"How to prompt Seedream 5.0","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2026-02-24T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date"},{"id":"f8e5c783-40af-4053-9996-6c859024e782","url":"https://onlylabs.fyi/signals/f8e5c783-40af-4053-9996-6c859024e782","source_url":"https://replicate.com/blog/recraft-v4","title":"Recraft V4: image generation with design taste","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2026-02-18T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date"},{"id":"1e85c73e-e6ef-4abd-815f-1f3ead0721e2","url":"https://onlylabs.fyi/signals/1e85c73e-e6ef-4abd-815f-1f3ead0721e2","source_url":"https://replicate.com/blog/isaac-01","title":"Run Isaac 0.1 on Replicate","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2025-11-26T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date"},{"id":"a9d0fd6c-269f-4086-9ca0-c8831c773577","url":"https://onlylabs.fyi/signals/a9d0fd6c-269f-4086-9ca0-c8831c773577","source_url":"https://replicate.com/blog/run-flux-2-on-replicate","title":"Run FLUX.2 on Replicate","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"replicate","name":"Replicate","category":"neocloud"},"occurred_at":"2025-11-25T00:00:00+00:00","first_seen_at":"2026-06-05T22:32:10.415923+00:00","date_source":"rss.item_date"}]}