{"schema_version":"onlylabs.public_signal.v1","title":"OpenAI Writing: Evaluating large language models trained on code","description":"OpenAI writing signal with public source context, captured evidence pages, related signals, and data-business radar classification.","url":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305","json_url":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305/signal.json","generated_at":"2026-06-08T15:46:51.686+00:00","org":{"slug":"openai","name":"OpenAI","category":"frontier-lab","category_label":"Frontier lab","dossier_url":"https://onlylabs.fyi/labs/openai","dossier_json_url":"https://onlylabs.fyi/labs/openai/dossier.json"},"related_urls":{"signal":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305","signal_json":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305/signal.json","source":"https://openai.com/index/evaluating-large-language-models-trained-on-code","lab_dossier":"https://onlylabs.fyi/labs/openai","lab_dossier_json":"https://onlylabs.fyi/labs/openai/dossier.json","analysis":"https://onlylabs.fyi/analysis/openai","analysis_json":"https://onlylabs.fyi/analysis/openai/analysis.json","analysis_evidence_json":"https://onlylabs.fyi/analysis/openai/evidence.json","category":"https://onlylabs.fyi/frontier","category_json":"https://onlylabs.fyi/frontier.json","category_feed":"https://onlylabs.fyi/frontier/feed.xml","category_signals_json":"https://onlylabs.fyi/signals.json","topic":"https://onlylabs.fyi/topics/talking","topic_signals_json":"https://onlylabs.fyi/topics/talking/signals.json","topic_feed":"https://onlylabs.fyi/topics/talking/feed.xml","data_business":{"radar":"https://onlylabs.fyi/data-radar","radar_json":"https://onlylabs.fyi/data-radar.json","opportunities":"https://onlylabs.fyi/opportunities","opportunities_json":"https://onlylabs.fyi/opportunities.json","lanes":[{"key":"evals","label":"Evals and quality","url":"https://onlylabs.fyi/data-radar/evals","json_url":"https://onlylabs.fyi/data-radar/evals/signals.json"}]}},"answer_pack":{"answer":"OpenAI published Evaluating large language models trained on code. This talking signal gives public context for research themes, product direction, policy, or launch framing. High-signal details: Evaluating large language models trained on code | OpenAI July 7, 2021 Evaluating large language models trained on code Read paper Read blog Loading… Share Update on May.... onlylabs links this event to 1 captured evidence page and 6 related writing signals. It also maps to Evals and quality in the data-business radar.","signal_desk":"talking","source_context":{"source_url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","source_host":"openai.com","occurred_at":"2021-07-07T07:00:00+00:00","first_seen_at":"2026-06-05T05:42:57.832854+00:00","date_source":"rss.item_date","context":null},"context_markers":[{"label":"Lab","value":"OpenAI","source":"signal"},{"label":"Signal desk","value":"talking","source":"signal"},{"label":"Source host","value":"openai.com","source":"source"},{"label":"Radar lane","value":"Evals and quality","source":"radar"},{"label":"Matched term","value":"eval","source":"radar"},{"label":"Watch term","value":"Eval methodology","source":"evidence"},{"label":"Watch term","value":"Safety and alignment","source":"evidence"},{"label":"Watch term","value":"Agents and tool use","source":"evidence"}],"evidence_coverage":{"target_pages":1,"captured_pages":1,"readable_pages":1,"capture_methods":["exa"],"missing_page_urls":[],"failed_page_urls":[],"blocked_page_urls":[],"page_urls":["https://openai.com/index/evaluating-large-language-models-trained-on-code"],"related_signals":6,"has_source_url":true,"latest_page_fetched_at":"2026-06-08T15:46:51.686+00:00"},"data_business":{"matches":true,"lanes":[{"key":"evals","label":"Evals and quality","url":"https://onlylabs.fyi/data-radar/evals","json_url":"https://onlylabs.fyi/data-radar/evals/signals.json"}],"matched_terms":["eval"],"score":13,"reason":"OpenAI has a writing signal matching evals and quality."},"agent_handoff":{"signal_json":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305/signal.json","dossier_json":"https://onlylabs.fyi/labs/openai/dossier.json","analysis_json":"https://onlylabs.fyi/analysis/openai/analysis.json","analysis_evidence_json":"https://onlylabs.fyi/analysis/openai/evidence.json","topic_signals_json":"https://onlylabs.fyi/topics/talking/signals.json","topic_feed":"https://onlylabs.fyi/topics/talking/feed.xml","category_signals_json":"https://onlylabs.fyi/signals.json","data_radar_json":"https://onlylabs.fyi/data-radar.json","opportunities_json":"https://onlylabs.fyi/opportunities.json"},"analysis_playbook":{"objective":"Turn public writing and discussion into a readable map of research themes, product framing, policy posture, launch narratives, and market attention.","evidence_focus":["post title","source URL","captured page text","HN traction","linked model or paper references","publication date"],"extraction_questions":["Which themes are labs choosing to explain publicly?","Which posts are attracting outside discussion?","Which writing reframes a recent release, model, hiring wave, or policy stance?","Which posts mention data, evals, infrastructure, safety, or deployment workflows?"],"signal_questions":["What public theme, launch framing, or research direction does this writing signal expose?","Which themes are labs choosing to explain publicly?","Which posts are attracting outside discussion?","Which data-business lane explains this signal: Evals and quality?","Do the 6 related writing signals show a repeated pattern?"],"output_fields":["org","theme","public_framing","traction","data_business_lane","evidence_url"],"data_business_relevance":"Public writing supplies the narrative layer over raw signals and helps identify which frontier-lab priorities are becoming externally legible.","required_sources":[{"label":"signal_json","url":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305/signal.json","required":true},{"label":"source","url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","required":true},{"label":"dossier_json","url":"https://onlylabs.fyi/labs/openai/dossier.json","required":true},{"label":"analysis_evidence_json","url":"https://onlylabs.fyi/analysis/openai/evidence.json","required":true},{"label":"topic_signals_json","url":"https://onlylabs.fyi/topics/talking/signals.json","required":false},{"label":"data_radar_json","url":"https://onlylabs.fyi/data-radar.json","required":true}],"expected_output":["one-paragraph source-grounded interpretation","data-business implication","confidence and missing evidence","recommended next source to inspect"],"prompt_seed":"Using only the linked onlylabs JSON, captured source context, and cited evidence, analyze OpenAI's writing signal \"Evaluating large language models trained on code\" for frontier lab strategy and data-business implications."},"semantic_triples":[{"subject":"OpenAI","predicate":"published","object":"Evaluating large language models trained on code","text":"OpenAI published Evaluating large language models trained on code."},{"subject":"Evaluating large language models trained on code","predicate":"is classified as","object":"writing signal","text":"Evaluating large language models trained on code is classified as writing signal."},{"subject":"Evaluating large language models trained on code","predicate":"belongs to","object":"talking desk","text":"Evaluating large language models trained on code belongs to talking desk."},{"subject":"Evaluating large language models trained on code","predicate":"has evidence coverage","object":"1 captured evidence page","text":"Evaluating large language models trained on code has evidence coverage 1 captured evidence page."},{"subject":"Evaluating large language models trained on code","predicate":"matches data-business lanes","object":"Evals and quality","text":"Evaluating large language models trained on code matches data-business lanes Evals and quality."},{"subject":"Evaluating large language models trained on code","predicate":"has captured page count","object":"1","text":"Evaluating large language models trained on code has captured page count 1."},{"subject":"Evaluating large language models trained on code","predicate":"has readable page count","object":"1","text":"Evaluating large language models trained on code has readable page count 1."},{"subject":"Evaluating large language models trained on code","predicate":"has related signal count","object":"6","text":"Evaluating large language models trained on code has related signal count 6."},{"subject":"Evaluating large language models trained on code","predicate":"has analysis playbook objective","object":"Turn public writing and discussion into a readable map of research themes, product framing, policy posture, launch narratives, and market attention.","text":"Evaluating large language models trained on code has analysis playbook objective Turn public writing and discussion into a readable map of research themes, product framing, policy posture, launch narratives, and market attention.."},{"subject":"Evaluating large language models trained on code","predicate":"has source host","object":"openai.com","text":"Evaluating large language models trained on code has source host openai.com."},{"subject":"Evaluating large language models trained on code","predicate":"has lab","object":"OpenAI","text":"Evaluating large language models trained on code has lab OpenAI."},{"subject":"Evaluating large language models trained on code","predicate":"has signal desk","object":"talking","text":"Evaluating large language models trained on code has signal desk talking."},{"subject":"Evaluating large language models trained on code","predicate":"has source host","object":"openai.com","text":"Evaluating large language models trained on code has source host openai.com."},{"subject":"Evaluating large language models trained on code","predicate":"has radar lane","object":"Evals and quality","text":"Evaluating large language models trained on code has radar lane Evals and quality."},{"subject":"Evaluating large language models trained on code","predicate":"has matched term","object":"eval","text":"Evaluating large language models trained on code has matched term eval."},{"subject":"Evaluating large language models trained on code","predicate":"has watch term","object":"Eval methodology","text":"Evaluating large language models trained on code has watch term Eval methodology."},{"subject":"Evaluating large language models trained on code","predicate":"has watch term","object":"Safety and alignment","text":"Evaluating large language models trained on code has watch term Safety and alignment."},{"subject":"Evaluating large language models trained on code","predicate":"has watch term","object":"Agents and tool use","text":"Evaluating large language models trained on code has watch term Agents and tool use."}]},"intelligence":{"signal_desk":"talking","answer":"OpenAI published Evaluating large language models trained on code. This talking signal gives public context for research themes, product direction, policy, or launch framing. High-signal details: Evaluating large language models trained on code | OpenAI July 7, 2021 Evaluating large language models trained on code Read paper Read blog Loading… Share Update on May.... onlylabs links this event to 1 captured evidence page and 6 related writing signals. It also maps to Evals and quality in the data-business radar.","semantic_triples":[{"subject":"OpenAI","predicate":"published","object":"Evaluating large language models trained on code","text":"OpenAI published Evaluating large language models trained on code."},{"subject":"Evaluating large language models trained on code","predicate":"is classified as","object":"writing signal","text":"Evaluating large language models trained on code is classified as writing signal."},{"subject":"Evaluating large language models trained on code","predicate":"belongs to","object":"talking desk","text":"Evaluating large language models trained on code belongs to talking desk."},{"subject":"Evaluating large language models trained on code","predicate":"has evidence coverage","object":"1 captured evidence page","text":"Evaluating large language models trained on code has evidence coverage 1 captured evidence page."},{"subject":"Evaluating large language models trained on code","predicate":"matches data-business lanes","object":"Evals and quality","text":"Evaluating large language models trained on code matches data-business lanes Evals and quality."}]},"signal":{"id":"d3e323ea-5b28-49ef-bf5a-f07ec3774305","url":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305","json_url":"https://onlylabs.fyi/signals/d3e323ea-5b28-49ef-bf5a-f07ec3774305/signal.json","source_url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","title":"Evaluating large language models trained on code","summary":"OpenAI published a writing signal. onlylabs watches public writing for research themes, product direction, and model-launch context.","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2021-07-07T07:00:00+00:00","first_seen_at":"2026-06-05T05:42:57.832854+00:00","date_source":"rss.item_date","evidence_coverage":{"target_pages":1,"captured_pages":1,"readable_pages":1,"capture_methods":["exa"],"missing_page_urls":[],"failed_page_urls":[],"blocked_page_urls":[],"page_urls":["https://openai.com/index/evaluating-large-language-models-trained-on-code"]},"facets":{},"traction":{"github_stars":null,"hn_points":null,"hn_comments":null,"hn_story_id":null,"hf_downloads":null,"hf_likes":null},"data_radar":{"lanes":[{"key":"evals","label":"Evals and quality","url":"https://onlylabs.fyi/data-radar/evals"}],"score":13,"matched_terms":["eval"],"reason":"OpenAI has a writing signal matching evals and quality."}},"primary_evidence_page":{"url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","final_url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","title":"Evaluating large language models trained on code","http_status":200,"content_type":null,"capture_method":"exa","fetched_at":"2026-06-08T15:46:51.686+00:00","bytes":null,"raw_path":null,"content_hash":null,"excerpt_chars":1200,"truncated":true,"excerpt":"Evaluating large language models trained on code | OpenAI July 7, 2021 Evaluating large language models trained on code Read paper Read blog Loading… Share Update on May 16, 2025: We launched Codex, a cloud-based software engineering agent that can work on many tasks in parallel. Learn more⁠. --- Abstract We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub Copilot. On HumanEval, a new evaluation set we release to measure functional correctness for synthesizing programs from docstrings, our model solves 28.8% of the problems, while GPT‑3 solves 0% and GPT‑J solves 11.4%. Furthermore, we find that repeated sampling from the model is a surprisingly effective strategy for producing working solutions to difficult prompts. Using this method, we solve 70.2% of our problems with 100 samples per problem. Careful investigation of our model reveals its limitations, including difficulty with docstrings describing long chains of operations and with binding operations to variables. Finally, we discuss the potential broader impacts of deploying powerful..."},"evidence_pages":[{"url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","final_url":"https://openai.com/index/evaluating-large-language-models-trained-on-code","title":"Evaluating large language models trained on code","http_status":200,"content_type":null,"capture_method":"exa","fetched_at":"2026-06-08T15:46:51.686+00:00","bytes":null,"raw_path":null,"content_hash":null,"excerpt_chars":1200,"truncated":true,"excerpt":"Evaluating large language models trained on code | OpenAI July 7, 2021 Evaluating large language models trained on code Read paper Read blog Loading… Share Update on May 16, 2025: We launched Codex, a cloud-based software engineering agent that can work on many tasks in parallel. Learn more⁠. --- Abstract We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub Copilot. On HumanEval, a new evaluation set we release to measure functional correctness for synthesizing programs from docstrings, our model solves 28.8% of the problems, while GPT‑3 solves 0% and GPT‑J solves 11.4%. Furthermore, we find that repeated sampling from the model is a surprisingly effective strategy for producing working solutions to difficult prompts. Using this method, we solve 70.2% of our problems with 100 samples per problem. Careful investigation of our model reveals its limitations, including difficulty with docstrings describing long chains of operations and with binding operations to variables. Finally, we discuss the potential broader impacts of deploying powerful..."}],"related_signals":[{"id":"b3668d3b-26d2-40c0-9d4f-ed1a67927aa4","url":"https://onlylabs.fyi/signals/b3668d3b-26d2-40c0-9d4f-ed1a67927aa4","source_url":"https://openai.com/index/supporting-eu-trustworthy-ai-ecosystem","title":"Supporting Europe’s work in ensuring a trustworthy AI ecosystem ","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2026-06-11T00:00:00+00:00","first_seen_at":"2026-06-11T08:00:56.140796+00:00","date_source":"rss.item_date"},{"id":"2638c0a7-b372-409c-ac72-f6d81d6464dc","url":"https://onlylabs.fyi/signals/2638c0a7-b372-409c-ac72-f6d81d6464dc","source_url":"https://openai.com/index/using-codex-to-simulate-black-holes","title":"How an astrophysicist uses Codex to help simulate black holes","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2026-06-11T00:00:00+00:00","first_seen_at":"2026-06-11T07:01:16.936464+00:00","date_source":"rss.item_date"},{"id":"509ea784-51ec-4ede-855b-5a4d1b27d3be","url":"https://onlylabs.fyi/signals/509ea784-51ec-4ede-855b-5a4d1b27d3be","source_url":"https://openai.com/index/openai-on-oracle-cloud","title":"Access OpenAI models and Codex through your Oracle cloud commitment","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2026-06-10T20:00:00+00:00","first_seen_at":"2026-06-11T07:01:16.936464+00:00","date_source":"rss.item_date"},{"id":"4f051449-87f2-466e-941e-b5918381a8fe","url":"https://onlylabs.fyi/signals/4f051449-87f2-466e-941e-b5918381a8fe","source_url":"https://openai.com/index/prc-linked-influence-operations-ai-debates","title":"PRC-linked influence operations are targeting AI debates in the US","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2026-06-10T12:00:00+00:00","first_seen_at":"2026-06-11T07:01:16.936464+00:00","date_source":"rss.item_date"},{"id":"4507c0c1-cb74-4bb3-b62b-5f6c2d37e20d","url":"https://onlylabs.fyi/signals/4507c0c1-cb74-4bb3-b62b-5f6c2d37e20d","source_url":"https://openai.com/index/lseg","title":"From data to decisions: how LSEG is scaling trusted AI","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2026-06-10T00:00:00+00:00","first_seen_at":"2026-06-10T09:18:54.26094+00:00","date_source":"rss.item_date"},{"id":"fb16aa7a-c4ef-4859-b514-0839c2f1330d","url":"https://onlylabs.fyi/signals/fb16aa7a-c4ef-4859-b514-0839c2f1330d","source_url":"https://openai.com/index/nextdoor","title":"How engineers at Nextdoor use Codex to build without limits","context":null,"kind":{"key":"post_published","label":"Writing"},"org":{"slug":"openai","name":"OpenAI","category":"frontier-lab"},"occurred_at":"2026-06-09T12:00:00+00:00","first_seen_at":"2026-06-10T07:01:28.700378+00:00","date_source":"rss.item_date"}]}