ក្រុមហ៊ុន POMA AI ទទួលបានការបែងចែក RAG និងការចូលទិន្នន័យឯកសារល្អបំផុតក្នុងប្រភេទដោយកាត់បន្ថយតូកែន 77% បើធៀបនឹងម៉ូឌែលប្រពៃណី

(SeaPRwire) –   ការបែងចែកជាគั้นបណ្តាលដ៏ឆ្លាតវៃគឺជាការរៀបចំទិន្នន័យល្អប្រសើរបំផុតសម្រាប់ការបង្កប់ទិន្នន័យវ៉ិចទ័រ

ប៊ែកឡាំង, ប៊ែកឡាំង, ខែមីនា 16, 2026 — POMA AI, ក្រុមហ៊ុនចេះដឹងអំពីឯកសារមានមូលដ្ឋាននៅប៊ែកឡាំង, បានចេញផ្សាយ POMA-OfficeQA ថ្ងៃនេះ, ជាតារាងប្រមាណប្រភពបើកដែលបង្ហាញថាការបែងចែកឯកសារដែលគិតពីរចនាសម្ព័ន្ធរបស់វាបន្ថយថ្លៃដើមការស្វែងរក RAG ដាច់ខាត 77% បើប្រៀបធៀបទៅនឹងទាំងការបំបែកអត្ថបទដ៏អភិជន និងវិធីសាស្រ្តដึงយកធាតុរបស់ Unstructured.io.

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

ដោយគ្មានការកែប្រែ, POMA PrimeCut ប្រើតូក്കែនតិចជាង 77% បើប្រៀបធៀបទៅនឹងម៉ូដែលធម្មតា. ចំនួននេះកើនដល់ 83% នៅពេលប្រើក្នុងការកំណត់តម្រូវការផ្ទាល់ខ្លួន.

« ប្រព័ន្ធ RAG ទាំងអស់ដែលកំពុងដំណើរការសព្វថ្ងៃបាត់បង់ព័ត៌មានមុនពេលម៉ូដែលនោះឃើញវាទេ » ថ្លែងប្រសាសន៍ដោយវេជ្ជបណ្ឌិត Alexander Kihm, ស្ថាបនិក និង នាយកប្រតិបត្តិរបស់ POMA AI. « ឧស្សាហកម្មបានព្យាយាមកែលម្អ embeddings, rerankers, និងវិស្វកម្មប្រپر័ន្ធប៉ុន្តែស្រទាប់ ingestion គឺជាកន្លែងដែលការបរាជ័យក្នុងការស្វែងរកកើតឡើងភាគច្រើន. ទារាងប្រមាណនេះកំណត់តម្លៃនូវអ្វីដែលអ្នកអនុវត្តបានយល់ដោយស្របចិត្ត: ការបែងចែកដែលគិតពីរចនាសម្ព័ន្ធគឺជាមូលដ្ឋានដែលធ្វើឱ្យអ្វីៗទាំងអស់ក្រោមនេះដំណើរការបានពិតប្រាកដ ».

ទារាងប្រមាណពេញលេញ ដែលអាចរកបាននៅលើ GitHub បានសាកល្បងរចនាសម្ព័ន្ធបែងចែកឯកសារចំនួន 3 សម្រាប់ Retrieval-Augmented Generation (RAG) ដោយប្រើ embeddings ជាមួយគ្នា, ឡូជីខណ្ឌស្វែងរកជាមួយគ្នា, និងសំណួរស្វែងរកតារាងចំនួន 20 ឆ្លងកាត់ 14 U.S. Treasury Bulletins (~2,150 ទំព័រ). ការសាកល្បងបានវាស់សមត្ថភាពនៃវិធីសាស្រ្តនីមួយៗក្នុងការស្វែងរកភ័ស្តុតាងទាំងអស់ដែលចាំបាច់ដើម្បីឆ្លើយតបសំណួរដែលមានអត្ថន័យត្រឹមត្រូវ ជាមួយនឹងម៉ែត្រិក (context recall) ដែលបញ្ជាក់ថ្លៃដើមតូក്കែនអប្បបរមា ដែលប្រព័ន្ធស្វែងរកត្រូវការដើម្បីធានាថាភ័ស្តុតាងទាំងអស់មានវានៅក្នុងបរិយាកាសដែលត្រូវបានស្វែងរក.

លទ្ធផលបានបង្ហាញថាការបែងចែកជាគั้นបណ្តាលរបស់ POMA ដែលរក្សារចនាសម្ព័ន្ធនៃឯកសាររួមទាំងหัวតារាង, ជឿងជាតិផ្នែក, និងទំនាក់ទំនងសេម៉ាង់រវាងធាតុមាតិកា—ត្រូវការតូក്കែនតិចជាង 77% ដើម្បីសម្រេចបាន 100% ការចងចាំបរិយាកាស:

  • Baseline (ការបែងចែកអភិជនជាមួយ 500 ទូកែន, ការត្រួតលើ 100): 1.45 លាន
  • Unstructured.io (ការដึงយកធាតុ: 1.48 លាន
  • POMA AI (ដែលគិតពីរចនាសម្ព័ន្ធ): 340 ពាន់

វិធីសាស្រ្តទាំងអស់ប្រើម៉ូដែល text-embedding-3-large របស់ OpenAI សម្រាប់ embeddings និង cosine similarity សម្រាប់ការរៀបចំការស្វែងរក. សេចក្តីពិតមូលដ្ឋានត្រូវបានបង្កើតឡើងដោយប្រើលេខសម្គាល់ chunk ពិតប្រាកដដែលត្រូវបានផ្ទៀងផ្ទាត់ទៅនឹងឯកសារប្រភព — ដកចេញការវិជ្ជមានមិនត្រឹមត្រូវពីការផ្គូផ្គងលេខដោយចៃដន្យ. មានតែសំណួរដែលអាចឆ្លើយតបបានដោយវិធីសាស្រ្តទាំងបីប៉ុណ្ណោះដែលត្រូវបានបញ្ចូល ដើម្បីធានាប្រៀបធៀបយុត្តិធម៌. សំណួរដែលវិធីសាស្រ្តណាមួយមានការបរាជ័យក្នុងការដึงយក (កំហុស OCR, ព மதអក្សរសប្បាយ) ត្រូវបានដកចេញ.

« អ្វីដែលបញ្ចុះបញ្ចូលយើងអំពី POMA គឺជាការក្រាហ្វតនៃវិស្វកម្មនៅពីក្រោយការយល់ដែលសាមញ្ញប៉ុន្តែមានពីរជម្រើស » ថ្លែងប្រសាសន៍ដោយ Till Faida, ស្ថាបនិករបស់ AdBlock, ជាអ្នកវិនិយោគ និងអនុប្រឹក្សារបស់ POMA AI. « ពួកគេបានស្វែងរកស្រទាប់ ingestion ដែលជាផ្នែកមួយនៃផ្លូវដែលមọiคนសន្មតថាជាបញ្ហាដែលបានដោះស្រាយរួចហើយ. ទារាងប្រមាណនេះបង្ហាញថាវាមិនមែនដូច្នោះទេ. ការបន្ថយតូក്കែន 77% ប្តូរសេដ្ឋកិច្ចនៃការដំណើរការ RAG នៅកម្រិតសហគ្រាស. នោះជាគុណសម្បត្តិរចនាសម្ព័ន្ធដែលយើងកំពុងស្វែងរក ».

អំពី POMA AI: POMA AI គឺជាក្រុមហ៊ុនចេះដឹងអំពីឯកសារមានមូលដ្ឋាននៅប៊ែកឡាំងដែលកសាងរចនាសម្ព័ន្ធសម្រាប់ប្រព័ន្ធ RAG សហគ្រាស. បច្ចេកវិជ្ជាមូលដ្ឋានរបស់វាផ្លាស់ប្តូរឯកសារស្មុគស្មាញទៅជា chunk ដែលសមហេតុសមផលក្នុងន័យសំខាន់ដែលរួចរាល់សម្រាប់ការស្វែងរកវ៉ិចទ័រ និងការប្រើប្រាស់ LLM. API របស់ POMA ឆែកម្មវិធីឯកសារក្នុងការហៅតែមួយ និងផ្តល់ទិន្នន័យទាំង chunk ជ粒细胞 និង chunksets ដែលត្រូវបានក្រុមប្រមូល起来 ដែលត្រូវគ្នាជាមួយនឹងម៉ូដែល embedding និង vector store ណាមួយ. ការសាកល្បងឥតគិតថ្លៃអាចរកបាននៅលើគេហទំព័ររបស់ POMA AI. ព័ត៌មានបន្ថែមអំពី POMA AI អាចរកបាននៅលើ LinkedIn ឬ X (Twitter).

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

embeddings ដែលគិតពីរចនាសម្ព័ន្ធរបស់ POMA PrimeCut បានបង្ហាញការកែលម្អ 119 ដងទៅនឹង embeddings ដែលមានតែបរិយាកាសប៉ុណ្ណោះ.

សំណួរពីសារព័ត៌មាន

Florian Athens
fa [at] poma-ai.com
https://poma-ai.com

អត្ថបទនេះត្រូវបានផ្តល់ជូនដោយអ្នកផ្គត់ផ្គង់មាតិកាដែលទីបញ្ចូល។ SeaPRwire (https://www.seaprwire.com/) មិនមានការធានា ឬ បញ្ចេញកំណត់ណាមួយ។

ប្រភេទ: ព័ត៌មានប្រចាំថ្ងៃ, ព័ត៌មានសំខាន់

SeaPRwire ផ្តល់សេវាកម្មផ្សាយពាណិជ្ជកម្មសារព័ត៌មានសកលសម្រាប់ក្រុមហ៊ុន និងស្ថាប័ន ដែលមានការចូលដំណើរការនៅលើបណ្ដាញមេឌៀជាង 6,500 បណ្ដាញ ប័ណ្ណប្រតិភូ 86,000 និងអ្នកសារព័ត៌មានជាង 350 លាន។ SeaPRwire គាំទ្រការផ្សាយពាណិជ្ជកម្មជាសារព័ត៌មានជាភាសាអង់គ្លេស ជប៉ុន ហ្រ្វាំង គូរី ហ្វ្រេនច រ៉ុស អ៊ីនដូនេស៊ី ម៉ាឡេស៊ី វៀតណាម ចិន និងភាសាផ្សេងទៀត។