Unstructured Technologies, Inc.(AKA Unstructured.io)创立于2022年,总部位于美国加州旧金山,Unstructured 开发了一个开源数据转换平台,为机器学习服务预处理自然语言数据。
Unstructured Technologies, Inc.美股百科
Unstructured Technologies开发了一个开源数据转换平台,其开源库和 API 构建了用于标记、训练或生产机器学习管道的自定义预处理管道。 通过自动转换 PDF、PPTX、HTML 文件等复杂自然语言数据信息,该公司使企业能够充分利用数据的力量来提高生产力和创新。
Unstructured Technologies的研究人员评估了多种分块技术对检索增强生成 (RAG) 架构整体性能的功效,包括按结构文档元素进行分块(可通过 Unstructured 独特的预处理管道实现)。 保持 RAG 架构中的所有变量不变(分块策略除外),Unstructured 发现整体上下文和检索的信息有了显着改进,影响了 RAG 输出的质量。 这项研究与 Greg Kamrandt 最近所做的工作一致并进行了扩展,表明基于语义相似性的分块可以提高 RAG 性能。 至关重要的是,Unstructed Technologies的方法非常高效,无需使用和调整缓慢且昂贵的法学硕士即可提供这些结果。
在RAG中,将文档分解为较小的块是一个关键的过程。在过去的一年里,大多数RAG架构都采用了更简单的技术,比如按令牌大小进行分块,这是一个次优的策略,用于将相关的上下文信息进行分组。Unstructured的预处理管道提供了通过文档元素(例如标题到标题)进行分块的新选项,以确保块只包含应考虑由LLMs检索和生成的数据,而不包括其他内容,这表明基于元素的方法展现出更广泛的适用性和对新型文档类型的适应性。
RAG架构的有效性与模型能够检索与提示相关的存储在外部数据库中的信息密切相关。随着RAG在过去一年中的广泛应用,开发人员通常将文档视为文本流,并未考虑不同类型元素之间的微妙关系,例如标题、表格和正文。然而,Unstructured 发现,通过更复杂的文档预处理,这些架构在信息检索和问答生成方面的性能得到了改善。
Unstructed 的管道利用计算机视觉和自然语言处理管道,根据文档元素的语义关系和结构重要性来识别和分类文档元素,从而将文档分解为离散的结构“文档元素”。 Unstructed 旨在通过这样做来增强检索过程,确保输入 RAG 系统的信息既相关又上下文丰富。
2023年冬,Unstructured的研究人员试图评估基于文档元素预处理数据对RAG架构中信息检索和问答任务的提升程度。评估利用了FinanceBench数据集,其中包含了一系列美国SEC财务报告文件的问题和答案。这些文件在结构上复杂不同,需要推理以获得准确的答案。不同的分块策略作为基线,将文档分块为指定令牌大小的块。从Unstructured开发的处理策略中,采用了Chipper。Chipper是一种专有的视觉编码器-解码器模型,已经在大量文档上进行了预训练。它能够有效地识别文档页面上的各种元素,并将表格转录为HTML格式。使用Chipper模型获取的元素已被用于开发基于文档元素的分块(标题至标题)策略。RAG系统由多个组件组成,包括检索与问题相关的块以及根据检索到的块生成答案。检索基于Weaviate向量数据库,答案生成使用了GPT-4。
Unstructured Technologies, Inc.融资百科
2023年7月,Unstructured Technologies, Inc.完成Bain Capital Ventures领投的种子轮融资,Green D Ventures跟投。
2023年7月,Unstructured Technologies, Inc.完成Alumni Ventures和Madrona领投的2500万美元A轮融资,Bain Capital Ventures、M12 - Microsoft's Venture Fund、Mango Capital等跟投。
2024年3月,Unstructured Technologies, Inc.完成Menlo Ventures领投的4000万美元B轮融资,Bain Capital Ventures、Madrona、Databricks Ventures、Mango Capital、NVentures等跟投。
Unstructured Technologies, Inc.美股投资
非上市公司,公司官网,等待Unstructured Technologies, Inc. IPO上市。
评论