海量小文件内容管理解决方案

1. 背景

随着现代信息化技术的飞速发展,互联网及企业内部数据也在迅猛剧增,数据规模越来越大;其数据类型也多种多样,大致分为结构化数据、半结构化数据、准结构化数据、非结构化数据等类型,据统计,大部分企业内部非结构化数据和半结构化数据占该企业所有数据总量的80%-85%,其中大部分为文档、文本、图片、网页文件等小文件,这些小文件蕴含着巨大的价值,迫使企业对这些小文件进行收集、整理、清洗、抽取、存储、检索、挖掘等全生命周期的管理和深度利用。

传统企业对小文件的管理大多没有集中管理,仅零散存放在关系型数据库和文件系统中,其中关系型数据库存放非结构化数据的描述信息,而系统存放非结构化数据的原始文件;或直接以通过部署文档服务器来来企业重要文档文件存放在企业内部服务器中,无法对这些文件在文件内容层面上进行管理和挖掘分析。

2. 面临问题

目前传统企业对文档等小文件的存储和管理,主要面临如下问题:

文档存储分散,无法将各业务系统的文档数据进行统一存放管理,产生了大量冗余数据;

文档一般存储在企业内部系统中,无法保证跨地域访问的时效性;

文档传输一般通过传统的FTP协议等方式进行网络传输,文档权限管理和权限划分繁琐;

无法基于文档内容进行有效的管理和挖掘分析,无法形成行业化文档知识库;

业务系统关系型数据库在处理大数据量查询和检索时系统效率低下,同时无法对文档数据进行实时的全文检索;

对于日益增长的文档数据,管理难度越来越大,系统扩展性也越来越差。

3. 解决方案

赛思股份公司针对目前企业对文档管理和使用上的痛点,自主研发出了海量文件内容管理系统dataFusion,可以很好的解决这一难题。海量文件内容管理系统主要提供文档管理、文档预处理、全文检索、分享协同、安全/版权、流程管理等功能,实现了对非结构化数据管理和智能化应用。该系统还提供灵活的文档分类管理功能,支持用户自定义组织方式,允许用户按照部门、主题等多个纬度来组织文档;支持灵活的文档共享,比如支持部门内和部门间的文档共享,而且支持基于项目、主题的共享协作。

赛思海量文件内容管理系统在应用上支持用户结合其业务需求进行二次开发,建立行业化文档管理系统,例如电子档案管理系统;另外基于该平台也提供了一些业务应用系统,例如媒资管理系统。该系统可应用到以下领域,如:图书馆、专利局、高校网盘、情报分析和综合利用等。

赛思海量文档内容管理系统适用于针对海量(亿级以上)结构化/半结构化文档内容进行管理和智能化使用的场景,例如云盘、企业文档管理等,可提供收集、整理、清洗、抽取、存储、索引、共享、检索、标注、挖掘等功能。下图为该产品架构:

4. 方案特点

赛思小文件内容管理上主要特点如下:

海量文件高效管理。系统支持PB级、亿级以上的海量文件管理,支持高并发的文件写入和访问,并支持跨多数据中心的文件管理和访问;

全生命周期的文件管理。系统支持对文件进行收集、整理、清洗、抽取、存储、索引、共享、检索、标注、挖掘等全生命周期管理和深度利用;

基于文件内容的智能化管理。系统具备基于文件属性、内容的关键字查询、关联查询、联想查询等智能化全文检索能力,具备内容分类、情感分析等智能化内容分析挖掘能力;

强大的异构文件预处理能力。支持对WORD、PDF、Excel、RAR、ZIP、邮件、传真、图片、音频、视频等多种异构文件进行预处理;

数据可靠安全保护。提供了集群内多副本、跨集群数据灾备的数据可靠性保护机制,具备权限访问控制、敏感文档加密等安全保护功能,支持文件版权保护;

灵活的访问。用户可以随时、随地、利用多种设备接入系统访问文件,支持文件协同共享以及流程化管理访问。系统还提供了标准化接口给第三方开发。

总部电话:86-010-82270056   传真:86-010-82075018

总部地址:北京市朝阳区霞光里8号承冀诚大厦二层

南京地址:南京市江宁区将军大道迎翠路7号中关村产业园301室      

精品课程

企业服务

合作培训机构

关于赛思信安

招贤纳士

联系我们