大数据数字化出版解决方案

1. 行业背景

互联网发展、大数据的到来导致传统书店面临尴尬局面。随着当当、京东、卓越亚马逊、苏宁易购等网络书店的迅速崛起,无论是国有新华书店,还是众多民营书店,都面临着日益式微的尴尬局面,这对出版行业来说无疑是一次巨大挑战。面对这种局面,传统出版社积极寻找突破口,随着政府大力推动出版数字化的发展,越来越多的出版社有意选择由传统模式向数字化模式转换的商业手段,但是对于如何设计适合自身资源状况、发展模式及未来规划的数字化出版方案,仍是出版社面临的一个待解决问题。

2. 存在问题

目前,出版行业正面临着一些问题:

2.1 数字化程度低

我国出版业和国际出版业一样,处在数字技术应用的初始阶段,而我国在数字技术应用上,远远落后于国际出版业的主流导向,这对全社会的信息化、数字化建设产生了极大的负面影响,出版数字化问题亟需解决。

2.2 由于出版资源的多样化,使得数据整合能力较差

随着大数据的迅猛发展,数据资源的形式也是多种多样,多数以非结构化形式出现,传统出版业处理数据的方式已经不能或不可高效解决数据处理问题,包括数据的采集、格式转换及最终的资源整合。

2.3 出版资源的海量增长,使得对于数据存储效率不高,资源检索不便利,检索效率低

信息大爆炸,出版资源的规模也是以极大的速度增长,对于这些海量资源的存储及检索变得尤为重要,而传统出版业对海量资源优化存储和高效检索变得越来越困难。

2.4 出版资源系统的应用推广方式有待改善

对于出版社的出版资源而言,由于资源量大,格式多样,业务流程复杂,其系统更新、再开发及应用推广具有一定的难度。

以文化创意为根基的出版行业,内容成就一切,而真正能够流传下来的也正是内容本身。所以如何解决出版业目前面临的问题,夯实文化创意的根基,实现出版业数字化转型刻不容缓。

3. 解决方案

赛思针对出版行业面临问题,设计出“数字化出版资源中心”解决方案,方案设计出版资源数字化、数媒资源管理、数媒资源推广三个主要功能模块,包括传统出版资源的数字化,多样式数据的采集、自定义加工处理,海量数据的存储及高效检索、出版资源的版权控制及加密发布,数媒资源系统多元化推广等。方案利用赛思自主研发的FileFusion海量文件内容管理系统,iSwapper数据集成系统等自有产品核心技术,构建“数字化出版资源中心”解决方案,完成出版资源数字化、高效管理的目标。

赛思数字化出版资源中心的逻辑架构图,如下图所示。

出版资源数字化模块:系统提供出版资源的镜像功能,包括镜像成果的授权与分布控制,保证传统出版资源的数字化转变;利用赛思iSwapper的核心技术,对多样式、海量出版资源进行采集、文字识别、文字校对,格式转换、链接制作、任务分配、元数据标引、目录制作、分类、数据审核等形成CEB、pdf、txt等适合网络阅读的各类数字资源产品。

数媒资源管理模块:利用赛思FileFusion对PB级容量、亿级数量的出版资源进行差异化存储和跨地域管理,包括高效的加载和读取性能;敏感信息加密;支持多种格式数据的基于内容的检索及智能分析,包括分组、排序以及聚合等等,具有一定的横向扩展能力;对于某些核心资源进行授权管理,使资源安全性得到保障。该模块是数字出版企业资源域的核心,也是企业的数字资产存储、组织管理与应用中心。

数媒资源推广模块:通过FileFusion的核心技术,对出版资源进行挖掘分析,为用户提供高效的数据服务、资源服务、流程服务等,有效支撑多元应用推广,真正实现出版业的网络化运营。

4. 方案特点

赛思数字化出版资源中心可以为出版社实现如下优化效果:

对传统纸质出版资源进行数字化转换,完成出版社的数字化程度的提升,与国际数字出版接轨;

海量结构化和非结构化数媒资源的分布式存储与集中管理;对数媒资源的多类型、高效率、跨信息源的智能检索功能;

数据服务、资源服务、流程服务的多元化应用推广,便于系统应用的定制化再开发。

赛思数字化出版资源中心可以使出版社实现出版数字化的高效转换,让数媒资源更大程度的发挥自身价值,方便出版社内部对海量资源的高效管理与利用,社会对数媒资源的访问与应用,让出版社的服务能力更加强大,为自身,乃至全社会提供不受时间、空间限制的社会化、集约化、专业化的数媒资源共享服务。

总部电话:86-010-82270056   传真:86-010-82075018

总部地址:北京市朝阳区霞光里8号承冀诚大厦二层

 

关于赛思信安

招贤纳士

联系我们