对接概况

来自海致BDP帮助中心、帮助文档
跳转至: 导航搜索

我的数据源

数据整合是数据分析的第一步,BDP商业数据平台可以方便快捷地将你所需要的数据进行集中,轻松解决数据分散、类型不同等问题。简化了数据获取流程,节省了整合、清洗数据所花费的大量时间,使你无需再关注数据存储与管理,专注于数据分析。

BDP提供了多种灵活的方式帮你完成数据接入,从本地的数据库、Excel文件到使用第三方服务生成的数据,以及散落在网络中的公共数据,一应俱全,轻松便捷打破数据孤岛;配合上BDP的数据管理服务,让数据流转尽在掌握,一步迈入大数据时代。

BDP数据接入五步走,包含文件上传、整套直连数据源和三种同步工具:

1. 文件上传:上传本地文件进行分析,支持Excel与CSV,同时支持文件的追加、替换、下载等操作。

2. 直连数据源:最简单快捷的方式,通过平台直接连接外部数据,实现数十种数据一键对接,涵盖如百度推广的第三方服务数据、轻量级数据库连接、如天气数据的公共数据。

3. 诺亚同步客户端:本地海量数据接入解决方案,适用于本地亿级数据库及其他不易对接数据源。

4. 文件同步宝:办公文件同步工具,支持Excel与CSV,使零散文件成为数据生态中的重要一环,架起数据分析的桥梁。

5. OpenAPI:面向开发者的可编程数据推送接口,可根据所需场景自行开发数据同步程序,为愿意自行开发的用户提供便利。

Ds 数据准备 1.png

进行数据连接时,打开数据源模块,从界面右上角的“添加数据源”进入到数据源列表页,其中包含了全部BDP支持的数据连接内容,上述四种方式均可在列表中找到。进入后可利用正上方的搜索和分类导航,查找你所需要的数据源。列表前部是“热门推荐”、“最新上线”两个部分,定期更新,热门推荐是BDP根据数据源在整个平台的使用情况进行定向推荐,最新上线是最新支持的数据源内容,可帮助你发现和对接更多所需的数据。

Ds 连接数据 1.png

其中直连数据源,可在数据源列表中直接点击进去,开始添加流程。其他三个工具类产品会跳转至相应的专题页进行下载或配置。数据源同步的数据将自动出现在工作表模块的根目录中,默认文件夹名与数据源名一致。工作表中对文件夹、工作表以及字段的设置不影响数据源信息。

数据同步:连接数据的常用语,表示经过用户授权后将数据从外界环境传输至BDP,数据同步可设置自动同步,保持每日数据自动更新,部分数据源也支持人工触发同步。

Tips:BETA标识,图标带有BETA的数据源为限制性开放内容,由于第三方原因可能产品不稳定情况,BDP会持续推进第三方完善服务,稳定后会转为标准版。

开始连接

简要介绍BDP直连数据源的使用,同步工具与文件上传请转至相应章节。

直连数据源分为三种类型:

数据库&第三方数据

  1. 直接通过公网与你的数据连接,每种数据源可添加多个:
    • 数据库及在线表单:数据内容归属于用户且可以编辑修改,如服务器上的MySQL数据库、伙伴云等。
    • 第三方数据源(外部数据源):数据生成在用户与BDP之外的第三方,数据归属用户但生成在第三方,需要在第三方查看。
  2. 配置流程,通常包含以下3步中的2、3步,按照提示逐步完成即可
    1. 连接配置:与外部数据连接所必要的必要信息,不同数据源需要的配置项不同。
    2. 数据表配置:部分数据源支持设置同步至BDP的工作表,主要为数据库类。
    3. 高级配置:数据源在BDP中相关配置,数据源名称为唯一标识,设置后不可修改。
      • 标签:类似备注名,可用于数据源归类管理,支持在搜索中查询。
      • 定时同步:自动同步设置,类数据库类可自定义设置,大部分第三方服务的由于第三方限制,默认自动同步,具体同步时间由BDP设定,不再使用时可设置为停用。
      • 辅助字段:批量为其下工作表添加统一字段,常用于将数据源自身的类别属性带入到数据中用于分析,如多个同类数据源区分“移动端”、“PC”。
  3. 介绍说明:配置过程中上方为数据源的介绍和使用须知,介绍数据源接入的具体要求。配置时右侧出现的是具体配置项的使用说明,当配置过程中某个配置项无法确定时,可查看右侧帮助。

Ds 开始连接 1.png

BDP自有

已有百度实况、百度指数、BDP网站统计三种采集服务,每种只能添加一个数据源。使用方式根据不同类型进行数据源配置,形成数据采集、数据收集、数据分析完成链条的一站式服务。

公共数据

互联网中散落的各种基础数据,目前已有十几种公共数据,点击确认后完成添加,同一个数据不能重复添加。

Ds 开始连接 2.png

管理数据

添加后的数据源会出现在数据源管理中,提供了多种操作辅助用户在使用中,使用过程可随时操作数据源。数据源状态及数量会随着修改、同步即时改变。

快速查找

  1. 全局状态筛选,界面上方的将状态分为多个筛选项,如查看失败的数据源,选择“失败”状态可查看全部处于失败的数据源
  2. 类型筛选,左侧边栏可筛选已添加数据源的类型,用于快速定位,类型右侧同时会展示出该类型的数据源数量
  3. 搜索,左边栏上方的搜索框可即时搜索数据源名称和标签,搜索结果展示在数据源列表区
  4. 排序,支持按名称、状态、最近同步时间三列的任意一列,进行正序和倒序排序,默认按照名称的正序排列

Ds 管理数据 1.png

设置与操作

不同数据源支持的操作不同,当鼠标移动至相应数据源上方时显示,常用操作:

  • 设置:数据源设置可修改相应的配置项,内容基本与添加时保持一致。
    • 数据源停用,增加了停用状态,可使数据源不再与外部同步,也不会处理失败状态,仅用于BDP内部使用;连续失败三次后将默认被设置为停用。
  • 同步:部分数据源支持手动触发同步,更新数据,同步中不能进行除删除外的其他操作。可用于数据发生变动时手动更新BDP中数据。
    • 支持的数据源列表:MyQSL、Oracle、SQLServer、伙伴云、金数据、百度小户、百度统计、百度推广、百度网盟、CNZZ、诚信通、EC客服、53客服、GA统计、GROWINGIO、今日头条、Live800、美洽、美团外卖专家、奇虎点睛、360搜索推广、搜狗小户、搜狗网盟、神马收索推广、新浪粉丝通、新浪扶翼、搜狗搜索、搜狗网盟模拟登录、TalkingData、支付宝口碑。
    • 不支持同步:乐语、商桥、商桥2016、所有公共数据、客户端类本地同步数据源、BDP自有数据源暂不支持手动同步。
  • 查看:数据源查看,可跳转到数据源在工作表中的数据源视图中的位置,便于快速定位数据源。
  • 合并:数据源的追加合并,详细说明查看追加合并
  • 删除:删除数据源及其下全部工作表,如果其下工作表在BDP中被使用则不能删除,须先取消使用后重试。

Ds 管理数据 2 new.png

Tips:

  1. 鼠标悬浮查看详细信息,鼠标移动至已添加数据源的图标和最近同步时间时,将分别展示出数据源类型和精确到秒的最近同步时间。
  2. 直连数据和BDP自有的数据源删除其下工作表后,工作表和数据无法恢复,也无法进行操作,请谨慎操作,继续使用需要删除后重新创建。

追加合并

同类相同结构的数据(如两个百度推广下的两张关键词报告),因为使用目的一样,在进行数据分析时,通常需要先合并;在BDP中无法直接合并两张工作表,需要使用工作表追加合并(详见后续章节),而同类数据源下表相同,具有需要合并的特性,当同类数据源较多时进行合并的代价最小将是 M * N ,繁琐且容易出错,数据源合并可以一键解决这个问题。

当存在同类数据源时,可参考一个已有的数据源所进行的追加合并操作,将同名工作表做同样的操作,步骤如下:

1. 假设有神马卧龙搜索数据源“神马数据-RNAME”下有表关键词报告和账户报告,利用两张报告分别创建了两张追加合并表,共四张工作表;之后又添加了同类数据源“神马测试”,在已添加数据源列表中找到“神马测试”,点击追加合并,看到可以参考的数据源列表,选择“神马数据-RNAME”。

Ds 追加合并 1.png

2. 选择后将展示出,“神马测试”其中的工作表将按照“神马数据-RNAME”中的同名工作表进行的操作,如下图关键词报告、账户报告将分别进行两次追加合并。

Ds 追加合并 2.png

3. 上图中出现叹号的追加合并表表示,当前数据源的左侧工作表已经出现在右侧的追加合并表中,如上图表示“神马测试”的关键词报告已经出现在“追加合并测试1”中,继续将覆盖原有操作。

4. 确定后完成合并。

数据源详情

鼠标移动至已添加数据源的名称时,可点击进行详情页,详情页包含了其下工作表在BDP的详细信息和数据源的同步记录。

  • 工作表详情:数据源下每张工作表的数据量、当前状态、最近更新时间、使用情况、使用次数,可用状态筛选;

Ds 详情记录 1.png

  • 同步记录:最近7天内的数据源同步记录,每次同步时间与状态,可用状态筛选;

Ds 详情记录 2.png