HBase 数据结构

发表于 2023-12-22 分类于 HBase Valine：
本文字数： 1.1k 阅读时长 ≈ 1 分钟

HBase数据结构

1、RowKey

与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行，只有三种方式：

1）通过单个RowKey访问(get)

2）通过RowKey的range（正则）(like)

3）全表扫描(scan)

RowKey行键 (RowKey)可以是任意字符串(最大长度是64KB，实际应用中长度一般为 10-100bytes)，在HBASE内部，RowKey保存为字节数组。存储时，数据按照RowKey的字典序(byte order)排序存储。设计RowKey时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

阅读全文 »

HBase 概述

发表于 2023-12-22 分类于 HBase Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

一、HBase 简介

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。

1、概述

HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。

HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。

HBase是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用Chubby作为协同服务，HBase利用Zookeeper作为对应。

阅读全文 »

Hadoop Pipes编程

发表于 2023-12-10 分类于 Hadoop Pipes Valine：
本文字数： 15k 阅读时长 ≈ 14 分钟

1、Hadoop Pipes简介

Hadoop Pipes是Hadoop MapReduce的C++接口代称。不同于使用标准输入和输出来实现的map代码和reduce代码之间的Streaming编程，Pipes使用Socket作为TaskTracker与C++进程之间数据传输的通道，数据传输为字节流。

2、Hadoop Pipes编程初探

Hadoop Pipes可供开发者编写RecordReader、Mapper、Partitioner、Reducer、RecordWriter五个组件，当然，也可以自定义Combiner。

WordCount.cc 示例，也可以参考该git项目https://github.com/alexanderkoumis/hadoop-wordcount-cpp/tree/master：

阅读全文 »

剑指offer（十二）：矩阵中的路径

发表于 2023-10-08 分类于剑指Offer Valine：
本文字数： 2.7k 阅读时长 ≈ 2 分钟

题目描述：

请设计一个函数，用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一格开始，每一步可以在矩阵中向左、右、上、下移动一格。如果一条路径经过了矩阵的某一格，那么该路径不能再次进入该格子。例如，在下面的3×4的矩阵中包含一条字符串“bfce”的路径（路径中的字母用加粗标出）。

[[“a”,”b“,”c”,”e”],
[“s”,”f“,”c“,”s”],
[“a”,”d”,”e“,”e”]]

阅读全文 »

剑指offer（十一）：旋转数组的最小数字

发表于 2023-10-07 分类于剑指Offer Valine：
本文字数： 2.4k 阅读时长 ≈ 2 分钟

题目描述:

把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个非减排序的数组的一个旋转，输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转，该数组的最小值为1。 NOTE：给出的所有元素都大于0，若数组大小为0，请返回0。

阅读全文 »