CNN을 이용한 빈피킹 시스템 구축

Abstract

산업 자동화(Industrial Automation)는 생산/조립 공정과정을 사람이 하지 않고 기계류가 공정을 제어하는 것을 말한다. 산업용 로봇은 노동력을 제공해 제품의 품질 향상, 인건비 절감으로 원가절감을 가져오고 위험한 작업을 대신하여 인간의 삶의 질을 향상시킨다.
빈피킹(Bin-picking)이란 무작위로 겹쳐 쌓인 여러 물체 중에서 개별 물체를 잡아 올리는 작업을 말한다. 빈피킹 시스템을 구현하기 위해서는 물체의 위치와 자세정보를 정확히 알아야 한다. 본 연구에서는 빈피킹 시스템을 딥러닝(Deep-Learning)과 물체의 3차원 특징 정보를 활용해서 물체의 위치정보와 자세정보를 추정하는 방법을 연구한다.

 

Convolution Neural Network

CNN은 다른 딥러닝 구조들에 비해 영상, 음성 분야에서 좋은 성능을 보여주는 신경망 구조이다. 또한 학습과정에서 특징 정보들을 일반화하면 다른 환경에서도 뛰어난 인식률을 보여준다. 본 연구에서는 CNN을 이용하여 물체를 학습하고 물체의 위치를 추정한다.
cnn_binpicking

 

물체의 3차원 자세추정

파지할 물체의 3D CAD 정보를 이용하여 물체의 자세를 추정한다. 3D Sensor로 입력영상을 점군으로 변환한 이후 ICP 알고리즘을 통해 물체의 자세를 추정한다.
icp_binpicking

CNN을 이용한 분술물 최적 제거 경로 결정

Abstract

오염된 하천 또는 해양 표면에는 많은 불순물들이 존재한다. 이러한 불순물을 인식하고 제거하기 위해 기존에는 숙련된 전문가가 직접 제거하거나, 로봇을 제어하여 제거한다. 하지만 넓은 하천이나 해양에서 불순물을 판단하고 제거하기엔 비교적 많은 인력이 요구된다. 또한 환경에 따라 인명 피해도 발생할 수 있다. 따라서 본 연구에서는 불순물 제거 작업의 자동화를 위해, 획득한 영상에서 Deep-Learning을 활용한 불순물 제거 경로 추정 방법을 연구한다.

 

Convolution Neural Network

최근 Deep-Learning 중에서 Convolution Neural Network(CNN)은 이미지 인식 분야에서 뛰어난 성능을 보이고 있다. 이에 본 연구에서는 획득 영상을 셀(Cell) 단위로 분할한 뒤 각 셀에 대한 숙련자의 작업 경로를 라벨링(Labeling) 후 CNN을 이용하여 학습한다. 학습된 데이터를 이용하여 영상의 각 셀에 대한 라벨들의 확률을 구하고 끝점에서부터 역으로 최대 가능도를 통해 불순물 제거 경로를 추정한다.

 

CNN 기반의 경로 학습

캡처1

 

셀 영역의 경로 방향 결정

캡처

회전 3D 센서를 이용한 3차원 족부 스캐너

Abstract

맞춤형 신발을 제작하기 위해서는, 사용자의 정밀한 발 형상 데이터가 필요하다. 발 형상 데이터를 획득하기 위해 주로 3차원 족부 스캐너를 사용한다. 시중에 공개된 3차원 족부 스캐너들은 일반적으로 카메라와 라인 레이저로 구성된 3D 센서가 선형 이동을 하며 스캔한다. 선형 이동의 특성상 하나의 3D 센서로 족부의 모든 표면을 스캔할 수 없다. 따라서 여러 개의 3D 센서를 족부 다방면에 배치하여 스캔한다. 센서의 수가 늘어남에 따라 장치의 전체 가격이 높아지는 단점이 있다. 따라서 본 연구는 회전 3D 센서를 이용한 회전 방식의 3차원 족부 스캐너를 연구한다. 회전 이동하는 하나의 3D 센서로 족부의 모든 측면을 스캔할 수 있어, 보다 적은 양의 센서로 족부 전체의 스캔이 가능하다.

 

장치 구성

회전 이동을 할 수 있게 스캐너는 원통 형태이며, 회전 이동을 위한 회전 스테이지와 선형 이동을 위한 선형 스테이지로 구성되어 있다. 회전 3D 센서는 회전 스테이지를 따라 회전 이동하며 족부 측면을 스캔한다. 선형 3D 센서는 선형 스테이지를 따라 선형 이동하며 족부 바닥을 스캔한다.
그림1

 

3D 센서 구성

일반적인 3D 센서는 하나의 라인 레이저와 카메라로 구성되어 있다. 하지만 해당 센서를 회전 이동에 사용할 경우 스캔 과정에서 족부의 표면이 지속적으로 변화하여 많은 폐색 현상(Occlusion)이 발생한다. 이러한 문제를 해결하기 위해 두 개의 라인 레이저와 하나의 카메라로 회전 3D 센서를 구성한다. 하나의 라인 레이저가 족부 표면에 의해 폐색되더라도 이전의 위치에서 다른 라인 레이저로 폐색 영역의 스캔이 가능하여, 전체적인 폐색 현상을 줄일 수 있다.
그림2

 

획득 영상

 

스캔 결과

Stereo Vision Based 3D Pose Estimation of Product Labels

Abstract

In the field of computer vision and robotics, bin picking is an important application area in which object pose estimation is necessary. Different approaches, such as 2D feature tracking and 3D surface reconstruction, have been introduced to estimate the object pose accurately. In this research, we propose a new approach where we can use both 2D image features and 3D surface information to identify the target object and estimate its pose accurately. First, we introduce a label detection technique using Maximally Stable Extremal Regions (MSERs) where the label detection results are used to identify the target objects separately. Then, the 2D image features on the detected label areas are utilized to generate 3D surface information. We calculate the 3D position and the orientation of the target objects using the information of the 3D surface.

Overview of the proposed method

noname01

 

Experiment result

Stereo_Vision_1

(a)

Stereo_Vision_2

(b)

충전 크래들 라벨의 자세추정 결과 (a) 라벨 위치

및 자세 정보 (b) 3차원 뷰어로 본 결과

Stereo_Vision_3

(a)

Stereo_Vision_4

(b)

여행용 어댑터 인식 결과 (a) 라벨 위치

및 자세 정보 (b) 3차원 뷰어로 본 결과

Integrated video

 

PCA Based Analysis of External Respiratory Motion Using an RGB-D Camera

Introduction

Human respiration induces considerable external and internal motion in the thoracic and abdominal regions. Tracking and modeling of this motion is an important task for accurate treatment planning and dose calculation during external beam radiotherapy. Inaccurate motion tracking can cause severe issues such as errors in target/normal tissue delineation and increment in the volume of healthy tissues exposed to high doses. Different methods have been introduced to model the respiratory motion, but most of them use wearable markers or surgical node implanting techniques, which are inconvenient to patients.

In this research, we experiment the feasibility of using a commercial RGB-D camera along with Principal Component Analysis (PCA) to track and model the subject-specific external respiratory motion. Marker-based depth frame registration technique is also introduced to limit the measuring area into an anatomically consistent region during the treatment.

Overview of the proposed method

Process of respiratory motion modelling

System setup for data acquisition

An Asus Xtion PRO depth camera is used to acquire the depth data in real time covering the whole thoracic and abdominal region of the patient. However, the coverage of the depth sensor on the chest wall is variable due to the surface motion of the chest wall and also contain a lot of unnecessary regions. In radiotherapy, intended measuring area should be anatomically consistent during the whole treatment time for delivering the radiation dose accurately. Therefore, we attached four dot markers to the chest wall of the patient to define a consistent measuring area.

System setup for data aquisition

 Process of rectangular ROI generation

ROI Generation using Marker Detection

(a) Captured visual image. (b) After binarization using Otsu’s method. (c) Defining the measuring area after finding the center coordinates of the four markers. (d) Identified measuring area projected onto the aligned depth image. (e) Generated rectangular ROI using perspective transformation.

Principal Component Analysis

After acquiring the depth data, PCA is applied to capture the respiratory motion signal which is integrated into the major principal components. According to the observation on several input data, the first eigenvalue dominated the rest of the eigenvalues and accounted for over 95% of data variation. Therefore, only the first principal component can be used to represents the respiratory motion, significantly reducing the dimensionality of input depth data.

PCA

Respiratory motion modeling

We  reconstruct the depth data, which is in the metric domain, from the projection
coefficients and use it to model the respiratory motion.

Reference

  • U. Wijenayake and S. Park, “PCA Based Analysis of External Respiratory Motion Using an RGB-D Camera,” in 2016 IEEE International Symposium on Medical Measurements and Applications (MeMeA), Benevento, Italy, 2016.
    [Bibtex]
    @INPROCEEDINGS{wijenayake2016pca,
    AUTHOR="Udaya Wijenayake and Soon-Yong Park",
    TITLE="{PCA} Based Analysis of External Respiratory Motion Using an {RGB-D} Camera",
    BOOKTITLE="2016 IEEE International Symposium on Medical Measurements and Applications
    (MeMeA)",
    ADDRESS="Benevento, Italy",
    DAYS=14,
    MONTH=may,
    YEAR=2016,
    KEYWORDS="Respiratory motion, PCA, RGB-D camera",
    ABSTRACT="Human respiration induces considerable external and internal motion in the
    thoracic and abdominal regions. Tracking and modeling of this motion is an
    important task for accurate treatment planning and dose calculation during
    external beam radiotherapy. Inaccurate motion tracking can cause severe
    issues such as errors in target/normal tissue delineation and increment in
    the volume of healthy tissues exposed to high doses. Different methods have
    been introduced to model the respiratory motion, but most of them use
    wearable markers or surgical node implanting techniques, which are
    inconvenient to patients. In this paper, we experiment the feasibility of
    using an RGB-D camera along with Principal Component Analysis (PCA) to
    track and model the subject-specific external respiratory motion.
    Marker-based depth frame registration technique is also introduced to limit
    the measuring area into an anatomically consistent region during the
    treatment. We evaluate the accuracy of the proposed method using a
    Spirometer and a laser line scanner."
    }

Multi-Kinect 기반 Full 3D 스캐닝

Abstract

360도 방향에서 촬영한 물체를 3D 로 복원하기 위해, 카메라간의 기하관계를 알아야 한다. 이러한 카메라 간의 기하 관계를 간편히 구할 수 있도록, MS사의 Kinect V2와 단일 시점에서도 항상 원형을 유지하는 구형 물체를 활용하여 키넥트 간의 기하 관계를 알아내고 3D로 복원하는 것을 연구한다.

 

각 키넥트에서 획득한 볼의 중심 궤적을 활용하여 시점간의 기하관계 추출

 

모델 생성

 

4D Mesh Video 생성

Calibration of Stereo Gamma Camera to Estimate 3D Distance for Radioactive Sources

Abstract

Radiation detection devices; also known as particle detectors; are vastly used to track and identify radioactive sources, such as Gamma, X-Ray within a given area. The 3D distance to such radioactive sources can be estimated using stereo radiation detection devices. In stereo vision, the devices should be calibrated before they are used to acquire stereo images. In this research, we introduce a new idea to calibrate a ‘Hybrid Pan/Tilt type – Stereo Gamma camera’ using Planar Homography. The calibrated cameras are then used to generate stereo gamma images, where they are treated with enhanced bilinear interpolation method for noise reduction and smoothing. 3D distance calculation experiments infer the accuracy of our research, where the overall error lies less than 3%.

 

Project Introduction

 

Project Overall Introduction

그림1

 

Experiment Results

그림2

Nvidia Jetson TK1을 이용한 자율주행 정보 획득 기술

Abstract

주행 중 운전자 졸음, 주의 태만으로 차선을 이탈하거나 표지판, 주행 차로, 횡단보도 등의 도로 환경 정보를 인지하지 못하여 발생하는 사고는 인명피해를 유발시키는 대형 사고로 이어 진다. 이러한 인명사고를 예방하기 위한 기술 중 차선 정보를 검출하는 방법은 LDWS(Lane departure warning system)이 대표적인데 높은 성능을 위해 주행차선을 정확히 검출하는 기술과 실시간 연산기술이 필요하며 표지판과 주행차로, 횡단보도와 같은 도로 환경 정보를 정확히 검출하는 기술이 필요하다. 따라서 본 연구는 카메라와 도로평면의 기하관계를 이용하여 다양한 환경에서 곡선, 직선차선을 실시간 검출하고, 특징 정보와 기계학습을 이용하여 표지판, 횡단보도를 정확히 검출하며, 표지판과 도로평면의 기하관계를 이용한 정교한 주행 차로 검출하는 것을 연구한다.

 

곡선 차선 검출

직선 차선이 검출 후 차선 정보를 이용하여 도로평면과 카메라간의 기하관계를 알 수 있다. 기하관계를 이용하여 곡선검출을 한다. 검출된 곡선을 기반으로 전방 차선의 곡률정보를 운전자에게 알려 차선 이탈을 미리 방지 할 수 있다.

 

주행 차로 검출

현재 자동차의 네비게이션은 GPS의 오차로 인해 주행 중인 도로에서 운전자가 주행하고 있는 차로의 확인이 어렵다. 이를 보완하기 위해 비전카메라로 차선을 검출 후 검출된 차선들 중 중앙 차선을 검출한다면 현재 주행하고 있는 차로의 확인이 가능하다. 따라서 본 연구에서는 검출된 차선들 중 중앙차선의 존재 여부와, 검출된 중앙차선을 기준으로 현재 주행중인 차로 추적을 연구하였다.

 

시스템 병렬화

Nvidia의 Jetson TK1 임베디드 보드에 차선 검출 시스템을 구성하였다. 차선 검출은 실시간 연산이 필요한데 Jetson TK1의 CPU 성능이 낮아 실시간 처리가 어렵다. 보다 빠른 연산 시간을 위해 GPU 프로그래밍(CUDA)를 이용하여 실시간 연산을 수행하였다. CPU에 비해 약 4배 이상 빠른 속도로 차선검출이 가능하다.

 

표지판 인식 및 주행차로 판정

표지판으로 부터 도로 환경 정보를 획득하기 위해 표지판 영상으로부터 특징들을 추출하고 기계학습을 통하여 표지판을 검출하였다. 그리고 스테레오 카메라를 이용하여 표지판의 3차원 위치 정보를 추적하고, 도로평면과의 기하관계를 이용하여 주행 차로 추정을 연구하였다.

 

횡단보도 검출

횡단보도의 검출을 위해 입력 영상으로부터 영역별 적응형 이진화를 적용하고, x축 히스토그램을 이용하여 입력 영상에서 횡단보도 후보 영역을 추출 한다. 추출한 횡단보도 후보 영역에 대해 횡단보도의 특징을 추출하고 기계학습을 통하여 후보 영역 내에서 횡단보도를 인식 및 검출 한다.

Structured-Light 3D Scanning Technique Using Dual Pseudorandom Arrays

Abstract

The accurate and dense real-time acquisition of three-dimensional (3-D) data using a low-cost structured light system remains an ongoing topic in the computer vision community, as it is difficult to achieve all these features simultaneously. Among several techniques, the pseudorandom array technique is widely used in real-time 3-D scene capturing, as it tends to concentrate the entire coding scheme into a single pattern. However, existing pseudorandom array decoding methods cannot decode a given symbol in real time when missing neighbors exist. As a solution, we propose a dual pseudorandom array encoding and decoding method and a hole-filling method, which can improve the reconstruction accuracy and time. We experimentally compared our method with several others to verify that our method captures 3-D scenes quickly and densely.

Binary and Color Pattern Encoding Process

Proposed Dual Pseudorandom Pattern

References

  • Udaya Wijenayake, and Soon-Yong Park. “Dual pseudorandom array technique for error correction and hole filling of color structured-light three-dimensional scanning.” Optical Engineering 54.4 (2015): 043109-043109.

MuGSM (Multi-Directional Greedy Stereo Matching)

Fig.1 Flow of the MuGSM

> Objects
To obtain depth image from stereo images, we use stereo matching algorithm.
For a long time, many stereo matching algorithms have been developed.
And the performance are improving. But algorithms have weak points.
Those are long computation time, memory consuming, and scan line problem.
To solve these problems is the objects and motives.
We proposed an algorithm, whose accuracy is as good as SGM.
But, the computation time is shorter, and memory usage is smaller.
> Multi-directional Greedy

Make disparity maps using Greedy matching along 8 or 16 directions.

Fig 2. Matching directions Fig 3. Range of disparity
Number of matching direction is 8 or 16. The relation between current disparity and next disparity.
> Consistency Check
Find reliable area from greedy results using consisteny check.
Fig 4. Results of each greedy matching through 8 matching directions
Red point and blue point at each result mean same position of the original image.
Fig 5. Consistency check
Red points : The rate of inlier is higher than Consistency_ratio.
Blue points : The rate of inlier is smaller than Consistency_ratio.
> Iterative Expansion
1) After first ‘Consistency check’ get the reliable area
2) Restart Multi-directional Greedy Matching using reliable area.
3) Consistency check for the result of process 2.
4) Only in the holes(unreliable area), Iterate processes(2~3) are executed.
Fig 6. results of 1st iteration, 2nd iteration, 3th iteration, 4th iteration (from left-top, clockwise)
> Result
Computation time is 2~3 times faster than SGM’s. Memory usage is about 33% comparing to SGM’s. Accuracy almost equal.
Table 1. Compare with other stereo algorithms
Table 2. Memory usage
Table 3. Computation time