The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Преобразовать структурированный файл в хеш"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Программирование под UNIX (Perl)
Изначальное сообщение [ Отслеживать ]

"Преобразовать структурированный файл в хеш"  +/
Сообщение от Andrey (??) on 09-Мрт-16, 15:14 
Всех приветствую.

Имеею файл следующего формата:
+------------------+----------+--------+------+-----+
| Name             | Current  | Office | Age  | ... |
|                  | Position |  City  |      |     |
+------------------+----------+--------+------+-----+
| Vasiliy_Petrov   | student  | n/a    | 30   | ... |
| Petr_Ivanov      | worker   | MSK    | 40   | ... |
| Ivan_Ivanov      | n/a      | SPB    | 20   | ... |
| ...              | ...      | ...    | ...  | ... |
+------------------+----------+--------+------+-----+

Пример (на случай некорректного отображения):
http://pastebin.com/raw/EvuzWkrQ

Длина ячеек динамическая (мзменяется в зависимости от длиный значений в них).
Но кол-во столбцов фиксированое - их всегда 14.

Вопрос:
каким образом распарсить такого рода таблицу, чтобы на выходе получить Perl хэш вида:

%"Vasiliy_Petrov"= (

"Current Position"=>"student",
"Office City"=>"n/a",
"Age"=>"30,

);

Жду любые идеи\советы.

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по ответам | RSS]

1. "Преобразовать структурированный файл в хеш"  +1 +/
Сообщение от XAnder (ok) on 09-Мрт-16, 17:04 
> Вопрос:
> каким образом распарсить такого рода таблицу, чтобы на выходе получить Perl хэш вида:

В чём конкретно трудности? На первый взгляд задача несложная.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Преобразовать структурированный файл в хеш"  +/
Сообщение от Pahanivo (ok) on 09-Мрт-16, 19:40 
1) Ээээ не совсем понятно - получить КОД инициализации хеша, или таки загнать данные в хэш?
2) Зачем использовать хэш для чистого вида двумерного массива???
3) парсить как то так /^|\s*(\S+)\s*|\s*(\S+)\s*.... возможно палки нужно заэкранить, не помню, далее $1, $2 ..... ну или кромсать построчно в цикле.
4) вот с титулом повеселей, да и вероятно при таком подходе в теле таблицы могут тоже попадаться многостроки ...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Преобразовать структурированный файл в хеш"  +/
Сообщение от XAnder (ok) on 09-Мрт-16, 21:27 
> 1) Ээээ не совсем понятно - получить КОД инициализации хеша, или таки загнать данные в хэш?

Судя по всему, ТС имел в виду массив хешей.

> 2) Зачем использовать хэш для чистого вида двумерного массива???

Там на самом деле массив записей или структур, то есть поля имеют разную природу, более-менее фиксированное количество, а порядок их не важен. Для этих дел в Перле традиционно используют хеши как наиболее выразительное (из имеющихся) средство.

> 3) парсить как то так /^|\s*(\S+)\s*|\s*(\S+)\s*.... возможно палки нужно заэкранить,  не помню, далее $1, $2 ..... ну или кромсать построчно в цикле.

Всё так. Вариантов много можно придумать. Например, можно вспомнить про модификатор /g:

map {...тут разбираем, что наловили...} m/\|\s*([^|]+)/g

> 4) вот с титулом повеселей, да и вероятно при таком подходе в теле таблицы могут тоже попадаться многостроки ...

Да, это единственное нетривиальное место в этой задаче. Но тоже просто: цикл по строкам заголовка и сцепка отловленного на одинаковых позициях. На выходе имеем массив заголовков, его элементы потом используем как ключи хеша.

А вот в теле многостроки никак, или нужно вводить дополнительный синтаксис.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Преобразовать структурированный файл в хеш"  +/
Сообщение от ACCA (ok) on 10-Мрт-16, 01:24 
Ну, я бы как-то вот так сказал:

#!/usr/bin/perl

use warnings; use strict;
use Data::Dumper;

my (@row,@header,@result, $i,$hdr);
while (<main::DATA>) {
    s/^\|\s|[\s\|]+\s*$//go;
    if (/^\+-.+\+$/ && !$hdr .. /^\+-.+\+$/ && $hdr) {
        if (/^\+/) {
            if ($hdr) {
                foreach ($i=0; $i<= $#header; $i++) {
                    $header[$i] = join ' ',@{$header[$i]};
                }
            }
            $hdr=1;
            next;
        }
        @row = split /\s+\|\s+/,$_;
        for ($i=0;$i<= $#row;$i++) {
            push @{$header[$i]},$row[$i] if $row[$i];
        }
        next;
    }
    last if /^\+-/;
    $i={};
    @{$i}{@header} = split /\s+\|\s+/,$_;
    push @result, $i;
}

print Dumper \@result;
__DATA__
+------------------+----------+--------+------+-----+
| Name             | Current  | Office | Age  | ... |
|                  | Position |  City  |      |     |
+------------------+----------+--------+------+-----+
| Vasiliy_Petrov   | student  | n/a    | 30   | ... |
| Petr_Ivanov      | worker   | MSK    | 40   | ... |
| Ivan_Ivanov      | n/a      | SPB    | 20   | ... |
| ...              | ...      | ...    | ...  | ... |
+------------------+----------+--------+------+-----+


Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Преобразовать структурированный файл в хеш"  +/
Сообщение от Pahanivo (ok) on 10-Мрт-16, 09:52 
> Там на самом деле массив записей или структур, то есть поля имеют
> разную природу, более-менее фиксированное количество, а порядок их не важен. Для
> этих дел в Перле традиционно используют хеши как наиболее выразительное (из
> имеющихся) средство.

Ты прикалываешь что ли? Под таблицу использовать хеш? Какие тут структуры?
Какая разная природа? Перлу вообще на типизацию пофигу.
Тут массив двумерный идеален (можно сделать многострок в виде третьего измерения).

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

6. "Преобразовать структурированный файл в хеш"  +/
Сообщение от XAnder (ok) on 10-Мрт-16, 12:57 
> Ты прикалываешь что ли? Под таблицу использовать хеш? Какие тут структуры?
> Какая разная природа? Перлу вообще на типизацию пофигу.
> Тут массив двумерный идеален (можно сделать многострок в виде третьего измерения).

Согласен. Я же только про выразительность писал, лёгкость восприятия человеком. $a->{Age} - сразу понятно, что это, а вот $a->[3] - не сразу. Да, во многих случаях такая выразительность не нужна.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру