The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  ВХОД  слежка  RSS
"ms word (*.doc) format"
Вариант для распечатки Архивированная нить - только для чтения! 
Пред. тема | След. тема 
Форумы Программирование под UNIX (Public)
Изначальное сообщение [Проследить за развитием треда]

"ms word (*.doc) format"
Сообщение от uin emailИскать по авторуВ закладки on 18-Апр-02, 15:16  (MSK)
please, tell me how can I read such format under unix. I just wanna to read only the text but no pictures if any (or may be other windows controls).
Namely, how can I read only the text from doc file. As a result I want to get only the list of words from this text (search engine require such a thing). So it doesnt matter the regularity of text.

examples'r prefferred.

thank u.

  Рекомендовать в FAQ | Cообщить модератору | Наверх

 Оглавление

Индекс форумов | Темы | Пред. тема | След. тема
Сообщения по теме

1. "RE: ms word (*.doc) format"
Сообщение от Soldier Искать по авторуВ закладки on 19-Апр-02, 07:38  (MSK)
>please, tell me how can I
>read such format under unix.
>I just wanna to read
>only the text but no
>pictures if any (or may
>be other windows controls).
>Namely, how can I read only
>the text from doc file.
>As a result I want
>to get only the list
>of words from this text
>(search engine require such a
>thing). So it doesnt matter
>the regularity of text.
>
>examples'r prefferred.
>
>thank u.

I hope this will help:
http://sourceforge.net/project/showfiles.php?group_id=10501&release_id=70225

  Рекомендовать в FAQ | Cообщить модератору | Наверх

2. "Hm"
Сообщение от uin emailИскать по авторуВ закладки on 19-Апр-02, 13:33  (MSK)
It looks very strange. Do u understand how does It works?

thank u

  Рекомендовать в FAQ | Cообщить модератору | Наверх

3. "RE: Hm"
Сообщение от Soldier Искать по авторуВ закладки on 19-Апр-02, 15:17  (MSK)
>It looks very strange. Do u
>understand how does It works?
>
>
>thank u


For example, if you want to extract a text only from the file file.doc:

wvWare -x /usr/local/share/wv/wvText.xml file.doc > somefile.txt

By default it produces output in html format.

P.S. To my opinion it looks a bit ugly, but I do not know about another software for proccesing and converting MS Word documents. May be somebody else knows...

  Рекомендовать в FAQ | Cообщить модератору | Наверх

4. "clear, but"
Сообщение от uin emailИскать по авторуВ закладки on 19-Апр-02, 16:34  (MSK)
I do not wanna to translate it in suuch way. I wanna to use it's API if any. So could u show me such an example?

tnk u

  Рекомендовать в FAQ | Cообщить модератору | Наверх

5. "RE: clear, but"
Сообщение от Soldier Искать по авторуВ закладки on 19-Апр-02, 22:21  (MSK)
>I do not wanna to translate
>it in suuch way. I
>wanna to use it's API
>if any. So could u
>show me such an example?
>
>
>tnk u

Sorry, but I used it only once to extract some info from a numerous of word documents - perl, awk, and C function 'popen' were enough for those purposes.  So use 'popen' for now and try to find another software or examine this source code for the future.

Best.


  Рекомендовать в FAQ | Cообщить модератору | Наверх

6. "RE: ms word (*.doc) format"
Сообщение от Арлекин Искать по авторуВ закладки on 22-Апр-02, 07:57  (MSK)
man -s1 strings

This "feature" out txt strings from any file (and binary too). Test it. Source codes for Linux or BSD are no problem.

  Рекомендовать в FAQ | Cообщить модератору | Наверх

7. "RE: ms word (*.doc) format"
Сообщение от Soldier Искать по авторуВ закладки on 22-Апр-02, 15:35  (MSK)
>man -s1 strings
>
>This "feature" out txt strings from
>any file (and binary too).
>Test it. Source codes for
>Linux or BSD are no
>problem.

Depends on task. In my case it was unacceptable.:-(

  Рекомендовать в FAQ | Cообщить модератору | Наверх


Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Пожалуйста, прежде чем написать сообщение, ознакомьтесь с данными рекомендациями.




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру